梦回2023,开源闭源同时发力。
多模态 🖼️
- @GoogleAI 发货了一款 PaliGemma 2,PaliGemma 的新一代产品,拥有更多尺寸:3B、10B 和 28B 👏
- @opengvlab 发布了 InternVL2,包含七个不同尺寸的新视觉语言模型 ✨
- @Alibaba_Qwen 阿里巴巴团队发布了 Qwen2VL 模型 2B、7B 和 72B
LLMs 💬
- @AIatMeta 发布了 Llama 70B 的新版本,Llama3.2-70B 进一步训练
- EuroLLM-9B-Instruct 是一个针对欧洲语言的 Apache 2.0 许可证的多语言 LLM
- @ TikTok 发布了 Sailor2 - 20B模型,和数据集,多语言大模型,20B可打赢Qwen2.5-32B
- 数据集:@CohereForAI 发布了 42 种语言的全球 MMLU,Apache 2.0 许可的多语言版本
- 数据集:QwQ-LongCoT-130K 是一个用于训练推理模型的新数据集
- 数据集:@huggingface 发布了更新多语言版本的 FineWeb2!🔥 包含多种语言的近 8TB 预训练数据!
图像/视频生成 ⏯️
- @TencentGlobal 发布了 HunyuanVideo,一个新的逼真视频生成模型
- OminiControl 是一种新的用于图像生成模型(如 Flux)的编辑/控制框架
音频 🔊
- Indic-Parler-TTS 是由社区制作的新文本到语音模型
闭源大厂的消息:
- openai的2次直播,分别介绍了强化学习微调,以及完全版o1。sora v2版本,生成1分钟长的视频,支持t2v, i2v, v2v。一些释放的视频非常惊艳,领先水平。
- 玉伯的新产品,youmind,知识库+AI,很有潜力!
- 谷歌notebook llm,接入了新的功能, Illuminate,可以输入主题生成博客,支持自定义语音,提示词等。
- google新模型。Gemini-exp-1206,重新回到竞技场榜首,达到了SOTA水准
- Runway Act One更新,可以在视频中,替换掉自己的动作和声音
- 微软copilot Vision ,主打网页陪伴属性,一个真的ai助手。
- 亚马逊发布Amazon Nova 系列模型,包含覆盖视频、图片、文本的理解、生成和推理模型
- grok免费限量开放,包括内置了aurora 新的生图模型,主打生成卡通,超现实效果