小钢炮又上新，OpenAI懵了！ - 文章 - 开发者社区

MiniCPM-o 2.6开源，总参数量为 8B。性能上比 MiniCPM-V 2.6 有显著提升，并引入了实时语音对话和多模态视频的新功能。

符合小钢炮定位，榜单已冲烂，午睡起来看智谱也发了新的模型，似乎这些榜上已经准备开始甩飞Openai、anthropic的顶尖模型一截了。

picture.image

下边是智谱GLM-4V-Plus 的评测榜单，看起来极度的优秀。

picture.image

开源上比较有特色的应该是这2个新能力？之前应该没有这种模型开源。

MiniCPM-o 2.6 支持英语和中文的双语实时语音对话，并具有可配置的语音。它在音频理解任务（如 ASR 和 STT 翻译）上优于 GPT-4o-realtime，在开源社区中在语音对话的语义和声学评估方面表现出最先进的性能。它还允许实现有趣的功能，如情感/速度/风格控制、端到端语音克隆、角色扮演等。
强大的多模态直播功能。作为新特性，MiniCPM-o 2.6 可独立于用户查询接收连续的视频和音频流，并支持实时语音交互。其性能优于 GPT-4o-202408 和 Claude 3.5 Sonnet，在 StreamingBench（实时视频理解、全源（视频和音频）理解以及多模态上下文理解的综合基准）开源社区中表现出色。
视觉能力、ocr能力、性能上依旧卓越。

模型架构 picture.image

官方已经适配了llama.cpp，16种尺寸的int4 & gguf, vllm, llama-factory微调，面壁和他的朋友们互动的非常好。