阿里Qwen家族又添猛将!Qwen2.5-Omni能看能听能说能写,性能超越Gemini,视频实时互动。

大模型向量数据库云通信

🍹

Insight Daily

🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

阿里 Qwen 家族添新丁:Qwen2.5-Omni,一个真正的“Omni”全能模型。

这款新模型号称能看、能听、能说、能写,还能实时响应。文本、图片、音频、视频,一个模型全搞定。

自家 Qwen Chat 也用上了,还能语音、视频直接聊,跟真人似的。

picture.image

体验地址:https://chat.qwen.ai/

社区也热赞,虽然也有人说离 GPT 还差点,但这波开源全能操作确实很顶。

picture.image

picture.image

更重要的是,团队把 Qwen2.5-Omni-7B 开源了,用的 Apache 2.0 协议。

技术报告也一起发了,里面细节都有。

现在开发者和企业可以免费下载商用,手机这种端侧智能硬件也能轻松部

署运行。

想深入了解的,各种传送门都准备好了:

Github里面的部署教程很详细,很容易上手。

picture.image

官方放了不少 Qwen2.5-Omni 在真实场景里的 demo,挺有意思。

它现在有四个声音可选:说话带停顿语气,听着挺自然。

picture.image

能干啥呢?

厨房帮手:你拿着食材问它咋做,或者让它看看厨房有啥调料推荐用法,它能实时分析给建议。对厨房小白挺友好。

音乐点评:放段音乐给它听,它能判断风格、调性,还能对原创歌曲的词、节奏给点意见。

绘画参谋:看到草图,它能理解画的啥,还能给构图提建议。

户外观察/学习辅助:还能判断天气、辅助解题、读论文。多模态能力确实通用。

性能跑分这块,Qwen2.5-Omni 表现咋样?

在需要同时处理多种信息的任务上 (比如 OmniBench)。 Qwen2.5-Omni 直接登顶 SOTA,拿了 56.13%,把第二名 Gemini 1.5 Pro 的 42.91% 甩开不少。

picture.image

单项能力也没落下,看官方列出来的:语音识别、翻译、音频理解、图像推理、视频理解、语音合成…… 都很擅长。

柱状图摆在那儿,对比看得很清楚,蓝色条(Qwen2.5-Omni)在大部分项目上都顶在前面:

picture.image

那它是怎么做到这么“全能”的?

Qwen2.5-Omni 用了一套自研的“Thinker-Talker”双核架构。可以把它想象成大脑和嘴巴协同工作。

picture.image

“Thinker” 模块,就像是大脑。

它负责接收和处理各种输入,比如文字、声音、图像、视频。它的任务是理解这些信息的深层含义,并生成相应的文本内容。技术上,它基于 Transformer 解码器,并融合了专门的音频和图像编码器来提取特征。它会共享整个对话的上下文信息,形成一个统一的模型结构。

“Talker” 模块,则像是嘴巴。

它从 “Thinker” 那里实时接收理解好的语义信息和文本,然后流畅地合成语音 输出 。它用的是一种双轨 Transformer 解码器设计,能直接利用 “Thinker” 输出的高维信息,让语音合成更自然。

网友们催更移动版上线。

picture.image

估计很多人都想使用实时视频,毕竟电脑使用不太方便。

picture.image

也有考虑和硬件结合,app开发的。

picture.image

官方也说了,后面还有更强的版本在路上,输出图片、视频、音乐啥的,可以期待下。

🌟 知音难求,自我修 **炼亦艰,

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)。**

点这里👇关注我,记得标星哦~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论