一周双响:DeepSeek搅动AI江湖,R1撼市场,Janus-Pro超DALL-E、SD

大模型向量数据库机器学习

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

DeepSeek又来了,R1的热度还没过,Janus-Pro就接着来了。 此前Deepseek的服务器还一度卡到宕机。Cline 官推了多条帖子。

picture.image

picture.image

这次的Janus-Pro是个能统一多模态理解和生成的框架,很有意思。 把视觉编码分成不同路径,但用同一个Transformer处理。这样既解决了视觉编码器在理解和生成时的冲突,又让整个框架更灵活。 性能也很亮眼,超越了之前的统一模型,匹配或超过了任务专用模型。picture.image 简单、灵活、高效,这可能就是下一代统一多模态模型的样子。 DeepSeek 发布了 7B 和 1B 两个版本。

picture.image

Janus Pro 7B的表现很惊艳。理解和生成两个任务,一个模型就能完美处理。 这里你可以看到 Janus Pro 7B 的表现优于另一个多模态开源模型 Lava,在与 Stable Diffusion、DI 3、SDXL 等模型的对比中,Janus Pro 7B 也占据了领先位置。

picture.image

GenEval和DPG-Bench的数据分别达到了80%和84.2%的准确率。 图像生成能力的进步更明显。看看这些样例:咖啡杯的细节、红酒杯的反光、向日葵上的蜜蜂,每一张都比前代更真实,更细腻。黑板上的文字清晰呈现。

picture.image

Janus Pro 使用自回归 Transformer 进行理解,其处理流程包括编码器和文本分词器,输出为文本。而在图像生成中,则使用文本分词器、生成编码器和图像解码器来完成解码。这个模型在图像理解与生成的双重任务上表现优异。

为了实现多模态理解,Janus Pro 使用了 DeepSeek V2,并训练了约 9000 万条数据样本。这些数据包括图像描述数据集、表格数据、图表数据,以及文档理解等内容。

而在视觉生成方面,他们加入了 7200 万条合成美学数据样本。模型在合成数据上的训练收敛速度更快,输出稳定性和美学质量得到了提升。

官方的一些实际效果演示:详细场景描述、地标识别、文本识别,以及准确的常识推理等任务都得到了良好表现。

例如,它可以介绍蛋糕的背景故事并准确识别其信息。海岸风景的细节描述、杭州西湖的地标识别、Tom and Jerry蛋糕的背景故事,都理解得很到位。picture.image

此外,该模型支持文本生成图像功能,生成的图像效果不错,从金毛犬到麦田少女,从水滴到石桥。这就是一个7B模型能达到的效果。

picture.image

网友也分享了实践:

picture.image

picture.image

模型代码在GitHub:https://github.com/deepseek-ai/Janus,模型在Hugging Face:https://huggingface.co/deepseek-ai/Janus-Pro-7B。本地部署也很简单,Gradio界面或FastAPI都可以。

除了这个新模型消息以外,此前有网友调侃R1发布之后Sam对此的态度:

picture.image

不过,就在今天Altman也终于公开发表了对R1的看法,这番表态很有意思。 承认DeepSeek R1的实力,特别是它的性价比;这种公开认可,显示了开源模型的崛起已经不容忽视。

picture.image

另一方面,他巧妙地转向了OpenAI的技术路线图,强调"更多计算力"的重要性。这暗示了两点:一是OpenAI在算力资源上的优势;二是下一代模型可能需要更大规模的训练。 特别值得注意的是他提到"世界将会想要使用大量的AI"。这表明AI的应用场景正在快速扩张,市场需求远未饱和。而"对下一代模型感到惊讶"这句话,则暗示了技术突破可能即将到来。 从"令人振奋的竞争"到"下一代令人惊讶的模型",再到AGI愿景,字里行间透露出一个信号:AI竞赛正在加速,而这对整个行业都是好事。 现在,网上有张梗图被传疯了:

picture.image

  • 美国的龙表情凶狠,象征其进取性和强大的技术输出。
  • 中国的龙表情强硬且自信,暗指其技术领域的快速崛起和独立发展。
  • 欧洲的龙(Mistral)则有一个滑稽、呆滞的表情,结合瓶盖图片,调侃欧洲在这一领域的“跟不上”或保守态度。
当DeepSeek遇上华尔街:一个开源项目引发的蝴蝶效应

除了上面模型外,一个更大的消息是:这个除夕夜,AI行业上演了一出惊心动魄的大戏。

先是英伟达股价暴跌17%,一夜蒸发6000亿美元市值,创下美股史上单个公司最大市值损失纪录。

picture.image

这个跌幅超过了此前Meta和苹果创下的纪录,损失金额甚至超过可口可乐和雪佛龙的市值总和。连带效应下,以科技股为主的纳斯达克综合指数跌3.1%,其他科技巨头也都受到重创。

更具讽刺意味的是,就在一周前,英伟达还在庆祝超越苹果成为全球市值第一。如今,不仅公司市值大跌,CEO黄仁勋的个人财富也在一夜之间缩水210亿美元,全球富豪榜排名骤降至第17位。

一些观点指明,这场地震的震源是DeepSeek。他们只用了600万美元、两个月时间、性能受限的H800芯片,就开发出了突破性的AI模型。这直接挑战了传统的高投入模式:谷歌、Meta等巨头为训练AI投入数十亿美元购买顶级GPU,这种烧钱方式还有必要吗?

市场用脚投票,但分析师们极力反驳"GPU需求见顶论"。微软CEO纳德拉更是搬出了Jevons悖论:随着AI变得更高效、更便宜、更易获取,其使用量反而会出现井喷式增长,成为难以满足的"新型必需品"。

有一条帖子表示:GPU需求只会上涨,不会下降。这是显而易见的趋势。

picture.image

OpenAI依然强大,但开源阵营和中国团队的进步超出预期。差距,比想象中小得多。 主流媒体的报道充满误导。似乎有人在刻意制造混乱?这让整个讨论变得更加扑朔迷离。

picture.image

但有一点是确定的:DeepSeek开源R1,是送给开发者的一份大礼。这不只是一个模型的开源,而是整个AI进程的加速器。 我们现在的时间线上有很多多困惑和不确定。 这或许就是变革时刻的特征。 有观点认为,这或许不仅仅是一次股灾,而是AI行业的重要转折点。就像个人电脑从昂贵的商用机器变成家用必需品,AI也在经历从"奢侈品时代"向"大众消费时代"的转型。DeepSeek的创新打破了成本壁垒,可能重构整个行业的竞争格局。

当AI真正进入平民化时代,需求的爆发可能超出市场想象。

此外,还有关于美股因DeepSeek事件蒸发2万亿美元的说法,引发了热议,有人认为这一逻辑并不成立。

一个百人团队的产品就让美股蒸发2万亿美元,这个逻辑确实说不通。 DeepSeek的R1再强,也不至于让英伟达暴跌17%。 这更像是华尔街惯用的"借题发挥":DeepSeek开源模型的出现,可能只是一个导火索,而真正的原因是市场对AI板块估值的重新审视。毕竟,前期AI概念股的涨幅实在太疯狂了。 所以与其说是DeepSeek撼动了市场,不如说是华尔街借机进行了一次久违的"估值修正"。

picture.image

吴恩达教授也发布了条帖子:

DeepSeek引发的股市震荡,其实在讲一个更大的故事。 基础模型层的竞争越激烈,应用层的机会就越大。当V3和R1这样的模型打破成本壁垒,真正的价值就转向了应用创新。

picture.image

picture.image

基础模型的竞争会越来越白热化,但这恰恰为应用开发者创造了最好的土壤。就像Unix之于操作系统,开放的基础设施总是能催生更多创新。 现在,AI应用开发者的春天,可能真的要来了。

DeepSeek R1发布4天了,大家都在用它做什么?R1+Sonnet 在Aider获得 64.0% SOTA得分!

picture.image

以上。

🌟 知音难求,自我修 炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论