今天新闻太多了,包括但不限于,gpt4o-mini、 Mistral Nemo (HN) 12B模型开源(支持128k窗口) 、Together Lite and Turbo (吞吐量是vllm的4倍)、llama4的消息泄露。
在这些新闻下,昨天deepseek v2-chat 0628开源都没有那么起眼了,基本上接近一梯队的模型就这么开源了,respect!
hf地址:deepseek-ai/DeepSeek-V2-Chat-0628
- DeepSeek-V2-Chat-0628 是 DeepSeek-V2-Chat 的改进版本
- DeepSeek-V2-Chat-0628 在 LMSYS Chatbot Arena 排行榜上取得了骄人的成绩:
- 总体排名:#11,优于所有其他开源模型。
- Coding Arena 排名:#3,展示了编码任务中的卓越能力。
- Hard Prompts竞技场排名:#3,在具有挑战性的提示中表现出强劲的表现。
- 与之前版本DeepSeek-V2-Chat相比,新版本做了以下改进:
前几天,有一篇“暗涌”对deepseek的报告应该是朋友圈都刷屏了。其中有一个问题如下:(整个采访的内容都很高质量~)
「暗涌」:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像5月这次MLA架构的创新,也会很快被其他家copy吧?
梁文锋 :在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。
开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。
开源的模型很多,但是像Qwen、deepseek持续开源,保持开闭源大模型的差距始终在一个区间内,深感尊敬!
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读