技术发展的太快了,大家对新模型可能已经麻木了。7月上旬的所有新的开源模型如下图,有几十个了。
karpathy大佬,前阵子才说过,前沿的技术x最先引起讨论,但是具体好不好,r/localllama的评论区绝对很有含金量。
localllama社区,一般每隔几个月就会有人询问,现在最好的模型是什么呢?如下图,刚好最新的一条是2天前,攒了一下评论,简单爬虫总结了一下。
LLM总结如下:
- Gemma 2: 18次提及
- “与他们大小相当的模型中用过的最好的”
- “9B在总结和推理哲学文本时,能够用相当连贯的概念组合来表达英语。”
- “我们通过Agent工作流程获得了非常好的性能,允许模型一次专门处理一个任务。”
- “ Ditto。在我的2080ti上运行genma2 9b,速度快且效果非常好。我真的很想要一个可以提供像perplexity或Kagi fastgpt这样的源链接的本地大模型,因为这个功能太棒了”
- “如果你要问,gemma 2 9b比llama 8b好多了。”
- “Gemma 2 9b是唯一一个速度超快且在任何我尝试的任务上都能击败3.5的模型。+它的法语能力真的很好。非常适合作为discord机器人。而且,如果你将大部分层卸载,你可以得到一个足够快的discord机器人,它只占用3或4gb的VRAM,这样你就有空间放置稳定的扩散等内容了!真是令人难以置信。与moondream 1b的视觉相结合,你就有了一个多语言机器人,它能很好地遵循提示和写作风格,并能在聊天中“看到”图片。总共只需要大约5gb的vram。”
- “在处理非英语文本时,Gemma 9B甚至比Llama 70B还要出色。”
- “我尝试使用gemma 2 9b指令进行合成数据生成(从段落中推导出问题和答案),但90%的时间它都拒绝合作......这给我留下了非常不好的印象”
- Llama 3: 提到10次
- “700亿的LLM,如Llama 3 70B和Qwen 72B”
- Mistral: 提到9次
- “对我来说是Mistral 7B。不是MoE的那个,我没有那个硬件。”
- “我喜欢Mistral 7B(v03)指令。恕我直言,它甚至还没有接近Gemma 9B,即使是在后者的较小量化上也是如此。但mistral v03早在gemma 9b之前就出来了。”
- “mistral-instruct v0.3 7b。我喜欢那个模型。即使gemma 8b和phi medium看起来更好。另外,WizardLM2(与mistral非常相似并且基于它)也很棒..试试吧。”
- Phi 3: 提到6次
- Qwen: 提到5次
- “它推出的时候很好,但后来被gemma和phi-3取代了”
其他正面提及的模型:DeepSeek、Cohere Command R、InternLLM、Yi 34B(Nous-Capybara版本)
最后能看到这里的小伙伴,属实是难得,赠送一个彩蛋~
有个网友提到他给 Llama 3 一个 450 行的任务,结果模型回复了“Good Luck”,可能很多模型在对处理极长或复杂提示的能力存在潜在限制,不是尝试处理或解决冗长的指令,而是提供一个通用的回复,如下图。同样爬了一些评论,总结一下网友的观点:
-
"Good Luck" or Good AI??模型的反应可能是由于类似于考试的措辞。添加"Output:" or "Answer:" 可能会产生不同的结果,突出文本完成和理解之间的区别。
-
人工智能的懒惰:早期的开源模型对代码请求的回应是:“This sounds like a lot of work”,表现出像人类一样不愿意执行复杂的任务。
-
上下文很重要:Ollama 中默认的上下文长度 2048 可能会截断冗长的指令。将其增加到 8096 可以处理完整的 450 行任务。
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读