Llama-3 120B用过的都说好,Ollama+48G显存可跑!

MySQL机器学习Service Mesh

Meta-Llama-3-120B-Instruct 已经排进 Huggingface 热门排行Top10,它是一个由"Meta-Llama-3-70B-Instruct"自我合并而成的模型,使用MergeKit工具进行合并的。

picture.image

来自网友的评价

  • Llama3-120B 在这些难题上确实展现了比GPT-4更高的智能

query:观察希格斯场会改变它的状态吗?

  • GPT-4 -> 不会

  • Llama3-120B -> 只有在我们质疑量子力学的哥本哈根解释时,让我来解释一下...

picture.image

https://twitter.com/spectate\_or/status/1787308316152242289

  • 让Llama-3-120B解释下面的笑话(实际上是发生的)

它轻松地击败了im-also-a-good-gpt2-chatbot和im-a-good-gpt2-chatbot。

picture.image

https://twitter.com/spectate\_or/status/1788031383052374069

  • llama3-120B 在 bfloat16 格式下表现相当出色

它在数学和编码方面有些软肋,但这是我见过的首个能够可靠地在各种任务上与 Opus 和 GPT-4 竞争的开源模型(OSS model)。通过良好的微调(finetune)和一些额外的人类反馈强化学习(RLHF),它可能接近于匹敌。

picture.image

https://twitter.com/\_xjdr/status/1787666447612985456

  • 有趣的话题:Meta-Llama3-120B原生的自我合并Llama3以击败GPT4

虽然并不倡导视频中的所有观点

picture.image

https://twitter.com/GG\_Ashbrook/status/1788365679860596957

  • Llama3-120B版本交流——这玩意儿太聪明了

它不再让我随意摆布。它有自己的主意。

picture.image

https://twitter.com/erhartford/status/1787050962114207886

picture.image

Ollama+Llama3-120b

通过ollma使用llama3-120b-Q4-K_M量化版本,48G显存、38G RAM就可以run起来

picture.image

智能出现:数据+模型深度?

Llama3-120b与Llama3-70b 唯一的区别是额外的层,甚至是复制的层。 没有训练新信息。 因此,这种智能水平确实是从模型的深度中涌现出来的。 它不仅仅是训练数据的一个函数。 它是数据和深度的结合。

这表明: 智能的出现不仅仅是由于训练数据的量,而是数据和模型深度(即模型的复杂性或层数)的结合结果 ???

Llama3-120b配置信息


          
slices:
          
- sources:
          
  - layer_range: [0, 20]
          
    model: meta-llama/Meta-Llama-3-70B-Instruct
          
- sources:
          
  - layer_range: [10, 30]
          
    model: meta-llama/Meta-Llama-3-70B-Instruct
          
- sources:
          
  - layer_range: [20, 40]
          
    model: meta-llama/Meta-Llama-3-70B-Instruct
          
- sources:
          
  - layer_range: [30, 50]
          
    model: meta-llama/Meta-Llama-3-70B-Instruct
          
- sources:
          
  - layer_range: [40, 60]
          
    model: meta-llama/Meta-Llama-3-70B-Instruct
          
- sources:
          
  - layer_range: [50, 70]
          
    model: meta-llama/Meta-Llama-3-70B-Instruct
          
- sources:
          
  - layer_range: [60, 80]
          
    model: meta-llama/Meta-Llama-3-70B-Instruct
          
merge_method: passthrough
          
dtype: float16
          

      

        
            

          https://hf-mirror.com/mlabonne/Meta-Llama-3-120B-Instruct
        
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论