零一万物开源Yi-1.5系列大模型

技术

写在前面

大家好,我是刘聪NLP。

今天早上看到零一万物发布了新的模型Yi-1.5系列,涉及6B、9B和34B三种规模,前有Qwen1.5后有Yi1.5,开源卷起来。


        
          
Github: https://github.com/01-ai/Yi-1.5  
HF: https://huggingface.co/collections/01-ai/yi-15-2024-05-663f3ecab5f815a3eaca7ca8  

      

介绍

Yi-1.5系列模型在结构上与Yi系列模型保持一致,是Yi系列模型的增量预训练版本,Base模型使用500B Tokens的高质量语料库进行的增量预训练,Chat模型是在Base模型上使用300万指令数据微调得来。

模型的上下文长度为4K。

之前分析过Yi的技术报告,详见:《Yi技术报告细节分享》

与Yi系列模型相比,Yi-1.5系列模型在编码、数学、推理、指令遵循、语言理解、常识推理和阅读理解等多方面展现了更为出色的能力。

Yi-1.5系列模型整体上看,优于Qwen1.5同等规模的模型,34B-Chat模型部分指标甚至超过Qwen1.5-72B模型,尤其是在代码、数学能力上,尤为突出。

picture.image 6B-Chat和9B-Chat模型

picture.image 34B-Chat模型

此外,Yi-1.5系列模型的开源协议为Apache 2.0。

模型使用

直接transformers走起,以34B-Chat模型为例。PS:模型下载有困难的同学,详见我之前写的一篇文章《大模型下载使我痛苦》

赶紧玩起来,实测一波。


        
          
from transformers import AutoModelForCausalLM, AutoTokenizer  
  
model_path = '01-ai/Yi-1.5-34B-Chat'  
  
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)  
  
model = AutoModelForCausalLM.from_pretrained(  
    model_path,  
    device_map="auto",  
    torch_dtype='auto'  
).eval()  
  
messages = [  
    {"role": "user", "content": "你是谁"}  
]  
  
input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, add_generation_prompt=True, return_tensors='pt')  
output_ids = model.generate(input_ids.to('cuda'))  
response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=True)  

      

写在最后

大模型开源社区也是越来月繁荣昌盛,个人认为与闭源直接的差距是在缩小的,请各位头部开源组织继续加油,我会紧紧跟随。

picture.image

PS:给公众号添加【星标⭐️】不迷路!您的点赞在看关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

我们的口号是“生命不止,学习不停”!

往期推荐:

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
如何利用云原生构建 AIGC 业务基石
AIGC即AI Generated Content,是指利用人工智能技术来生成内容,AIGC也被认为是继UGC、PGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。而 AIGC 业务的部署也面临着异构资源管理、机器学习流程管理等问题,本次分享将和大家分享如何使用云原生技术构建 AIGC 业务。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论