Kimi-VL 开源

大模型向量数据库云通信

大家好,我是刘聪NLP。

今天发现Kimi开源了两个MoE视觉理解大模型-Kimi-VL-A3B-Instruct和Kimi-VL-A3B-Thinking,总参数16.4B,激活参数仅为2.8B,上下文长度128K。

Github: https://github.com/MoonshotAI/Kimi-VL

Paper: https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf

picture.image

在榜单上,大多数超过Qwen2.5-7B模型,如下表所示。

picture.image

模型架构是由 MoE语言模型、原生分辨率视觉编码器(MoonViT)和 MLP 映射层 组成,如下图所示。

picture.image

Pre-Train阶段涉及4个阶段,总计4.4T Tokens。

  • 独立ViT训练:训练MoonViT,使其成为一个健壮的原生分辨率视觉编码器。
  • 联合预训练:同时使用纯文本数据和多种多模态数据训练整体模型。
  • 联合冷却阶段:使用高质量的语言和多模态数据集进行模型训练,并且加入合成数据,提升模型在数学推理、知识类任务和代码生成方面的表现。
  • 联合长文本激活阶段:将模型的上下文长度从8192扩展到131072,以处理长文本和长视频。

picture.image

Posting-Train阶段涉及3个阶段:

  • SFT阶段:利用多模态指令数据进行微调,先在32k序列长度下训练模型1个epoch,学习率从2e−5衰减到2e−6,然后在128k序列长度下再训练1个epoch。在第一阶段(32K),升温到1e−5最终衰减到1e−6。
  • CoT阶段:通过精心设计的提示工程构建了一个小而高质量的长CoT数据集,为了让模型学习基本的规划、评估、反思和探索的过程。
  • RL阶段:采用强化学习(RL)对模型进行训练,使其能够自主生成结构化的CoT推理路径。picture.image

最后快速使用

  
from PIL import Image  
from transformers import AutoModelForCausalLM, AutoProcessor  
  
model\_path = "moonshotai/Kimi-VL-A3B-Instruct"  
model = AutoModelForCausalLM.from\_pretrained(  
    model\_path,  
    torch\_dtype="auto",  
    device\_map="auto",  
    trust\_remote\_code=True,  
)  
processor = AutoProcessor.from\_pretrained(model\_path, trust\_remote\_code=True)  
  
image\_path = "demo.png"  
image = Image.open(image\_path)  
messages = [  
    {"role": "user", "content": [{"type": "image", "image": image\_path}, {"type": "text", "text": "What is the dome building in the picture? Think step by step."}]}  
]  
text = processor.apply\_chat\_template(messages, add\_generation\_prompt=True, return\_tensors="pt")  
inputs = processor(images=image, text=text, return\_tensors="pt", padding=True, truncation=True).to(model.device)  
generated\_ids = model.generate(**inputs, max\_new\_tokens=512)  
generated\_ids\_trimmed = [  
    out\_ids[len(in\_ids) :] for in\_ids, out\_ids in zip(inputs.input\_ids, generated\_ids)  
]  
response = processor.batch\_decode(  
    generated\_ids\_trimmed, skip\_special\_tokens=True, clean\_up\_tokenization\_spaces=False  
)[0]  
print(response)  

PS:看到这里,如果觉得不错,可以来个点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论