CogAgent: 清华新开源多模态Agents模型

“ 看demo示例,有点酷,代码模型开源


        
          
https://arxiv.org/abs/2312.08914  
https://github.com/THUDM/CogVLM/blob/main/README_zh.md  
https://huggingface.co/THUDM/cogagent-chat-hf  

      

CogAgent上线。CogAgent是基于CogVLM的开发优化的图像理解模型,具备基于视觉的GUI Agent能力,并在图像理解能力上有进一步提升。支持1120*1120分辨率的图像输入,具备图像多轮对话、GUI Agent、Grounding等多种能力。

picture.image

picture.image

CogAgent-18B 在9个跨模态基准测试上取得了 SOTA 的通用性能,包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、和 POPE。在AITW、Mind2Web等GUI操作数据集上取得了SOTA的性能,大幅超过已有模型。

除了CogVLM已有的全部功能(视觉多轮对话、视觉定位)外,CogAgent

  • 支持更高分辨率的视觉输入和对话问答。支持1120*1120超高分辨率的图像输入。
  • 具备视觉Agent的能力,针对任意GUI截图,对于用户给定的任务,CogAgent均能返回计划、下一个动作、含坐标的具体操作;
  • 提升了GUI相关的问答能力,可以针对任意GUI截图进行问答,例如网页、PPT、手机软件,甚至能够解说原神界面。
  • 通过预训练与微调,在OCR相关任务上的能力大幅提升。

不做更多介绍了,感兴趣的自己去看把,周末别卷了~

0
0
0
0
评论
未登录
暂无评论