CogAgent: 清华新开源多模态Agents模型 - 文章 - 开发者社区

“ 看demo示例，有点酷，代码模型开源


        
          
https://arxiv.org/abs/2312.08914  
https://github.com/THUDM/CogVLM/blob/main/README_zh.md  
https://huggingface.co/THUDM/cogagent-chat-hf

CogAgent上线。CogAgent是基于CogVLM的开发优化的图像理解模型，具备基于视觉的GUI Agent能力，并在图像理解能力上有进一步提升。支持1120*1120分辨率的图像输入，具备图像多轮对话、GUI Agent、Grounding等多种能力。

picture.image

CogAgent-18B 在9个跨模态基准测试上取得了 SOTA 的通用性能，包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、和 POPE。在AITW、Mind2Web等GUI操作数据集上取得了SOTA的性能，大幅超过已有模型。

除了CogVLM已有的全部功能（视觉多轮对话、视觉定位）外，CogAgent

支持更高分辨率的视觉输入和对话问答。支持1120*1120超高分辨率的图像输入。
具备视觉Agent的能力，针对任意GUI截图，对于用户给定的任务，CogAgent均能返回计划、下一个动作、含坐标的具体操作；
提升了GUI相关的问答能力，可以针对任意GUI截图进行问答，例如网页、PPT、手机软件，甚至能够解说原神界面。
通过预训练与微调，在OCR相关任务上的能力大幅提升。

不做更多介绍了，感兴趣的自己去看把，周末别卷了~