“ 看demo示例,有点酷,代码模型开源
https://arxiv.org/abs/2312.08914
https://github.com/THUDM/CogVLM/blob/main/README_zh.md
https://huggingface.co/THUDM/cogagent-chat-hf
CogAgent上线。CogAgent是基于CogVLM的开发优化的图像理解模型,具备基于视觉的GUI Agent能力,并在图像理解能力上有进一步提升。支持1120*1120分辨率的图像输入,具备图像多轮对话、GUI Agent、Grounding等多种能力。
CogAgent-18B 在9个跨模态基准测试上取得了 SOTA 的通用性能,包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、和 POPE。在AITW、Mind2Web等GUI操作数据集上取得了SOTA的性能,大幅超过已有模型。
除了CogVLM已有的全部功能(视觉多轮对话、视觉定位)外,CogAgent
- 支持更高分辨率的视觉输入和对话问答。支持1120*1120超高分辨率的图像输入。
- 具备视觉Agent的能力,针对任意GUI截图,对于用户给定的任务,CogAgent均能返回计划、下一个动作、含坐标的具体操作;
- 提升了GUI相关的问答能力,可以针对任意GUI截图进行问答,例如网页、PPT、手机软件,甚至能够解说原神界面。
- 通过预训练与微调,在OCR相关任务上的能力大幅提升。
不做更多介绍了,感兴趣的自己去看把,周末别卷了~