CogAgent: 清华新开源多模态Agents模型

向量数据库大模型智能语音交互

“ 看demo示例,有点酷,代码模型开源


        
          
https://arxiv.org/abs/2312.08914  
https://github.com/THUDM/CogVLM/blob/main/README_zh.md  
https://huggingface.co/THUDM/cogagent-chat-hf  

      

CogAgent上线。CogAgent是基于CogVLM的开发优化的图像理解模型,具备基于视觉的GUI Agent能力,并在图像理解能力上有进一步提升。支持1120*1120分辨率的图像输入,具备图像多轮对话、GUI Agent、Grounding等多种能力。

picture.image

picture.image

CogAgent-18B 在9个跨模态基准测试上取得了 SOTA 的通用性能,包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、和 POPE。在AITW、Mind2Web等GUI操作数据集上取得了SOTA的性能,大幅超过已有模型。

除了CogVLM已有的全部功能(视觉多轮对话、视觉定位)外,CogAgent

  • 支持更高分辨率的视觉输入和对话问答。支持1120*1120超高分辨率的图像输入。
  • 具备视觉Agent的能力,针对任意GUI截图,对于用户给定的任务,CogAgent均能返回计划、下一个动作、含坐标的具体操作;
  • 提升了GUI相关的问答能力,可以针对任意GUI截图进行问答,例如网页、PPT、手机软件,甚至能够解说原神界面。
  • 通过预训练与微调,在OCR相关任务上的能力大幅提升。

不做更多介绍了,感兴趣的自己去看把,周末别卷了~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 NoSQL 的实践与探索
随着 NoSQL 的蓬勃发展越来越多的数据存储在了 NoSQL 系统中,并且 NoSQL 和 RDBMS 的界限越来越模糊,各种不同的专用 NoSQL 系统不停涌现,各具特色,形态不一。本次主要分享字节跳动内部和火山引擎 NoSQL 的实践,希望能够给大家一定的启发。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论