CogAgent: 清华新开源多模态Agents模型

向量数据库大模型智能语音交互

“ 看demo示例,有点酷,代码模型开源


        
          
https://arxiv.org/abs/2312.08914  
https://github.com/THUDM/CogVLM/blob/main/README_zh.md  
https://huggingface.co/THUDM/cogagent-chat-hf  

      

CogAgent上线。CogAgent是基于CogVLM的开发优化的图像理解模型,具备基于视觉的GUI Agent能力,并在图像理解能力上有进一步提升。支持1120*1120分辨率的图像输入,具备图像多轮对话、GUI Agent、Grounding等多种能力。

picture.image

picture.image

CogAgent-18B 在9个跨模态基准测试上取得了 SOTA 的通用性能,包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、和 POPE。在AITW、Mind2Web等GUI操作数据集上取得了SOTA的性能,大幅超过已有模型。

除了CogVLM已有的全部功能(视觉多轮对话、视觉定位)外,CogAgent

  • 支持更高分辨率的视觉输入和对话问答。支持1120*1120超高分辨率的图像输入。
  • 具备视觉Agent的能力,针对任意GUI截图,对于用户给定的任务,CogAgent均能返回计划、下一个动作、含坐标的具体操作;
  • 提升了GUI相关的问答能力,可以针对任意GUI截图进行问答,例如网页、PPT、手机软件,甚至能够解说原神界面。
  • 通过预训练与微调,在OCR相关任务上的能力大幅提升。

不做更多介绍了,感兴趣的自己去看把,周末别卷了~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数据库 veDB 核心技术剖析与展望
veDB 是一款分布式数据库,采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理,并对未来进行展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论