Mistral AI发布世界上最好用的OCR模型,专注于高精度的文档理解和信息提取,特别适用于 复杂 PDF、图像、表格、数学公式、多语言文档 等多种格式。
在严格的基准测试中,Mistral OCR 的性能始终优于其他领先的 OCR 模型。它在文档分析的多个方面都具有出色的准确性,如下所示。
按语言
目前可以再Le Chat上免费测试,也可以调用 API mistral-ocr-latest,价格1000页/美元。
主要特点
- 领先的文档解析能力:能够精准提取文本、图片、数学公式、表格等复杂元素,适用于科学论文、技术手册等高密度信息文档。
- 多语言支持:可识别 全球多种语言、字体、手写体,在 OCR 多语言基准测试中 超越 Google Document AI 和 Azure OCR。
- 极高处理速度:同类中最快,在单个节点上 每分钟可处理高达 2000 页,远超同类 OCR 解决方案。
- 文档即提示(Doc-as-prompt):支持结构化输出(如 JSON),可用于自动化信息提取、知识管理等应用。
- 可自托管(Self-hosting):支持在企业私有服务器上运行,满足严格的数据安全和隐私合规要求。
官方博客:https://mistral.ai/news/mistral-ocr
博客里显示了它的中文OCR能力比Gemini2.0 Flash好。 简单体验了下,在下图的例子里,Gemini2.0 Pro OCR识别中文表现最好,Mistral OCR定位很厉害,中文识别能力一般,Gemini2.0 Flash一般