树莓派上都能运行的最强视觉小模型Moondream迎来更新,目光检测成为最大亮点

大模型机器学习图像处理

近日,曾在温哥华NIPS大会获得广泛关注的最强开源微型视觉理解模型(VLM)Moondream迎来更新,项目提供两个版本:2B 和0.5B 模型,其中0.5B版本号称全球最小的视觉语言模型。该模型能够在各类设备上高效运行,实现图像理解、文本识别、目标检测、定位等多种功能。其中,2B版本性能接近QWen2-VL 2B,但是它需要的内存却只有4.3G,而0.5B要求就更低了。它不仅能够在个人电脑就可运行,甚至手机或者一些边缘设备上(如树莓派)也能够运行,并且已适配webGPU,这意味着浏览器里也能高效运行。

picture.image

本次团队带来四大关键更新:

  1. 结构化数据输出:支持 JSON 、XML 、Markdown等多种格式

picture.image

2.优化 OCR 文本识别能力

picture.image

3.创新性 引入目光检测(Gaze Detection)技术

picture.image

4.全面提升性能基准测试指标

picture.image

尤其是目光检测功能堪称亮点,可精准分析人们的视线焦点,在自动驾驶、零售分析、教育等领域具有巨大潜力。这一技术在 GazeFollow 基准测试中达到 0.103 的平均水平,接近人类表现。

picture.image

该功能引来很多人兴趣,已被玩出了花。感兴趣的读者可以直接体验:https://huggingface.co/spaces/moondream/gaze-demo

更多体验:https://moondream.ai/playground

不得不说,Moondream表现非常惊艳,吸引了大量开发者目光,想必很快就会有很多基于该模型的有趣应用出来,但遗憾的是目前并不支持中文提示词,希望国内开发者能够多做贡献,造福大家。

项目地址: https://github.com/vikhyat/moondream

后台回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论