树莓派上都能运行的最强视觉小模型Moondream迎来更新,目光检测成为最大亮点

大模型机器学习图像处理

近日,曾在温哥华NIPS大会获得广泛关注的最强开源微型视觉理解模型(VLM)Moondream迎来更新,项目提供两个版本:2B 和0.5B 模型,其中0.5B版本号称全球最小的视觉语言模型。该模型能够在各类设备上高效运行,实现图像理解、文本识别、目标检测、定位等多种功能。其中,2B版本性能接近QWen2-VL 2B,但是它需要的内存却只有4.3G,而0.5B要求就更低了。它不仅能够在个人电脑就可运行,甚至手机或者一些边缘设备上(如树莓派)也能够运行,并且已适配webGPU,这意味着浏览器里也能高效运行。

picture.image

本次团队带来四大关键更新:

  1. 结构化数据输出:支持 JSON 、XML 、Markdown等多种格式

picture.image

2.优化 OCR 文本识别能力

picture.image

3.创新性 引入目光检测(Gaze Detection)技术

picture.image

4.全面提升性能基准测试指标

picture.image

尤其是目光检测功能堪称亮点,可精准分析人们的视线焦点,在自动驾驶、零售分析、教育等领域具有巨大潜力。这一技术在 GazeFollow 基准测试中达到 0.103 的平均水平,接近人类表现。

picture.image

该功能引来很多人兴趣,已被玩出了花。感兴趣的读者可以直接体验:https://huggingface.co/spaces/moondream/gaze-demo

更多体验:https://moondream.ai/playground

不得不说,Moondream表现非常惊艳,吸引了大量开发者目光,想必很快就会有很多基于该模型的有趣应用出来,但遗憾的是目前并不支持中文提示词,希望国内开发者能够多做贡献,造福大家。

项目地址: https://github.com/vikhyat/moondream

后台回复“进群”入群讨论。

0
0
0
0
关于作者
相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论