前天,Apple发布了他的最新的多模态大语言模型MM1家族,这个模型家族包括多个尺寸大小的模型,从3B、7B到30B。
在论文里,Apple展示了这个模型的强大视觉理解能力。
第一个例子是通过语境学习的方式让模型来统计图片中的物体数量;第二个例子是做图片中的局部OCR;第三个例子是用常识来推理图片的内容,识别图片中的家具,并且估计家具的重量;第四个例子是用语境学习的方式来计算图片中的物体数量。
第二个图片里,苹果演示了如何从一张餐桌照片和一张菜单照片计算出餐桌上的啤酒总价格。并且拿Emu-Chat-37B和LLaVa-NeXT-34B进行对比,这两个模型都没有回答正确。苹果的MM1-30不仅能回答出是12元,还能正确地解释出因为菜单里,每个啤酒6元,2瓶啤酒一共12元的推理过程。
在模型的SOTA测试对比中,MM1模型在对应的尺寸比较中都胜出。甚至在部分数据集的测试中,要比Gemini和GPT4V效果还要好。
非常可惜的是,目前这个模型没有开源,暂时还无法从任何地方体验到这个模型的具体效果。
实时跟踪大语言模型论文
