小米AI全面开花 | HyperVL扔掉笨重ViT！这个1.8B小模型在手机上跑出SOTA，还省电90%！ - 文章 - 开发者社区

picture.image

还在为多模态大模型（MLLM）动辄数十亿参数、无法塞进手机而头疼？还在为高分辨率图像处理时，模型推理慢如蜗牛、内存瞬间爆表而抓狂？这几乎是所有想将AI能力部署到设备端的开发者和产品经理的噩梦。

但最新研究发现，问题的关键可能不在于模型太小，而在于我们一直用错了视觉编码器！ 一篇刚被CVPR 2025接收的论文《HyperVL》提出了一种颠覆性的思路：通过动态稀疏 与双路切换 ，让一个仅1.8B参数的小模型，在多个权威基准上跑赢了大它数倍的对手，更在真实手机上实现了延迟降低12.9倍、内存节省6.8倍 的惊人效果。

读完本文，你将彻底掌握：

视觉分辨率压缩器（VRC） 如何像“智能节流阀”一样，根据图像信息密度自适应降分辨率，砍掉冗余计算。

双一致性学习（DCL） 如何让一大一小两个视觉编码器“共用大脑”，实现性能与效率的动态平衡。

1. 一套从数据治理到训练调优的完整 端侧MLLM工业化方案 ，可直接复现。

🔥 开源代码已放出 （Star趋势🔥）：论文对应代码仓库（请读者关注作者官方发布）

❓ 为什么端侧多模态是下一个必争之地？你的手机正在呼唤“真智能”

想象一下：你的手机相册能像私人助理一样，根据截图内容主动推荐搜索关键词；扫一眼外卖订单截图，就能自动提取金额、地址并生成待办事项；甚至根据你刚拍的美食照片，一键生成小红书风格的爆款文案。这一切无需联网，隐私绝对安全，响应瞬间完成。

这就是设备端多模态大模型的终极愿景。然而，现实很骨感：

• 算力之殇 ：标准的视觉Transformer（ViT）编码器在处理一张1080p图片时，会产生数万个视觉Token，其 注意力机制的二次复杂度 让计算量和内存占用呈指数级增长。
• 内存之困 ：在手机有限的SRAM（片上高速内存）中，大型中间激活矩阵（Attention Map）放不下，只能频繁与慢速的DDR内存交换数据，这就是延迟的罪魁祸首。
• 精度妥协 ：为了提速，现有方案如FastVLM等往往采用激进的卷积下采样，粗暴减少Token数量，导致 细粒度视觉信息（如文字、图标）大量丢失 ，性能骤降。

“既要马儿跑，又要马儿不吃草” ，这似乎是个无解的矛盾。但HyperVL团队说：不，我们可以给马儿装上“自适应变速箱”和“双模引擎”。

💡 互动思考 ：你在实际的产品开发中，遇到过最头疼的端侧AI性能瓶颈是什么？是速度、内存，还是精度？欢迎在评论区分享你的故事！

🚀 核心拆解：HyperVL如何用“三把斧”砍掉端侧推理瓶颈？

HyperVL的架构设计充满了工程智慧，其核心可概括为三个关键技术：图像分块 、双一致性学习（DCL） 和 视觉分辨率压缩器（VRC） 。我们逐一拆解。

💡 第一把斧：化整为零——图像分块策略

这是解决峰值内存问题的“地基”。传统ViT处理大图时，所有Patch的注意力计算需要巨大的中间矩阵。HyperVL借鉴了AnyRes的思想，将高分辨率输入图像分割成多个固定大小（如448x448）的块，串行编码 。

技术显微镜 ：

• 输入：任意分辨率图像

。

• 过程：1）保持宽高比，缩放到短边为基准尺寸；2）将图像网格化为

个不重叠的块

。

• 输出：每个块独立通过ViT编码，产生视觉特征序列，再拼接。
• 价值：无论原图多大， 每个块编码时的峰值内存占用恒定 ，彻底避免了因分辨率升高导致的内存溢出和延迟暴增。这就好比用多趟小卡车运货，代替一辆需要超大仓库的巨型卡车。

picture.image

图2

图2：HyperVL整体架构。核心是双视觉编码器分支与视觉分辨率压缩器（VRC）的协同。

💡 第二把斧：一大一小，无缝切换——双一致性学习（DCL）

这是实现性能与效率动态平衡的“核心引擎”。HyperVL没有只用一个视觉编码器，而是准备了两套：一个**大模型（SigLIP2-Large, 300M参数）用于高精度任务，一个 小模型（SigLIP2-Base, 93M参数）**用于高效推理。它们共享同一个1.7B的Qwen3 LLM作为“大脑”。

关键问题 ：如何保证两个视觉编码器看到同一张图后，给LLM“大脑”传递的语义信息是一致的？否则切换分支就会导致输出混乱。

答案就是DCL，它包含两大训练策略：

双分支交替训练 ：在训练时，随机选择使用大分支或小分支来编码图像，但都用相同的图文数据和LLM进行训练。这迫使 共享的LLM学会理解来自两种不同“眼睛”的视觉信号 ，并映射到统一的语义空间。

语义一致性蒸馏 ：这是精髓所在。让小模型（学生）去模仿大模型（老师）的输出分布。具体来说，对于同一个图像-文本对，用老师模型生成文本Token的预测分布

，让学生模型去逼近这个分布。损失函数使用KL散度：

简单来说，就是让小模型学会“像大模型一样思考” 。经过这种训练，系统可以根据当前设备电量、任务对精度的要求，动态无缝地切换视觉分支，用户几乎无感知。

💡 实战启发 ：这种“多模态适配器+共享LLM”的思想，完全可以迁移到你的业务中。比如，针对清晰图片和模糊截图，训练不同的轻量级编码器分支，共用下游任务模型，实现鲁棒性提升。

💡 第三把斧：智能节流——视觉分辨率压缩器（VRC）

这是砍掉冗余计算的“智能开关”。我们真的需要永远用最高分辨率处理图片吗？对于一张纯色背景的图标截图，或许压缩到10%就足够了；但对于一张布满小字的文档，则需要保持高清。

VRC就是一个轻量级神经网络 ，它看一眼缩略图，就能预测出这张图处理时的“最优压缩比”

(在0.1到1.0之间)。

它的工作原理堪称巧妙：

数据构建 ：对于训练集中的每张图

，用不同压缩比

生成一系列压缩图

。 2. 2. 寻找最优压缩比 ：用一个预训练好的参考MLLM，分别计算原始图

和压缩图

在正确答案上的交叉熵损失

。定义一个相对损失比：

设定一个容忍阈值

(如1.05)，找到满足

的最大

，即为最优压缩比

。 这保证了压缩后性能下降最小 。

训练与推理 ：用MobileNet这类轻量Backbone训练VRC，输入固定大小的缩略图，直接回归预测

。在推理时，先运行VRC（仅增加约2ms开销），得到压缩比，再对原图进行缩放，然后送入视觉编码器。

picture.image

图3

图3：视觉分辨率压缩器（VRC）的工作流程。核心思想是“按需分配计算资源”。 结果如何？ VRC能自适应地大幅减少视觉Token数量 。例如在DocVQA任务上，平均压缩率高达49.5%-63.4%（因为文档背景简单），而在需要看清图表细节的ChartQA任务上，压缩率仅为2%-3%。整体上，在保持98%+性能的同时，平均减少了20%-30%的视觉计算量。

坚持看到这里，你已经理解了HyperVL 80%的精髓！接下来的实验部分，将用硬核数据告诉你，这套组合拳到底有多猛。

📊 小身材，大能量，全面碾压同级对手

🏆 全面开花，OCR能力尤其突出

picture.image

在涵盖多模态推理、数学、OCR、文档理解、综合能力等12个主流基准的OpenCompass评测中，HyperVL交出了一份令人惊艳的成绩单。

picture.image

表3

解读几个“哇塞”时刻：

全面领先 ：无论是基础版还是大版，HyperVL在平均分和几乎所有子项上，都 超越了同参数量级的SOTA模型 。

OCR之王 ：在ChartQA、DocVQA、OCRBench这些极度依赖细粒度视觉感知的任务上，优势最为明显。 DocVQA达到91.3分 ，这意味着模型几乎能像人一样从扫描文档中准确提取信息。这直接得益于VRC对文档类图像的大幅压缩（省算力）和双分支设计保留的强表征能力（保精度）。

有效缩放 ：从Base版切换到ViT_L版，参数量增加不多，但平均分提升了1.6分，说明架构 具备良好的扩展性 。

🔬 消融实验：每一个设计都不可或缺

为了验证DCL和VRC的价值，作者做了严格的消融实验。

DCL的有效性 ：在Base模型上加入DCL训练后，性能全面提升。尤其在OCRBench上暴涨22.0个百分点 ！这证明，通过大模型“教导”小模型，能极大提升小模型对文字、图表等精细特征的感知能力，知识蒸馏的效果极其显著 。

VRC的有效性 ：如表6所示，在Qwen3-VL-2B上接入VRC后，视觉Token数量减少29.3%，而性能仅下降1.6%（保留98.4%）。用不到3%的性能损失，换来了近30%的计算量节省 ，这笔交易在端侧场景中太划算了。

⚡ 设备端实测：延迟与内存的“降维打击”

纸上谈兵终觉浅，是骡子是马，拉到真机上遛遛。作者在搭载高通NPU的商用手机上进行了部署测试。

picture.image

图5：不同分辨率下，HyperVL与Baseline的延迟对比。HyperVL的延迟增长几乎是线性的，而Baseline是指数级暴增。 结果震撼：

• 延迟：在处理高分辨率输入时，HyperVL相比Qwen3-VL-2B Baseline， 实现了12.9倍的加速 ！
• 内存：Baseline模型的峰值内存随着分辨率飙升，而HyperVL 始终保持恒定的低内存占用 ，峰值内存降低了 6.8倍 。
• 量化友好 ：模型对W4A16量化极其鲁棒，量化后精度损失极小（如DocVQA仅掉0.1分）。这意味着可以进一步压缩模型体积，提升推理速度。

背后的硬件原理 ：传统ViT的大注意力矩阵会撑爆手机的极速缓存（VTCM），导致数据在慢速主存（DDR）和缓存间反复搬运，形成“内存墙”。HyperVL的分块编码 确保了每个块的计算完全在高速缓存内完成，彻底规避了这个问题。这是算法与硬件架构的完美协同。

⚖️ 理性批判与未来展望

当然，没有完美的方案。HyperVL的局限性在于：

串行处理的潜在延迟 ：虽然分块解决了峰值内存，但块与块之间是串行编码的。对于超大图，总延迟可能依然可观。未来或可探索更优雅的流式处理或稀疏注意力。

训练复杂度高 ：DCL需要交替训练和蒸馏，训练流程和成本比单分支模型更高。

但它的成功无疑指明了方向：端侧MLLM的优化必须是算法、数据、硬件协同的系统工程。 未来，结合更激进的Token稀疏化、视频理解、以及在线个性化学习，设备端的多模态智能将真正融入我们生活的每一刻。

🌟 总结与行动号召

通过深度拆解HyperVL，我们学到了：
✅ 系统思维 ：端侧优化需从内存、计算、精度三个维度联合设计，分块、双分支、自适应压缩缺一不可。
✅ 蒸馏的价值 ：轻量模型通过向重量模型学习，能获得远超其参数规模的感知能力。
✅ 数据驱动 ：VRC的最优压缩比来自于数据驱动的自动化标注，而非人工启发式规则。

🤔 深度思考 ：你认为HyperVL这套“动态稀疏+双路切换”的技术组合，最可能率先在哪个场景引爆？是手机相册的智能管理？汽车座舱的视觉交互？还是AR眼镜的实时信息增强？欢迎在评论区留下你的洞见！

💝 支持原创 ：如果这篇近5000字的深度解读，帮你省去了啃论文的十几个小时，点赞+在看 就是对我最大的鼓励！分享给你身边正在攻克端侧AI难题的伙伴，一起拥抱技术红利！

🔔 关注提醒 ：点击右上角“···”→ “设为星标”，第一时间获取CVPR/ICCV/NeurIPS等顶会论文的深度解读，别错过任何一次技术跃迁的机会。

#CVPR2025 #多模态大模型 #端侧AI #模型压缩 #HyperVL #AI工程化 #论文精读

参考

HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices