浙大新研究让LVLMs懂版权、守规矩 - 文章 - 开发者社区

论文名称：Bridging the Copyright Gap: Do Large Vision-Language Models Recognize and Respect Copyrighted Content? 论文作者：Naen Xu, Jinghuai Zhang, Changjiang Li, Hengyu An, Chunyi Zhou, Jun Wang, Boyu Xu, Yuyuan Li, Tianyu Du, Shouling Ji 作者团队-中文：浙江大学发表时间：2025年12月26日发表会议：AAAI Github地址（demo）：https://github.com/bluedream02/CopyGuard 论文链接：https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=volcengine_lvlms&id=261a8578e7ce4b0d802d7039ea9a56a2

1.论文简介

大型视觉语言模型（LVLMs）在多模态推理领域成果显著，但广泛应用中存在严重的版权侵权风险，而当前缺乏针对其多模态场景版权合规能力的系统评估与有效防护方案。为此，该研究构建了含50,000个查询-内容对的大规模基准数据集，覆盖书籍摘录、新闻文章等4类版权内容，包含有无版权声明的双场景及4类侵权任务，首次系统评估12款主流LVLMs的版权合规表现。研究发现，11款模型即便面对明确版权声明仍存在显著合规缺陷，仅GPT-4o表现相对较好。针对这一问题，提出工具增强型防御框架CopyGuard，通过版权声明识别、版权状态验证、查询风险分析及合规提示四大组件，在不影响模型合法任务性能的前提下，大幅提升模型版权拒绝率（重复任务中超82%），有效降低侵权风险。该研究填补了LVLMs版权合规评估的空白，为模型的合法合规部署提供了关键技术支撑。## 1. 研究背景大型视觉语言模型（LVLMs）在多模态推理任务中取得显著进展，但广泛应用引发潜在版权侵权风险。现有研究多聚焦纯文本模型的版权问题，而LVLMs需同时处理文本和图像形式的受版权保护内容，版权识别与合规难度更高。当前缺乏针对LVLMs版权合规能力的系统评估基准，且现有模型即便面对含版权声明的内容，也常因缺乏版权意识而违规生成，存在严重法律与伦理隐患。

2. 研究目的

3. 本文核心贡献

构建首个大规模多模态版权合规基准数据集，含50,000个查询-内容对，覆盖4类侵权场景、4类版权内容及有无版权声明的双场景，填补评估空白。
首次对12款主流LVLMs开展全面版权合规评估，揭示多数模型存在显著合规缺陷，明确版权声明形式与模型架构对合规性的影响规律。
提出工具增强型防御框架CopyGuard，通过版权声明识别、版权状态验证等四大组件，有效提升模型版权合规性，且不影响合法任务性能。

4. 研究方法

数据集构建：从书籍摘录、新闻文章等4类真实版权材料中采集内容，生成重复、提取等4类侵权查询，设置有无版权声明及多种声明形式的子场景。
评估设计：选取12款不同类型的LVLMs，采用相似度指标（ROUGE-L、BERTScore等）与拒绝率双维度评估模型合规性，利用GPT-4辅助判定拒绝行为有效性。
框架开发：CopyGuard整合OCR识别、谷歌搜索API等工具，实现版权声明检测、版权状态验证、查询风险分析及合规提示四大功能，无需修改模型参数。
实验验证：在基准数据集及4个通用多模态基准上验证框架有效性，通过消融实验与案例分析验证各组件作用。

5. 研究结果

12款LVLMs中11款存在明显版权合规缺陷，仅GPT-4o表现相对较好，多数模型即便面对含版权声明的内容，拒绝率仍低于5%。
详细版权声明比通用声明更能提升模型合规性，文本形式声明对部分模型效果更优，API类模型合规性整体优于开源模型。
CopyGuard能显著提升所有模型的版权拒绝率（重复任务中拒绝率超82%），且不影响模型在通用任务上的性能，无虚假阳性拒绝情况。

6. 总结与展望

总结

研究系统揭示了LVLMs在版权合规方面的普遍短板，通过构建专用基准与提出CopyGuard框架，为解决多模态场景下的版权侵权问题提供了有效方案，验证了工具增强型方法在提升模型版权合规性上的可行性与优越性。

局限性与展望

局限性：依赖在线服务进行版权状态验证，可能受缓存数据时效性影响；框架运行存在一定额外成本与延迟。
未来方向：拓展数据集至更多类型版权内容与地区法规场景；优化框架以降低运行成本与延迟；探索将版权意识融入模型预训练过程，从根源提升合规能力。