成功率97.8%!中科院PPTAgent模拟人类制作流程,高质量PPT轻松搞定

大模型向量数据库机器学习

制作高质量的PPT是很多小伙伴的烦恼,现有的自动化PPT生成方法大多只关注 文本内容 的生成,忽略了 视觉设计结构连贯性 ,导致生成的PPT在实际应用中效果不佳。

中科院提出并 开源PPTAgent , 一种基于编辑的 两阶段PPT生成框架 ,灵感来源于人类制作PPT的工作流程。

picture.image

PPTAgent的工作流程如下:

第一阶段:PPT分析

  • 幻灯片聚类 :将参考PPT中的幻灯片按照功能(如开场、过渡、内容展示等)和视觉特征进行分类。
  • 内容模式提取 :分析每个幻灯片的内容结构,提取出关键元素及其布局模式,为后续生成提供模板。

第二阶段:PPT生成

  • 大纲生成: 根据输入文档和参考PPT的分析结果,生成详细的PPT大纲,明确每页幻灯片的内容和布局。
  • 幻灯片生成 :通过一系列可执行的编辑操作(如替换文本、插入图片等),动态修改参考幻灯片,生成最终的PPT。

此外,研究者还提出了 PPTEval,这是一个多维度的PPT评估框架,从内容、设计和连贯性三个维度对生成的PPT进行全面评估。内容维度关注文本和图片的质量;设计维度评估视觉吸引力和一致性;连贯性维度则衡量PPT的逻辑结构和叙事流畅性。

picture.image

PPTAgent在内容、设计和连贯性三个维度上均显著优于传统方法。

  • 使用GPT-4o模型时,PPTAgent在 设计维度上 的评分比传统方法高出 33%连贯性 评分高出 34%
  • PPTAgent的成功率高达97.8% ,在多个领域的数据上表现出色。
  • 开源的Qwen2.5

模型在经过优化后,能够与 GPT-4o相媲美 ,展现出强大的生成能力。

picture.image

picture.image


            
https://arxiv.org/abs/2501.03936
            
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
            
https://github.com/icip-cas/PPTAgent.
        

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论