制作高质量的PPT是很多小伙伴的烦恼,现有的自动化PPT生成方法大多只关注 文本内容 的生成,忽略了 视觉设计 和 结构连贯性 ,导致生成的PPT在实际应用中效果不佳。
中科院提出并 开源PPTAgent , 一种基于编辑的 两阶段PPT生成框架 ,灵感来源于人类制作PPT的工作流程。
PPTAgent的工作流程如下:
第一阶段:PPT分析
- 幻灯片聚类 :将参考PPT中的幻灯片按照功能(如开场、过渡、内容展示等)和视觉特征进行分类。
- 内容模式提取 :分析每个幻灯片的内容结构,提取出关键元素及其布局模式,为后续生成提供模板。
第二阶段:PPT生成
- 大纲生成: 根据输入文档和参考PPT的分析结果,生成详细的PPT大纲,明确每页幻灯片的内容和布局。
- 幻灯片生成 :通过一系列可执行的编辑操作(如替换文本、插入图片等),动态修改参考幻灯片,生成最终的PPT。
此外,研究者还提出了 PPTEval,这是一个多维度的PPT评估框架,从内容、设计和连贯性三个维度对生成的PPT进行全面评估。内容维度关注文本和图片的质量;设计维度评估视觉吸引力和一致性;连贯性维度则衡量PPT的逻辑结构和叙事流畅性。
PPTAgent在内容、设计和连贯性三个维度上均显著优于传统方法。
- 使用GPT-4o模型时,PPTAgent在 设计维度上 的评分比传统方法高出 33% , 连贯性 评分高出 34% 。
- PPTAgent的成功率高达97.8% ,在多个领域的数据上表现出色。
- 开源的Qwen2.5
模型在经过优化后,能够与 GPT-4o相媲美 ,展现出强大的生成能力。
https://arxiv.org/abs/2501.03936
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
https://github.com/icip-cas/PPTAgent.
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。