发布时间:2025 年 03 月 07 日
开源了 MM-StoryAgent,它能够生成具有精致情节、角色一致的图片以及多声道音效的沉浸式有声视频故事书。MM-StoryAgent 设计了一个多智能体框架,跨多种模态运用 LLMs 和多样化专家工具(生成模型和 API)来生成富有表现力的故事视频。
添加请注明AIGC
如遇无法添加,请+ vx: iamxxn886
为什么要提出 MM-StoryAgent
1.1 传统故事书生成的局限性
传统的儿童故事书生成主要依赖于人工创作,这种方式不仅耗时,而且难以快速生成多样化的内容。随着生成式 AI(AIGC, Artificial Intelligence-Generated Content)的快速发展,基于 AI 的故事书生成成为可能。然而,现有技术仍面临诸多挑战。例如,生成的故事往往缺乏吸引力,情节单一,难以引发读者的兴趣。传统的 AI 生成故事通常过于平铺直叙,缺乏紧张感和冲突,这使得故事不够引人入胜。
1.2 多模态表达的不足
现有的故事生成技术主要集中在文本或视觉模态上,缺乏对多模态(如图像、音频)的整合。一个完整的故事体验需要结合视觉、听觉和叙事元素,以提供更沉浸式的阅读体验。例如,一个故事如果只有文字描述,而没有相应的图像和背景音乐,读者的体验会大打折扣。现有的 AI 生成工具往往只能生成单一模态的内容,无法提供全方位的感官体验。
1.3 开源框架的缺失
目前,大多数 AI 故事书生成工具是闭源的,缺乏公开的评估标准和数据集。这限制了技术的进一步发展和优化。开发者无法基于现有的工具进行二次开发或改进,也无法通过公开的评估标准来衡量不同技术的优劣。这种封闭性阻碍了技术的普及和创新。
1.4 MM-StoryAgent 的解决方案
MM-StoryAgent 通过多模态、多智能体框架,整合文本、图像和音频,生成沉浸式的故事书视频。
MM-StoryAgent 的设计理念是通过多阶段的写作流程和多智能体的协作,生成更具吸引力的故事内容。同时,通过整合视觉、听觉和叙事元素,提供全方位的感官体验,使读者能够更加沉浸其中。
2 MM-StoryAgent 的核心技术
2.1 多智能体框架的运作机制
MM-StoryAgent 的核心是一个多智能体框架,由多个 AI 智能体协同工作。这些智能体包括大语言模型(LLMs, Large Language Models)、生成模型和 API,分别负责文本生成、图像生成和音频生成。通过多智能体的对话和协作,系统能够生成高质量的故事内容。
例如,文本生成智能体负责编写故事,图像生成智能体则根据故事内容生成插图,音频生成智能体负责生成旁白和背景音乐。这种分工协作的方式确保了每个环节都能高效完成,最终生成一个完整的多模态故事视频。
2.2 提升故事吸引力的多阶段写作流程
为了提升故事的吸引力,MM-StoryAgent 采用了多阶段的写作流程。
- • 首先,系统模拟一个业余作家与专业作家的对话,讨论如何让故事更吸引人。这种对话类似于人类写作前的头脑风暴,帮助系统明确如何增加故事的冲突和张力。
- • 然后,基于对话内容生成故事大纲,并逐步扩展为完整的故事章节。例如,在生成故事大纲后,系统会逐章扩展细节,确保故事的情节发展合理且自然。这种多阶段的写作流程显著提升了故事的吸引力和连贯性。
2.3 多模态内容的生成与对齐
在生成故事后,系统通过专门的智能体生成图像和音频内容。例如,图像智能体将故事内容转化为视觉描述,并生成角色一致的插图。音频智能体则生成旁白、音效和背景音乐,并通过多通道音频混合技术,提供沉浸式的听觉体验。为了确保多模态内容的一致性,系统还设计了专门的提示修订智能体,通过多次迭代优化生成提示,确保图像、音频与文本内容的高度对齐。例如,图像智能体会提取故事中的视觉元素,生成与故事内容高度一致的插图,而音频智能体则根据故事的情感基调生成合适的背景音乐和音效。
2.4 开源平台与模块化设计
MM-StoryAgent 是一个开源框架,支持灵活的模块替换。
可以根据需求替换生成模型或 API,以适应不同的应用场景。
例如,可以使用不同的文本到图像生成模型(如 Stable Diffusion 或 DALL-E)来生成插图,或者使用不同的文本到语音模型(如 CosyVoice 或 Google TTS)来生成旁白。这种模块化设计使得系统能够灵活适应不同的技术需求和应用场景。
开源地址:https://github.com/MM-StoryAgent
三、MM-StoryAgent 的效果如何?
3.1 故事质量的客观评估
通过对 100 个儿童故事主题的评估,MM-StoryAgent 在 故事吸引力 、 情感传达 和 教育性 方面均显著优于传统方法。例如,在“家庭与友谊”主题中,MM-StoryAgent 能够更好地传达教育内容,而传统方法则显得单一。
具体来说,MM-StoryAgent 生成的故事情节更加丰富,角色发展更为自然,能够更好地吸引儿童的注意力。
MM-StoryAgent 在情感表达方面也表现出色,能够通过细腻的描写和生动的对话,让儿童更好地理解故事中的情感变化。
在教育性方面,MM-StoryAgent 能够根据不同的主题,巧妙地融入教育元素,使儿童在阅读故事的同时,也能学到知识。
3.2 多模态对齐的评估
通过对比学习模型,系统评估了图像、音频与文本之间的对齐效果。
结果显示,MM-StoryAgent 在图像-文本、音频-文本对齐方面表现优异,显著提升了故事的整体沉浸感。
例如,在生成的故事视频中,图像与文本内容高度一致,能够准确地反映故事情节和角色特征。音频与文本的对齐也非常出色,背景音乐和音效能够很好地配合故事情节,增强了故事的沉浸感。
这种多模态对齐的效果,使得儿童在观看故事视频时,能够更好地理解和感受故事内容。
3.3 主观评估与用户体验
邀请三位熟悉儿童故事书的专家对生成的视频进行主观评估。
结果显示,MM-StoryAgent 在故事质量和多模态对齐方面均获得高分,用户对其沉浸式体验给予了高度评价。
专家认为,MM-StoryAgent 生成的故事情节紧凑,角色形象鲜明,能够很好地吸引儿童的注意力。
在多模态对齐方面,专家们对图像、音频与文本的一致性表示赞赏,认为这种一致性极大地提升了故事的沉浸感。
此外,专家们还对 MM-StoryAgent 的用户体验给予了高度评价,认为其操作简单,生成的视频质量高,非常适合儿童使用。
3.4 未来改进方向
尽管 MM-StoryAgent 在多模态对齐和故事质量方面表现出色,但仍有一些改进空间。例如,音效生成模型在处理复杂提示时表现不佳,未来可以通过优化模型和提示生成策略进一步提升效果。具体来说,可以尝试引入更先进的音效生成模型,或者通过多轮迭代的方式,不断优化音效生成的效果。此外,还可以通过引入更多的用户反馈,进一步优化故事生成和多模态对齐的效果,使得 MM-StoryAgent 能够更好地满足儿童的需求。
- • 论文原文: https://arxiv.org/abs/2503.05242
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论