发布时间:2025 年 01 月 16 日
OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
摘要机器写作通常依赖检索增强生成技术,但这些方法受限于模型预定义的范围,难以生成信息丰富的内容。普通检索的信息往往缺乏深度、实用性,且冗余问题严重,导致生成的文章内容浅显、重复且缺乏原创性。为此,我们提出了 OmniThink 框架,它模拟了人类迭代扩展和反思的认知过程。OmniThink 的核心在于模拟学习者逐步深化对主题理解的认知行为。实验表明,OmniThink 在不牺牲连贯性和深度的前提下,显著提升了生成文章的知识密度。人类评估和专家反馈进一步证实了 OmniThink 在生成长篇文章中的实际应用潜力。
如遇无法添加,请+ vx: iamxxn886
添加请注明 AIWriter
还有RAG、Agent技术群 + vx: iamxxn886
- 机器写作的现状
由于手动写作成本高昂,机器写作(Machine Writing)的关注度越来越高。随着 LLM 和检索增强生成(RAG)的兴起,机器写作也迎来了新的机遇。
为确保内容的真实性和实时性,当前基于 RAG 的自动化写作系统主要依赖检索内容生成文章(如上图)。例如:
图 2:
- • STORM 通过角色扮演的问答方式撰写维基百科式文章,上图展示了 STORM 使用 GPT4o 生成的关于 AlphaFold 主题的案例:文章中关于“AlphaFold 是由 DeepMind 开发的” 出现重复表达。
- • Co-STORM 引入了用户参与的信息检索模式
- • AutoSurvey 将该框架应用于学术论文写作
然而,这些方法仍局限于角色自身的范围,难以生成深度内容并突破知识边界。检索到的信息往往缺乏深度、实用性和冗余性,直接影响生成文章的质量,导致输出内容浅显、重复且缺乏原创性。
人类在写作过程中可以自然地避免这些陷阱,通过反思实践理论(the Theory of Reflective Practice)可以解释该现象。
根据该理论,人类作者会不断反思 之前收集的信息和个人经验,重新组织、筛选和优化认知框架。使作者迭代调整写作方向和思维路径,最终生成更深刻、细致和原创的内容。
受此启发,本文作者提出了 OmniThink,一种新的机器写作框架,模拟人类迭代扩展和反思的认知过程。
- 什么是 OmniThink 框架?
OmniThink 的核心思想是模拟学习者在逐渐加深对复杂主题理解时的认知行为,以扩展知识边界。通过不断反思之前检索到的信息,OmniThink 可以确定进一步扩展的最佳步骤。
这种 扩展-反思机制(Expansion Reflection Mechanism) 使得检索策略能够动态调整,从而促进对相关信息的更深入和全面的探索。一旦收集到多样化的信息,OmniThink 将进入大纲构建和文章生成的阶段。这种迭代的思维过程最终生成更高质量的文章,其中包含更高密度的有用、深刻和原创的内容。
如上图,OmniThink 分为三步:信息获取、大纲构建和文章撰写。但是在信息获取阶段,通过扩展和反思形成信息树和概念池,为后续提纲和文章撰写奠定基础。
2.1 信息获取(Information Acquisition)
如上图,扩展和反思的迭代过程最终构建了一个信息树和一个概念池。
2.1.1 扩展(Expansion)
OmniThink 分析信息树的所有叶节点,每个节点都会被评估以确定是否需要进一步扩展。
对于需要扩展的节点,OmniThink 使用当前的概念池来确定需要深入扩展的领域或合适的扩展方向 。
2.1.2 反思(Reflection)
OmniThink 对所有叶子节点中的新信息进行反思。从每个叶子节点提取的信息经过分析、过滤和综合,提炼出核心见解。这些见解随后被整合到概念池中,并在整个过程中不断更新和丰富。
扩展与反思的迭代循环将持续进行,直到 OmniThink 确定已获取足够的信息或达到预定义的最大检索深度。确保获取的信息是相关、详细且多样化的,为生成结构化和信息丰富的文章提供了坚实的基础。
2.2 大纲构建
大纲是文章的核心,决定了内容方向、结构层次和逻辑推进。要构建一个结构清晰、逻辑连贯的大纲,必须对主题有深入理解。
OmniThink 维护了一个与主题紧密相关的概念池,这代表了 LLM 对主题理解的边界和深度。
在生成大纲时,首先创建草稿大纲,然后让 LLM 从概念池中提炼并链接内容,最终形成最终大纲。
通过这种方式,LLM 能够在大纲中全面覆盖主题要点,并确保文章的逻辑一致性和内容连贯性。
2.3 文章撰写
完成大纲后,开始为每个部分撰写内容。
撰写时,利用部分标题及其子标题,通过计算语义相似度从信息树中检索最相关的 K 个文档。LLM 会根据这些信息生成带有引用的内容。
所有部分生成后,将被拼接成完整的草稿文章。由于各部分并行生成,其他部分内容尚不明确,会提示 LLM 处理拼接后的文章,删除冗余信息,最终形成文章。
- 效果评估方法
通过自动和人工评估相结合的方式来评估生成的长篇文章。
3.1 自动评估
使用 Prometheus 2 对文章进行 0 到 5 分的评分,评估其相关性、广度、深度和新颖性。还通过信息多样性和知识密度来衡量信息丰富度。
** 什么是知识密度? **
以往的研究大多关注文章的相关性和正确性,却忽略了文章的深度。许多生成的文章充斥着冗余信息,与人类的写作风格相去甚远。为此,引入了知识密度(KD)的概念,定义为有意义内容与文本总量的比率,公式如下:
其中,N 是文档中原子知识单元的总数,U(ki) 表示第 i 个单元信息 ki 是否唯一,L 为文本总长度。分子表示从长篇文章中提取的独特知识单元总和,分母则是文章的长度。
知识密度的价值在于它能从信息获取的角度衡量生成文本的阅读成本。低 KD 内容往往因冗余或不相关细节让读者感到疲劳或失去兴趣,而高密度内容则能提供简洁高效的阅读体验。
以往的方法在 KD 上表现有限,因为开放域长文本生成依赖于检索信息。当检索信息不够多样化时,生成的文章往往包含大量重复和冗余内容。这为优化知识密度提供了空间。
3.2 人工评估
随机选取 20 个主题,将生成的文章与 Co-STORM(基于自动评估的最佳基线)生成的文章进行对比,并在相同的四个方面进行评分。
- 效果怎么样?
4.1 自动评估
上图展示了使用 GPT-4o 和 Qwen-Plus 作为骨干的评估结果。
在四个关键评分标准(相关性、广度、深度和新颖性)的框架下,OmniThink 在所有方面都表现出色,特别是在新颖性指标上,以 GPT-4o 为骨干时尤为突出。
在知识密度方面,OmniThink 采用了一种连续且动态的检索策略来收集广泛的信息,这使其在内容生成阶段能够利用更广泛的资源。这一战略优势使 OmniThink 在知识密度指标上优于现有的基准方法。
从结构合理性、逻辑一致性和生成指导性三个方面评估大纲质量。
从上图中可以看出,OmniThink 在结构合理性和逻辑一致性方面表现优异。归功于 OmniThink 概念池的独特设计,使 LLMs 在大纲生成过程中对目标主题有更全面和多样化的理解。
有助于更好地指导内容生产,并增强生成内容的整体结构连贯性。然而,模型的逻辑一致性仅比基线略有改善。
4.2 人工评估
邀请了 15 位高学历志愿者进行人工评估。
上图展示了评估结果,OmniThink 在多个维度上的平均表现均优于当前最强的基线模型,尤其在广度指标上比 Co-STORM 高出 11%。
然而,在创新性指标上,自动化评估显示 11% 的提升,但人工评估仅发现微弱优势。表明当前的自动化评估与人类判断尚未完全一致,为未来长文本评估的改进提供了方向。
尽管 OmniThink 在多个维度上表现优异,但仍有约 30% 的文章被评估者认为与基线模型不相上下。这可能是因为随着大模型写作能力的提升,人类越来越难以察觉细微差异。
- 消融分析
OmniThink 的核心之一是动态扩展与反思机制。对比了 OmniThink 与其简化版本(无动态扩展与反思机制)。
如上图所示,简化版在文章质量的多个指标上表现逊色,尤其在信息多样性和新颖性方面。证明了动态扩展与反思机制在提升信息多样性和文章新颖性上的重要作用。
5.1 扩展与反思分析
深入探讨了扩展和反思过程如何影响最终文章的各个方面及其整体质量。
由于扩展和反思在 OmniThink 中相互依赖,单独评估它们的影响是不现实的。为此,采用了一种间接但系统 的方法来评估它们对文章质量的综合影响。
在信息获取阶段,用性能较低的模型替换扩展模型,并测量生成文章指标的性能下降,以此作为扩展过程影响的指标。同样,采用相同的方法评估反思过程的影响。
持续反思扩展知识边界 :反思在新颖性和信息多样性方面比扩展更为重要。反思不仅让模型能够重新评估和内省现有知识,还能以激发更多样化和广泛思想的方式整合信息。这种深度内省过程至关重要,因为它通过多样化的见解丰富了叙述,为创新和多样化的写作奠定了基础。本质上,反思模块是创造力的关键加速器,使模型能够超越简单信息增强的限制,构建出独特且信息丰富的叙述。
扩展增强知识深度并提高信息相关性 :扩展在广度和深度方面比反思更为重要。因为扩展为模型的后续信息检索设定了方向。通过为检索过程建立更精确和有效的方向,模型能够更好地利用检索到的信息,并将其无缝整合到文本中,从而以更大的深度和广度丰富内容。这种整合不仅增强了内容的相关性,还提高了知识密度,使文本更加全面和细致。因此,更好的扩展策略能够打造出更复杂的规划者,使其能够更巧妙地应对信息检索和利用的复杂性。
5.2 思考深度分析
OmniThink 在提升信息检索方面进行了多次尝试,本质上是扩展了检索信息的规模。
从上图可以看到,随着深度从 1 增至 3,生成文章的知识密度和信息多样性迅速提升。
随着深度增加,OmniThink 能够在网络上搜索到更多样化的信息,并将其应用于文章生成。
然而,当深度增至 4 时,知识密度和信息多样性的增长显著放缓。这可能是因为该主题的可用信息接近搜索极限,难以检索到更多有用信息。
- 局限性
- • 当前研究仅涉及搜索和文本生成,开放领域中的大量多模态信息尚未被充分利用。
- • 文本生成中未考虑个性化语言风格,导致生成的文本偏向学术化,可能不符合普通用户的阅读习惯。
- • 论文原文: https://arxiv.org/abs/2501.09751
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论