方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。其实主要看下围绕html提纯思路,将提纯后的Html内容送入LLM进行增强问答。HTML 清洗由于原始 HTML 文档过长(每个超过 80K),并且不需要考虑用户查询的语义特征,因此在这个步骤
蒙特卡洛树搜索(MCTS)蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的算法,常用于游戏等领域。它的基本思想是通过构建一棵搜索树并模拟各种可能的行动来估计每个行动的价值。MCTS的过程可以分为四个主要步骤:选择(Selection)
:从根节点开始,根据某种策略(如UCT)遍历子节点,直到找到一个叶节点。UCT(Upper Confidence Bound applied on Trees