文本分块的天花板来了~

大模型机器学习算法

论文笔记分享,标题:Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception,代码开源:https://github.com/IAAR-Shanghai/Meta-Chunking/tree/386dc29b9cfe87da691fd4b0bd4ba7c352f8e4ed

切块切的好,对下游任务是很有帮助的。这个工作主要就是介绍2个文本分块策略,部分细节还是有点意思的。

如果已经在用bert做分类或者相似度了,可以考虑用Qwen-1.5B了,性能和耗时综合最优,如下图:picture.image

常见用模型除了用bert之类的做分类或者相似度区分,也有用大模型来做的,如LumberChunker,主要是靠prompt来实现,他的prompt如下

picture.image

下图对应的是这个工作中提到的第一种分块,称为Margin Sampling Chunking,大概思路是让LLM来做二分类,大模型输出是个词表的概率分布,这里他们做了一个对“是” 、 “否”的概率差,判断是否符合阈值。

picture.image

下图为第二种分块,称为Perplexity Chunking,计算每个句子在上下文下的困惑度(如果困惑度高,说明模型对这段文本比较懵逼,所以不建议切分)。每次找到序列中困惑度最小的句子,并且如果这个句子前后2句都小于当前这个句子,那就可以切分了。算困惑度可以利用固定长度的kv-cache,来保证显存问题。picture.image

这些都可以后处理拼接,进行适量的拼接,让最终长度满足要求。

最终结果下来,Meta-Chunking能够有效提升RAG的单跳和多跳问答任务的性能。比如说,在2WikiMultihopQA数据集上,在时间消耗仅为相似性分块的45.8%的情况下,性能提升了1.32。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论