文本分块的天花板来了~

大模型机器学习算法

论文笔记分享,标题:Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception,代码开源:https://github.com/IAAR-Shanghai/Meta-Chunking/tree/386dc29b9cfe87da691fd4b0bd4ba7c352f8e4ed

切块切的好,对下游任务是很有帮助的。这个工作主要就是介绍2个文本分块策略,部分细节还是有点意思的。

如果已经在用bert做分类或者相似度了,可以考虑用Qwen-1.5B了,性能和耗时综合最优,如下图:picture.image

常见用模型除了用bert之类的做分类或者相似度区分,也有用大模型来做的,如LumberChunker,主要是靠prompt来实现,他的prompt如下

picture.image

下图对应的是这个工作中提到的第一种分块,称为Margin Sampling Chunking,大概思路是让LLM来做二分类,大模型输出是个词表的概率分布,这里他们做了一个对“是” 、 “否”的概率差,判断是否符合阈值。

picture.image

下图为第二种分块,称为Perplexity Chunking,计算每个句子在上下文下的困惑度(如果困惑度高,说明模型对这段文本比较懵逼,所以不建议切分)。每次找到序列中困惑度最小的句子,并且如果这个句子前后2句都小于当前这个句子,那就可以切分了。算困惑度可以利用固定长度的kv-cache,来保证显存问题。picture.image

这些都可以后处理拼接,进行适量的拼接,让最终长度满足要求。

最终结果下来,Meta-Chunking能够有效提升RAG的单跳和多跳问答任务的性能。比如说,在2WikiMultihopQA数据集上,在时间消耗仅为相似性分块的45.8%的情况下,性能提升了1.32。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书;社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论