We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
余俊晖
文章
专栏
问答
余俊晖
基于KG生成语料增强解决RAG问答幻觉问题的简单框架-Walk&Retrieve
AI
向量数据库
大模型
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
11
0
0
0
余俊晖
使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster
AI
大模型
向量数据库
云存储
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
23
0
0
0
余俊晖
文档智能解析项目汇总(含pipline、多模态端到端解析)
AI
大模型
向量数据库
机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
29
0
0
0
余俊晖
字节开源的多模态端到端文档解析模型-Dolphin
AI
大模型
向量数据库
云通信
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
124
0
0
0
余俊晖
Qwen3模型架构、训练方法梳理
AI
大模型
向量数据库
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
708
2
1
2
余俊晖
通用RAG:通过路由模块对多源异构知识库检索生成问答思路
AI
向量数据库
大模型
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
115
0
0
0
余俊晖
支付宝搜索中基于LLM的生成式检索幻觉缓解技术方案
AI
大模型
向量数据库
机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
84
0
0
0
余俊晖
【文档智能】开源的阅读顺序(Layoutreader)模型使用指南
AI
大模型
向量数据库
云存储
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
100
0
0
0
余俊晖
多模态文档检索开源方案-三大竞赛获奖方案技术链路
AI
向量数据库
大模型
NoSQL数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
126
0
0
0
余俊晖
Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝
大模型
大模型
向量数据库
机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
105
0
0
0
余俊晖
多模态大模型轻量化探索-视觉大模型SAM的视觉编码器
大模型
大模型
向量数据库
机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
123
0
0
0
余俊晖
开源的轻量化VLM-SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling
AI
大模型
向量数据库
机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
142
0
0
0
余俊晖
多模态RAG演进-MRAG1.0->MRAG2.0->MRAG3.0
AI
向量数据库
大模型
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
325
0
0
0
余俊晖
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析
开源
大模型
向量数据库
云通信
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
150
0
0
0
余俊晖
多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式
大模型
大模型
向量数据库
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
145
0
0
0
余俊晖
用RAG的思路构建文档级别知识图谱框架-RAKG
AI
向量数据库
大模型
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
127
0
0
0
余俊晖
开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG
AI
大模型
向量数据库
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
109
0
0
0
余俊晖
RAG分块优化之语义分块方法CrossFormer模型技术思路
AI
火山方舟
向量数据库
大模型
笔者在前期文章中总结了RAG的分块《 RAG常见13种分块策略大总结(一览表) 》,本文介绍一个 语义分段 的工作,该工作解决的问题是文本语义分割,即 将文档分割成多个具有连续语义的段落 。传统方法通常依赖于预处理文档以分段来解决输入长度限制问题,但这会导致段间关键语义信息的丢失。RAG系统中的文本分块方法主要分为基于规则和基于LLM的方法。插入一个思路,其实,语义分段的方式笔者在很早实践过一个思
185
0
0
0
余俊晖
DyPRAG:即插即用动态将上下文转化为参数知识,有效缓解RAG幻觉
AI
向量数据库
大模型
云存储
来自fans投稿,提出动态参数化RAG,即插即用无缝和RAG结合,减少RAG幻觉的发生,来看看具体思路。检索增强生成(RAG)通过从外部源检索相关文档并将其合并到上下文中来增强大语言模型(LLMs)。虽然它通过提供事实文本提高了可靠性,但随着上下文长度的增长,显著增加了推理成本,并引入了具有挑战性的RAG幻觉问题,这主要是由于LLM中缺乏相应的参数知识造成的。参数化RAG (PRAG)通过离线训练
174
0
0
0
余俊晖
十大PDF解析工具在不同文档类别中的比较研究
AI
向量数据库
大模型
数据中台
十大PDF解析工具总结PDF解析对于包括文档分类、信息提取和检索在内的多种自然语言处理任务至关重要,尤其是RAG的背景下。尽管存在各种PDF解析工具,但它们在不同文档类型中的有效性仍缺乏充分研究,尤其是超出学术文档范畴。通过使用DocLayNet数据集, 比较10款流行的PDF解析工具在6种文档类别中的表现 ,以填补这一空白。这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdf
173
0
0
0