We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
余俊晖
文章
专栏
问答
余俊晖
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析
开源
大模型
向量数据库
云通信
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
0
0
0
0
余俊晖
多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式
大模型
大模型
向量数据库
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
0
0
0
0
余俊晖
用RAG的思路构建文档级别知识图谱框架-RAKG
AI
向量数据库
大模型
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
0
0
0
0
余俊晖
开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG
AI
大模型
向量数据库
数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
0
0
0
0
余俊晖
RAG分块优化之语义分块方法CrossFormer模型技术思路
AI
火山方舟
向量数据库
大模型
笔者在前期文章中总结了RAG的分块《 RAG常见13种分块策略大总结(一览表) 》,本文介绍一个 语义分段 的工作,该工作解决的问题是文本语义分割,即 将文档分割成多个具有连续语义的段落 。传统方法通常依赖于预处理文档以分段来解决输入长度限制问题,但这会导致段间关键语义信息的丢失。RAG系统中的文本分块方法主要分为基于规则和基于LLM的方法。插入一个思路,其实,语义分段的方式笔者在很早实践过一个思
52
0
0
0
余俊晖
DyPRAG:即插即用动态将上下文转化为参数知识,有效缓解RAG幻觉
AI
向量数据库
大模型
云存储
来自fans投稿,提出动态参数化RAG,即插即用无缝和RAG结合,减少RAG幻觉的发生,来看看具体思路。检索增强生成(RAG)通过从外部源检索相关文档并将其合并到上下文中来增强大语言模型(LLMs)。虽然它通过提供事实文本提高了可靠性,但随着上下文长度的增长,显著增加了推理成本,并引入了具有挑战性的RAG幻觉问题,这主要是由于LLM中缺乏相应的参数知识造成的。参数化RAG (PRAG)通过离线训练
44
0
0
0
余俊晖
十大PDF解析工具在不同文档类别中的比较研究
AI
向量数据库
大模型
数据中台
十大PDF解析工具总结PDF解析对于包括文档分类、信息提取和检索在内的多种自然语言处理任务至关重要,尤其是RAG的背景下。尽管存在各种PDF解析工具,但它们在不同文档类型中的有效性仍缺乏充分研究,尤其是超出学术文档范畴。通过使用DocLayNet数据集, 比较10款流行的PDF解析工具在6种文档类别中的表现 ,以填补这一空白。这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdf
43
0
0
0
余俊晖
公式识别:利用分层且聚焦细节的网络提升复杂公式识别能力
AI
向量数据库
大模型
数据中台
公式识别是文档智能解析中的重要一环,本文笔者将介绍笔者自己的工作,供参考。关于文档智能的全链路的技术路线,笔者在前期做了大量的技术解析,详细可以看专栏《 文档智能专栏(点击跳转) 》核心问题:当前的数学表达式识别(MER)模型难以处理复杂公式中的层次结构和细粒度细节。数学公式是逻辑的建筑蓝图——它们在求和符号中嵌套分数,在行文中堆叠矩阵,并分支为条件分段函数。然而,尽管数学公式具有复杂的结构,当前
24
0
0
0
余俊晖
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节
大模型
大模型
向量数据库
云存储
Qwen2.5B-VL-32B开源之际,记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。系列模型的应用场景:Qwen-VL:基础图像理解和对话。Qwen2-VL:图像+短视频理解,代理任务。Qwen2.5-VL:长视频、复杂文档解析、多语言支持,适用于更广泛的现实场景。模型架构演进一览(其实差不多,模型侧有一些细节改动,系列更多还是数据上的增量训练):| 模
50
0
0
0
余俊晖
DeepSeek-R1关键创新技术再总结
AI
大模型
向量数据库
机器学习
本文详细介绍 DeepSeek 模型中的一些创新技术,包括对 Transformer 架构的改进(如 MLA、MOE)、Multi-Token Prediction 提高训练效率、算法、框架和硬件的协同设计、Group Relative Policy Optimization (GRPO) 强化学习算法,以及结合监督微调和强化学习的迭代训练方法。这些技术不仅提高了模型的性能,还显著降低了训练成本。
50
0
0
0
余俊晖
DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路
AI
大模型
向量数据库
机器学习
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能, 因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率 。如下图D和E所示:方法 :从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-I
26
0
0
0
余俊晖
一图看懂基于ColPali与Qwen2.5-VL的文档多模态RAG技术流程
AI
向量数据库
大模型
数据库
再看这个整理图,整个系统形成了一个闭环的多模态查询响应流程:文档输入:DOC 和 PDF 文档被转换为 JPG 页面图像。 2. 嵌入生成:图像和文本通过嵌入器生成向量,存储在 Qdrant 向量数据库中。 3. 查询处理:用户通过聊天界面输入查询,ColPali 处理多模态表示。 4. 上下文检索:从数据库中检索相关内容,提供给 Qwen2.5-VL。 5. 回答生成:基于多模态提示生成最终回答
44
0
0
0
余俊晖
多模态大模型Ovis核心技术点、训练方法、数据细节
AI
大模型
向量数据库
机器学习
文章提出:传统的 MLLMs 中,文本嵌入是从 LLM 的嵌入查找表中索引得到的,而视觉嵌入是由视觉编码器(如:ViT)直接生成的连续向量。这种差异导致在视觉和文本信息融合时存在挑战 。与传统的MLLM不同,Ovis 通过在视觉编码器的过程中引入一个额外的 视觉嵌入查找表 来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。效果往期相关多模态大模型细节介绍:Phi-4-multimoda
36
0
0
0
余俊晖
PathRAG:通过图剪枝的方法优化Graph-based RAG的性能方法浅析
AI
火山方舟
向量数据库
大模型
PathRAG 也是一种新型 Graph-based RAG 方法,通过检索索引图中的关键关系路径,减少噪声并优化 LLM 提示。其核心创新在于基于流的剪枝算法和路径为基础的提示策略,特别适用于捕捉复杂数据集中的关系。(其实可以看做 相比GraphRAG假如剪枝算法和路径提示策略,减少噪声并提升性能 )三种Graph-based RAG对比总结(PathRAG、GraphRAG、LightRAG)
61
0
0
0
余俊晖
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节
AI
大模型
向量数据库
机器学习
Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。模型架构Phi-4-Multimodal 的基础是 Phi-4-Mini 语言模型,这是一个 3.8 亿参数的模型,设计为高效
27
0
0
0
余俊晖
RAG常见13种分块策略大总结(一览表)
AI
向量数据库
大模型
机器学习
分块策略在RAG中至关重要,目的是提高效率、相关性和上下文保持。分块能减少计算开销,增加检索相关信息的可能性,同时保持信息完整性。但也存在风险,如上下文丢失、冗余和不一致性。选择策略需考虑文档类型(结构化 vs 非结构化)、查询复杂性、资源可用性和期望结果(速度 vs 准确性 vs 上下文)。以下是13种独特分块策略的详细描述,按策略名称、描述、优点、缺点和实施建议。仅供参考。| 策略名称 | 描
106
0
0
0
余俊晖
DeepSeek采用的GRPO算法数学原理及算法过程浅析
AI
火山方舟
向量数据库
大模型
先来简单看下PPO和GRPO的区别:source@xPPO:通过奖励和一个“评判者”模型(critic 模型)评估每个行为的“好坏”(价值),然后小步调整策略,确保改进稳定。GRPO:通过让模型自己生成一组结果(比如回答或行为),比较它们的相对质量(优势),然后优化策略。它的特点是不需要额外的“评判者”模型(critic 模型),直接用组内比较来改进。个人理解记录,供参考。GRPO目标函数的数学原
92
0
0
0
余俊晖
allenai开源多模态的文档智能解析大模型(OLMOCR)方法、效果浅析
AI
向量数据库
大模型
云存储
先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。 但通过pdfparser工具结合prompt结合的方式值得一看 。在线demo:https://olmocr.allenai.org/开源权重地址:https://huggingface.co/allenai/olmOCR-7B-0225-previewpap
124
0
0
0
余俊晖
DeepSeek的多头潜在注意力(MLA)和及其11种KV-Cache技巧演进大总结
AI
大模型
向量数据库
机器学习
本文将探讨KV-Cache如何通过在内存使用和计算时间之间进行巧妙的权衡,使像ChatGPT和DeepSeek这样的语言模型在生成文本时更快。总结11篇最近的研究论文,归纳三大类: token选择、后处理压缩技术和架构重新设计 。包括DeepSeek的多头潜在注意力(MLA),这些论文在这一基本思想的基础上,进一步提高了大型语言模型(LLM)推理的时间效率。为什么文本生成如此缓慢让我们从一个简单的
70
0
0
0
余俊晖
“RAG界的deepseek”开源-企业复杂私域知识理解与推理框架PIKE-RAG
AI
向量数据库
大模型
云通信
PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下微软开源的PIKE-RAG框架及其实现过程,供参考。PIKE-RAG框架主要由几个基本模块组成,包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协
150
0
0
0