余俊晖
余俊晖
AI向量数据库大模型数据中台
公式识别是文档智能解析中的重要一环,本文笔者将介绍笔者自己的工作,供参考。关于文档智能的全链路的技术路线,笔者在前期做了大量的技术解析,详细可以看专栏《 文档智能专栏(点击跳转) 》核心问题:当前的数学表达式识别(MER)模型难以处理复杂公式中的层次结构和细粒度细节。数学公式是逻辑的建筑蓝图——它们在求和符号中嵌套分数,在行文中堆叠矩阵,并分支为条件分段函数。然而,尽管数学公式具有复杂的结构,当前
14
0
0
0
大模型大模型向量数据库云存储
Qwen2.5B-VL-32B开源之际,记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。系列模型的应用场景:Qwen-VL:基础图像理解和对话。Qwen2-VL:图像+短视频理解,代理任务。Qwen2.5-VL:长视频、复杂文档解析、多语言支持,适用于更广泛的现实场景。模型架构演进一览(其实差不多,模型侧有一些细节改动,系列更多还是数据上的增量训练):| 模
20
0
0
0
AI大模型向量数据库机器学习
本文详细介绍 DeepSeek 模型中的一些创新技术,包括对 Transformer 架构的改进(如 MLA、MOE)、Multi-Token Prediction 提高训练效率、算法、框架和硬件的协同设计、Group Relative Policy Optimization (GRPO) 强化学习算法,以及结合监督微调和强化学习的迭代训练方法。这些技术不仅提高了模型的性能,还显著降低了训练成本。
36
0
0
0
AI大模型向量数据库机器学习
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能, 因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率 。如下图D和E所示:方法 :从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-I
16
0
0
0
AI向量数据库大模型数据库
再看这个整理图,整个系统形成了一个闭环的多模态查询响应流程:文档输入:DOC 和 PDF 文档被转换为 JPG 页面图像。 2. 嵌入生成:图像和文本通过嵌入器生成向量,存储在 Qdrant 向量数据库中。 3. 查询处理:用户通过聊天界面输入查询,ColPali 处理多模态表示。 4. 上下文检索:从数据库中检索相关内容,提供给 Qwen2.5-VL。 5. 回答生成:基于多模态提示生成最终回答
22
0
0
0
AI大模型向量数据库机器学习
文章提出:传统的 MLLMs 中,文本嵌入是从 LLM 的嵌入查找表中索引得到的,而视觉嵌入是由视觉编码器(如:ViT)直接生成的连续向量。这种差异导致在视觉和文本信息融合时存在挑战 。与传统的MLLM不同,Ovis 通过在视觉编码器的过程中引入一个额外的 视觉嵌入查找表 来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。效果往期相关多模态大模型细节介绍:Phi-4-multimoda
24
0
0
0
AI火山方舟向量数据库大模型
PathRAG 也是一种新型 Graph-based RAG 方法,通过检索索引图中的关键关系路径,减少噪声并优化 LLM 提示。其核心创新在于基于流的剪枝算法和路径为基础的提示策略,特别适用于捕捉复杂数据集中的关系。(其实可以看做 相比GraphRAG假如剪枝算法和路径提示策略,减少噪声并提升性能 )三种Graph-based RAG对比总结(PathRAG、GraphRAG、LightRAG)
41
0
0
0
AI大模型向量数据库机器学习
Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。模型架构Phi-4-Multimodal 的基础是 Phi-4-Mini 语言模型,这是一个 3.8 亿参数的模型,设计为高效
18
0
0
0
AI向量数据库大模型机器学习
分块策略在RAG中至关重要,目的是提高效率、相关性和上下文保持。分块能减少计算开销,增加检索相关信息的可能性,同时保持信息完整性。但也存在风险,如上下文丢失、冗余和不一致性。选择策略需考虑文档类型(结构化 vs 非结构化)、查询复杂性、资源可用性和期望结果(速度 vs 准确性 vs 上下文)。以下是13种独特分块策略的详细描述,按策略名称、描述、优点、缺点和实施建议。仅供参考。| 策略名称 | 描
85
0
0
0
AI火山方舟向量数据库大模型
先来简单看下PPO和GRPO的区别:source@xPPO:通过奖励和一个“评判者”模型(critic 模型)评估每个行为的“好坏”(价值),然后小步调整策略,确保改进稳定。GRPO:通过让模型自己生成一组结果(比如回答或行为),比较它们的相对质量(优势),然后优化策略。它的特点是不需要额外的“评判者”模型(critic 模型),直接用组内比较来改进。个人理解记录,供参考。GRPO目标函数的数学原
54
0
0
0
AI向量数据库大模型云存储
先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。 但通过pdfparser工具结合prompt结合的方式值得一看 。在线demo:https://olmocr.allenai.org/开源权重地址:https://huggingface.co/allenai/olmOCR-7B-0225-previewpap
80
0
0
0
AI大模型向量数据库机器学习
本文将探讨KV-Cache如何通过在内存使用和计算时间之间进行巧妙的权衡,使像ChatGPT和DeepSeek这样的语言模型在生成文本时更快。总结11篇最近的研究论文,归纳三大类: token选择、后处理压缩技术和架构重新设计 。包括DeepSeek的多头潜在注意力(MLA),这些论文在这一基本思想的基础上,进一步提高了大型语言模型(LLM)推理的时间效率。为什么文本生成如此缓慢让我们从一个简单的
49
0
0
0
AI向量数据库大模型云通信
PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下微软开源的PIKE-RAG框架及其实现过程,供参考。PIKE-RAG框架主要由几个基本模块组成,包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协
127
0
0
0
AI向量数据库大模型机器学习
方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。其实主要看下围绕html提纯思路,将提纯后的Html内容送入LLM进行增强问答。HTML 清洗由于原始 HTML 文档过长(每个超过 80K),并且不需要考虑用户查询的语义特征,因此在这个步骤
76
0
0
0
AI向量数据库大模型数据库
企业知识库中的模态数据不止文本一个模态,传统的RAG无法解决多模态场景下的问答, 问题提出 :如何检索到与用户问题相关且有用的多模态数据?以及如何将这些数据整合成一个连贯的多模态答案?来看一个简单有效的多模态RAG框架-MuRAR。在MuRAR框架的设计中,目标是生成一个高质量的多模态答案(multimodal answer),该答案通过整合与用户问题相关的多模态数据来提供连贯且信息丰富的内容。用
57
0
0
0
AI向量数据库大模型机器学习
MLA是MHA的变体,因此先来看看MHA。《 【LLM】一文详解MHA、GQA、MQA原理 》MHA通过将输入向量分割成多个并行的注意力“头”,每个头独立地计算注意力权重并产生输出,然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。Transformer 编码器块内的缩放点积注意力机制和多头注意力机制MHA计算过程将分成了多个部分,每个部分进行注意力。比如的形状、的形状、的形状,则有
197
0
0
0
AI大模型算法机器学习
最近各种营销号鼓吹 基于qwen的模型几十块钱复现deepseek-R1-zero ,坑坏了算法工程师,笔者实验验证下这个夸张说法,因为实验仅仅是快速的实现,无过多的优化,下面实验数据 仅供参考 ,欢迎指正。DeepSeek-R1-Zero过程DeepSeek-R1-Zero是一个纯RL(无SFT)来探索模型推理能力的过程(基于GRPO的RL优化过程)。Reward Model是基于规则的奖励过程
90
0
0
0
AI大模型向量数据库机器学习
笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《 文档智能系列栏目 》,涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法,供参考。一、架构红色三部分组成的模型结构ECLAIR 采用了一个较大的视觉编码器(657M 参数-ViT-H/16)和一个较轻量级的解码器(279M 参数-mBART)组成端到端的模型, 主要为了在推理时提高效率 。ECLAIR 包括以下几个组件:视觉
66
0
0
0
AI向量数据库大模型云通信
RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前,系统先从外部数据源(如数据库、API或互联网)动态检索相关上下文,再结合LLM的知识生成更精准、实时的响应。 但它们通常在处理动态、多步推理任务、适应性和复杂工作流的协调方面仍然存在不足 。rag三大组件检索器(Retriever):从外部数据源(如向量数据库、知识图谱或网页)中搜索与查询相关的信息。相关技术:如BM25关键词匹配、密
370
0
0
0
大模型大模型向量数据库NoSQL数据库
往期相关:【多模态&LLM】POINTS多模态大模型浅谈【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))【多模态&LLM】英伟达NVLM多模态大模型细节和数据集【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录【多模态&LLM】多模态
76
0
0
0