余俊晖
余俊晖
AI向量数据库大模型云通信
PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下微软开源的PIKE-RAG框架及其实现过程,供参考。PIKE-RAG框架主要由几个基本模块组成,包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协
39
0
0
0
AI向量数据库大模型机器学习
方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。其实主要看下围绕html提纯思路,将提纯后的Html内容送入LLM进行增强问答。HTML 清洗由于原始 HTML 文档过长(每个超过 80K),并且不需要考虑用户查询的语义特征,因此在这个步骤
41
0
0
0
AI向量数据库大模型数据库
企业知识库中的模态数据不止文本一个模态,传统的RAG无法解决多模态场景下的问答, 问题提出 :如何检索到与用户问题相关且有用的多模态数据?以及如何将这些数据整合成一个连贯的多模态答案?来看一个简单有效的多模态RAG框架-MuRAR。在MuRAR框架的设计中,目标是生成一个高质量的多模态答案(multimodal answer),该答案通过整合与用户问题相关的多模态数据来提供连贯且信息丰富的内容。用
34
0
0
0
AI向量数据库大模型机器学习
MLA是MHA的变体,因此先来看看MHA。《 【LLM】一文详解MHA、GQA、MQA原理 》MHA通过将输入向量分割成多个并行的注意力“头”,每个头独立地计算注意力权重并产生输出,然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。Transformer 编码器块内的缩放点积注意力机制和多头注意力机制MHA计算过程将分成了多个部分,每个部分进行注意力。比如的形状、的形状、的形状,则有
121
0
0
0
AI大模型算法机器学习
最近各种营销号鼓吹 基于qwen的模型几十块钱复现deepseek-R1-zero ,坑坏了算法工程师,笔者实验验证下这个夸张说法,因为实验仅仅是快速的实现,无过多的优化,下面实验数据 仅供参考 ,欢迎指正。DeepSeek-R1-Zero过程DeepSeek-R1-Zero是一个纯RL(无SFT)来探索模型推理能力的过程(基于GRPO的RL优化过程)。Reward Model是基于规则的奖励过程
52
0
0
0
AI大模型向量数据库机器学习
笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《 文档智能系列栏目 》,涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法,供参考。一、架构红色三部分组成的模型结构ECLAIR 采用了一个较大的视觉编码器(657M 参数-ViT-H/16)和一个较轻量级的解码器(279M 参数-mBART)组成端到端的模型, 主要为了在推理时提高效率 。ECLAIR 包括以下几个组件:视觉
41
0
0
0
AI向量数据库大模型云通信
RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前,系统先从外部数据源(如数据库、API或互联网)动态检索相关上下文,再结合LLM的知识生成更精准、实时的响应。 但它们通常在处理动态、多步推理任务、适应性和复杂工作流的协调方面仍然存在不足 。rag三大组件检索器(Retriever):从外部数据源(如向量数据库、知识图谱或网页)中搜索与查询相关的信息。相关技术:如BM25关键词匹配、密
231
0
0
0
大模型大模型向量数据库NoSQL数据库
往期相关:【多模态&LLM】POINTS多模态大模型浅谈【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))【多模态&LLM】英伟达NVLM多模态大模型细节和数据集【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录【多模态&LLM】多模态
35
0
0
0
开源大模型向量数据库机器学习
qwen开年开源了Qwen2.5-VL系列权重模型,笔者观察到相较于传统的多模态系列,增加了文档理解功能。笔者以文档智能中两个比较重要的任务 和 ,笔者直接测试下Qwen2.5-VL-72B的效果。图:版式分析和表格识别在文档智能解析任务中所在角色往期文档智能及多模态相关技术文档智能【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路【多模态 & 文档智能】一次多模
41
0
0
0
AI大模型向量数据库机器学习
笔者在前面预训练了一个多模态大模型Reyes,详情见《 【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告) 》。本文将为Reyes增加一个batch推理方式,提高Reyes的推理速度。Reyes-8B开源地址:modelscope权重下载地址:https://modelscope.cn/models/yujunhuinlp/Reyes-8Bgithub:https://g
18
0
0
0
AI大模型向量数据库机器学习
往期相关:【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))【多模态&LLM】英伟达NVLM多模态大模型细节和数据集【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节NaViT利用 序列打包训练 ,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、
77
0
0
0
AI向量数据库大模型云通信
来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法 仅关注文本内容,忽略了布局设计和PPT结构 。PPTAgent 采用了一种基于编辑的生成范式,解决处理 空间关系和设计风格 方面的挑战。传统方法的每个幻灯片可以用以下公式表示:其中,表示幻灯片上的元素数量,表示由章节和图形组成的源内容。每个元素由其类型、内容和样式属性(如边框、大小、位置等)定义。
169
0
0
0
大模型大模型向量数据库机器学习
最近,笔者系统的看了下一些比较经典的多模态大模型实现思路,本着动手实践的态度,从零到一实现了一个多模态大模型,并命名为 ,R:睿,eyes:眼。Reyes的参数量为8B,视觉编码器使用的是 ,语言模型侧使用的是 ,与NVLM-1.0等相关多模态大模型一样,Reyes也 通过一个两层MLP投影层连接视觉编码器与语言模型 。最终,Reyes-8B(0.447分)以更小的参数量在MMMU-benc
54
0
0
0
大模型大模型向量数据库云通信
往期相关(多模态大模型):【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节【多模态&LLM】英伟达NVLM多模态大模型细节和数据集模型架构目标是结合预训练LLM和视觉模型的能力,llava使用Vicuna作为的LLM(语言解码器),CLIP作为视觉编码器。视觉编码器 :使用预训练的CLIP视觉编码器ViT-L/14来提取图像特征。该编码器提供视觉特征。 2. 线性层 :使
140
0
0
0
大模型大模型向量数据库数据库
前期笔者介绍了OCR-free的多模态大模型,可以参考: 【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节 ,其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。NVLM-1.0包括 三种 不同的架构:NVLM-D,一种解码器架构;NVLM-X,一种基于交叉注意力(X-
445
0
0
0
大模型大模型向量数据库机器学习
目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务,然而,纯OCR任务偏向于模型的感知能力,对于文档场景,由于文字密度较高,现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时,需要重新进行训练,计算开销较大,成本较高。因此,本文再来看看vary和got这两个衔接工作,看看其完整的技术链路。传统的vlm做法和vary技术点 :新视觉词汇表的生成 :设计了一个词汇网络
147
0
0
0
AI大模型向量数据库机器学习
蒙特卡洛树搜索(MCTS)蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的算法,常用于游戏等领域。它的基本思想是通过构建一棵搜索树并模拟各种可能的行动来估计每个行动的价值。MCTS的过程可以分为四个主要步骤:选择(Selection) :从根节点开始,根据某种策略(如UCT)遍历子节点,直到找到一个叶节点。UCT(Upper Confidence Bound applied on Trees
88
0
0
0
云原生向量数据库大模型数据库
往期内容看了看多模态RAG在文档问答上的相关内容及简单实践:【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索【多模态&RAG】多模态RAG ColPali实践【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用【RAG&多模态】再看多模态RAG进行文档问答的方案【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方
93
0
0
0
云原生大模型向量数据库关系型数据库
Text2SQL是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域的子任务。往期相关:【text2sql】低资源场景下Text2SQL方法【text2sql】DB-GPT-Hub:text2sql的微调框架及基准测试套件【LLM & text2sql】浅看大模型用于text2sql的综述KBQA实践思路:【开源分享】KB
160
0
0
0
数据库火山方舟向量数据库大模型
SFT的text2sql方法SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、和是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据和中的内容预测后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续
124
0
0
0