余俊晖
余俊晖
AI大模型向量数据库机器学习
往期相关:【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))【多模态&LLM】英伟达NVLM多模态大模型细节和数据集【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节NaViT利用 序列打包训练 ,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、
28
0
0
0
AI向量数据库大模型云通信
来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法 仅关注文本内容,忽略了布局设计和PPT结构 。PPTAgent 采用了一种基于编辑的生成范式,解决处理 空间关系和设计风格 方面的挑战。传统方法的每个幻灯片可以用以下公式表示:其中,表示幻灯片上的元素数量,表示由章节和图形组成的源内容。每个元素由其类型、内容和样式属性(如边框、大小、位置等)定义。
53
0
0
0
大模型大模型向量数据库机器学习
最近,笔者系统的看了下一些比较经典的多模态大模型实现思路,本着动手实践的态度,从零到一实现了一个多模态大模型,并命名为 ,R:睿,eyes:眼。Reyes的参数量为8B,视觉编码器使用的是 ,语言模型侧使用的是 ,与NVLM-1.0等相关多模态大模型一样,Reyes也 通过一个两层MLP投影层连接视觉编码器与语言模型 。最终,Reyes-8B(0.447分)以更小的参数量在MMMU-benc
17
0
0
0
大模型大模型向量数据库云通信
往期相关(多模态大模型):【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节【多模态&LLM】英伟达NVLM多模态大模型细节和数据集模型架构目标是结合预训练LLM和视觉模型的能力,llava使用Vicuna作为的LLM(语言解码器),CLIP作为视觉编码器。视觉编码器 :使用预训练的CLIP视觉编码器ViT-L/14来提取图像特征。该编码器提供视觉特征。 2. 线性层 :使
61
0
0
0
大模型大模型向量数据库数据库
前期笔者介绍了OCR-free的多模态大模型,可以参考: 【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节 ,其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。NVLM-1.0包括 三种 不同的架构:NVLM-D,一种解码器架构;NVLM-X,一种基于交叉注意力(X-
395
0
0
0
大模型大模型向量数据库机器学习
目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务,然而,纯OCR任务偏向于模型的感知能力,对于文档场景,由于文字密度较高,现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时,需要重新进行训练,计算开销较大,成本较高。因此,本文再来看看vary和got这两个衔接工作,看看其完整的技术链路。传统的vlm做法和vary技术点 :新视觉词汇表的生成 :设计了一个词汇网络
88
0
0
0
AI大模型向量数据库机器学习
蒙特卡洛树搜索(MCTS)蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的算法,常用于游戏等领域。它的基本思想是通过构建一棵搜索树并模拟各种可能的行动来估计每个行动的价值。MCTS的过程可以分为四个主要步骤:选择(Selection) :从根节点开始,根据某种策略(如UCT)遍历子节点,直到找到一个叶节点。UCT(Upper Confidence Bound applied on Trees
54
0
0
0
云原生向量数据库大模型数据库
往期内容看了看多模态RAG在文档问答上的相关内容及简单实践:【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索【多模态&RAG】多模态RAG ColPali实践【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用【RAG&多模态】再看多模态RAG进行文档问答的方案【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方
60
0
0
0
云原生大模型向量数据库关系型数据库
Text2SQL是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域的子任务。往期相关:【text2sql】低资源场景下Text2SQL方法【text2sql】DB-GPT-Hub:text2sql的微调框架及基准测试套件【LLM & text2sql】浅看大模型用于text2sql的综述KBQA实践思路:【开源分享】KB
90
0
0
0
数据库火山方舟向量数据库大模型
SFT的text2sql方法SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、和是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据和中的内容预测后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续
71
0
0
0
数据库向量数据库大模型数据库
text2sql任务是将自然语言问题转换为SQL查询。使用大模型来进行 sql 生成的方式也越来越常见。根据大模型用于文本到SQL生成的方式,text2sql可以分为两种场景:零样本/少样本提示和微调。零样本/少样本提示 :在零样本场景中,不提供示例;而在少样本场景中,提供少量输入输出示例以提示大模型。形式上,给定一个由参数化的LLM,问题和个示例(),目标是最大化从大型语言模型生成正确SQL 的
115
0
0
0
AI大模型向量数据库云安全
(a1)mR2AG带检索:这个过程包括:a)检索反思,用于确定是否需要检索;b)相关性反思,用于识别证据段落;c)对多个候选答案进行后处理。(a2)mR2AG不带检索:当不需要检索时的生成过程。(b)无反思的朴素mRAG:一种没有反思的基线方法。在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题 ,并且依赖于可访问的知识库。文章提出的框架通过两个新颖的
80
0
0
0
大模型大模型向量数据库机器学习
BitNet 是一种用于大型语言模型的 1-bit Transformer 架构。主要目标是通过使用低精度二进制权重和量化激活来提高计算效率。BitLinear重点看下BitLinear,BitLinear 是 BitNet 的核心组件,它替代了传统 Transformer 中的矩阵乘法操作。BitLinear 使用二进制(1-bit)模型权重来进行计算。其计算步骤如下:权重二值化 : 使用符号函
69
0
0
0
大模型大模型关系型数据库智能语音交互
AssisTRAG通过集成一个智能信息助手 来提升LLMs处理复杂推理任务的能力。该框架由两个主要组件构成:一个冻结的主语言模型 和一个可训练的助手语言模型 。 AssisTRAG与之前的RAG对比组件主语言模型(Main LLM) :负责根据提供的信息生成答案。这个模型是固定的,不进行训练。助手语言模型(Assistant LLM) :负责信息管理,包括记忆管理和知识管理。这个模型是可训练的。可
81
0
0
0
65
0
0
0
AI大模型关系型数据库图像处理
先说结论:这篇文章的方法和前面介绍的两个多模态RAG的工作非常相似,可以看看往期介绍:【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用M3DOCRAG同样也指出,现有的方法要么专注于单页文档的多模态语言模型,要么依赖于基于文本的RAG方法,这些方法使用OCR等文本提取工具。然而
159
0
0
0
AI向量数据库大模型数据库
文章指出,传统RAG通过向量检索排序召回与Query相关的片段,通过prompt生成回复,LLMs与检索器之间存在语义鸿沟(LLMs难以有效利用检索器提供的信息)。下面来看看这篇文章引入检索信息增强RAG性能的trick。 RAG和的比较。采用可训练的-Former来弥合检索器和LLM之间的语义鸿沟 模型架构检索特征提取在 中,首先从检索器 获取语义表示:查询编码表示::文档编码表示 :。这样
95
0
0
0
AI机器学习
关于【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索前面已经介绍了(供参考),这次来看看ColPali实践。多模态问答模型:Qwen2-VL-72B-Instruct,https://modelscope.cn/models/Qwen/Qwen2-VL-72B-Instruct基于 PaliGemma-3B 和 ColBERT 策略的视觉检索器:ColPali(L
123
0
0
0
大模型大模型
笔者在往期文章中分享了很多文档智能解析相关技术,传统的pipline的解析技术基本上如下图:往期相关文章整理在合集《文档智能》,供参考。下面再来通过一篇综述文章回顾下相关技术 ,文章介绍了传统pipline的文档解析技术、端到端的多模态文档解析技术和相关数据集。 文档解析方法概述 文档解析的两种方法论:传统pipline的文档解析技术、端到端的多模态文档解析技术基于版式分析的pipline解析技术
208
0
0
0
AI机器学习NoSQL数据库算法
AutoML(自动机器学习)是指通过自动化过程,简化机器学习模型的开发、训练和优化,使非专业用户也能有效地构建高性能模型。今天分享的自动RAG框架,该框架能够自动识别给定数据集的合适RAG模块。自动RAG探索并近似数据集的最佳RAG模块组合 。 AutoRAG整体结构的结构图文章评估了各种RAG技术。分别为查询扩展、检索、段落增强、段落重排和提示创建 的策略。每种技术旨在优化外部知识源与生成过程的
60
0
0
0