We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
余俊晖
文章
专栏
问答
余俊晖
【多模态&LLM】POINTS多模态大模型浅谈
AI
大模型
向量数据库
机器学习
往期相关:【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))【多模态&LLM】英伟达NVLM多模态大模型细节和数据集【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节NaViT利用 序列打包训练 ,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、
28
0
0
0
余俊晖
【LLM&Agent】PPTAgent:PPT自动生成Agent框架
AI
向量数据库
大模型
云通信
来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法 仅关注文本内容,忽略了布局设计和PPT结构 。PPTAgent 采用了一种基于编辑的生成范式,解决处理 空间关系和设计风格 方面的挑战。传统方法的每个幻灯片可以用以下公式表示:其中,表示幻灯片上的元素数量,表示由章节和图形组成的源内容。每个元素由其类型、内容和样式属性(如边框、大小、位置等)定义。
53
0
0
0
余俊晖
【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
大模型
大模型
向量数据库
机器学习
最近,笔者系统的看了下一些比较经典的多模态大模型实现思路,本着动手实践的态度,从零到一实现了一个多模态大模型,并命名为 ,R:睿,eyes:眼。Reyes的参数量为8B,视觉编码器使用的是 ,语言模型侧使用的是 ,与NVLM-1.0等相关多模态大模型一样,Reyes也 通过一个两层MLP投影层连接视觉编码器与语言模型 。最终,Reyes-8B(0.447分)以更小的参数量在MMMU-benc
17
0
0
0
余俊晖
【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))
大模型
大模型
向量数据库
云通信
往期相关(多模态大模型):【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节【多模态&LLM】英伟达NVLM多模态大模型细节和数据集模型架构目标是结合预训练LLM和视觉模型的能力,llava使用Vicuna作为的LLM(语言解码器),CLIP作为视觉编码器。视觉编码器 :使用预训练的CLIP视觉编码器ViT-L/14来提取图像特征。该编码器提供视觉特征。 2. 线性层 :使
61
0
0
0
余俊晖
【多模态&LLM】英伟达NVLM多模态大模型细节和数据集
大模型
大模型
向量数据库
数据库
前期笔者介绍了OCR-free的多模态大模型,可以参考: 【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节 ,其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。NVLM-1.0包括 三种 不同的架构:NVLM-D,一种解码器架构;NVLM-X,一种基于交叉注意力(X-
395
0
0
0
余俊晖
【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节
大模型
大模型
向量数据库
机器学习
目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务,然而,纯OCR任务偏向于模型的感知能力,对于文档场景,由于文字密度较高,现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时,需要重新进行训练,计算开销较大,成本较高。因此,本文再来看看vary和got这两个衔接工作,看看其完整的技术链路。传统的vlm做法和vary技术点 :新视觉词汇表的生成 :设计了一个词汇网络
88
0
0
0
余俊晖
【RAG&LLM】RARE: 提升LLM推理准确性和事实完整性的检索增强框架思路浅尝
AI
大模型
向量数据库
机器学习
蒙特卡洛树搜索(MCTS)蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的算法,常用于游戏等领域。它的基本思想是通过构建一棵搜索树并模拟各种可能的行动来估计每个行动的价值。MCTS的过程可以分为四个主要步骤:选择(Selection) :从根节点开始,根据某种策略(如UCT)遍历子节点,直到找到一个叶节点。UCT(Upper Confidence Bound applied on Trees
54
0
0
0
余俊晖
【多模态】文档截图嵌入统一多模态检索方法原理
云原生
向量数据库
大模型
数据库
往期内容看了看多模态RAG在文档问答上的相关内容及简单实践:【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索【多模态&RAG】多模态RAG ColPali实践【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用【RAG&多模态】再看多模态RAG进行文档问答的方案【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方
60
0
0
0
余俊晖
【text2sql】利用大模型进行Text2SQL任务朴素过程及相关开源数据集
云原生
大模型
向量数据库
关系型数据库
Text2SQL是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域的子任务。往期相关:【text2sql】低资源场景下Text2SQL方法【text2sql】DB-GPT-Hub:text2sql的微调框架及基准测试套件【LLM & text2sql】浅看大模型用于text2sql的综述KBQA实践思路:【开源分享】KB
90
0
0
0
余俊晖
【text2sql】低资源场景下Text2SQL方法
数据库
火山方舟
向量数据库
大模型
SFT的text2sql方法SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、和是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据和中的内容预测后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续
71
0
0
0
余俊晖
【text2sql】DB-GPT-Hub:text2sql的微调框架及基准测试套件
数据库
向量数据库
大模型
数据库
text2sql任务是将自然语言问题转换为SQL查询。使用大模型来进行 sql 生成的方式也越来越常见。根据大模型用于文本到SQL生成的方式,text2sql可以分为两种场景:零样本/少样本提示和微调。零样本/少样本提示 :在零样本场景中,不提供示例;而在少样本场景中,提供少量输入输出示例以提示大模型。形式上,给定一个由参数化的LLM,问题和个示例(),目标是最大化从大型语言模型生成正确SQL 的
115
0
0
0
余俊晖
【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝
AI
大模型
向量数据库
云安全
(a1)mR2AG带检索:这个过程包括:a)检索反思,用于确定是否需要检索;b)相关性反思,用于识别证据段落;c)对多个候选答案进行后处理。(a2)mR2AG不带检索:当不需要检索时的生成过程。(b)无反思的朴素mRAG:一种没有反思的基线方法。在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题 ,并且依赖于可访问的知识库。文章提出的框架通过两个新颖的
80
0
0
0
余俊晖
【LLM】1-bit大模型,BitNet与BitNet b1.58
大模型
大模型
向量数据库
机器学习
BitNet 是一种用于大型语言模型的 1-bit Transformer 架构。主要目标是通过使用低精度二进制权重和量化激活来提高计算效率。BitLinear重点看下BitLinear,BitLinear 是 BitNet 的核心组件,它替代了传统 Transformer 中的矩阵乘法操作。BitLinear 使用二进制(1-bit)模型权重来进行计算。其计算步骤如下:权重二值化 : 使用符号函
69
0
0
0
余俊晖
【RAG】浅看引入智能信息助理提升大模型处理复杂推理任务的潜力-AssisTRAG
大模型
大模型
关系型数据库
智能语音交互
AssisTRAG通过集成一个智能信息助手 来提升LLMs处理复杂推理任务的能力。该框架由两个主要组件构成:一个冻结的主语言模型 和一个可训练的助手语言模型 。 AssisTRAG与之前的RAG对比组件主语言模型(Main LLM) :负责根据提供的信息生成答案。这个模型是固定的,不进行训练。助手语言模型(Assistant LLM) :负责信息管理,包括记忆管理和知识管理。这个模型是可训练的。可
81
0
0
0
余俊晖
【文档智能】从零构建文档智能解析系统折腾效果记录
AI
大模型
数据安全
机器学习
折腾记录
65
0
0
0
余俊晖
【RAG&多模态】再看多模态RAG进行文档问答的方案
AI
大模型
关系型数据库
图像处理
先说结论:这篇文章的方法和前面介绍的两个多模态RAG的工作非常相似,可以看看往期介绍:【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用M3DOCRAG同样也指出,现有的方法要么专注于单页文档的多模态语言模型,要么依赖于基于文本的RAG方法,这些方法使用OCR等文本提取工具。然而
159
0
0
0
余俊晖
【RAG】R²AG:将检索信息融入RAG,提升问答系统准确性
AI
向量数据库
大模型
数据库
文章指出,传统RAG通过向量检索排序召回与Query相关的片段,通过prompt生成回复,LLMs与检索器之间存在语义鸿沟(LLMs难以有效利用检索器提供的信息)。下面来看看这篇文章引入检索信息增强RAG性能的trick。 RAG和的比较。采用可训练的-Former来弥合检索器和LLM之间的语义鸿沟 模型架构检索特征提取在 中,首先从检索器 获取语义表示:查询编码表示::文档编码表示 :。这样
95
0
0
0
余俊晖
【多模态&RAG】多模态RAG ColPali实践
AI
机器学习
关于【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索前面已经介绍了(供参考),这次来看看ColPali实践。多模态问答模型:Qwen2-VL-72B-Instruct,https://modelscope.cn/models/Qwen/Qwen2-VL-72B-Instruct基于 PaliGemma-3B 和 ColBERT 策略的视觉检索器:ColPali(L
123
0
0
0
余俊晖
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
大模型
大模型
笔者在往期文章中分享了很多文档智能解析相关技术,传统的pipline的解析技术基本上如下图:往期相关文章整理在合集《文档智能》,供参考。下面再来通过一篇综述文章回顾下相关技术 ,文章介绍了传统pipline的文档解析技术、端到端的多模态文档解析技术和相关数据集。 文档解析方法概述 文档解析的两种方法论:传统pipline的文档解析技术、端到端的多模态文档解析技术基于版式分析的pipline解析技术
208
0
0
0
余俊晖
【文末福利赠书】自动化RAG框架-“AutoML风”卷到了RAG?
AI
机器学习
NoSQL数据库
算法
AutoML(自动机器学习)是指通过自动化过程,简化机器学习模型的开发、训练和优化,使非专业用户也能有效地构建高性能模型。今天分享的自动RAG框架,该框架能够自动识别给定数据集的合适RAG模块。自动RAG探索并近似数据集的最佳RAG模块组合 。 AutoRAG整体结构的结构图文章评估了各种RAG技术。分别为查询扩展、检索、段落增强、段落重排和提示创建 的策略。每种技术旨在优化外部知识源与生成过程的
60
0
0
0