We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
AIGC 先锋科技
文章
专栏
问答
AIGC 先锋科技
清华/南大 提出 V-LORA: 一个高效且灵活的系统通过LORA LMM促进视觉应用 !
AI
大模型
向量数据库
数据中台
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型多模态模型(LMMs)在各种复杂视觉任务中取得了显著进展,这得益于它们从大型语言模型(LMMs)中继承的坚实的语言和推理能力。低秩适应(LoRA)提供了一种有前景的方法,将外部知识集成到LMMs中,以弥补其在特定领域任务上的局限性。然而,现有的LoRA模型服务过于计算昂贵且延迟极高。在本文中,作者提出了一种端到端的解决方案,使
7
0
0
0
AIGC 先锋科技
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
AI
大模型
向量数据库
机器学习
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群视觉语言(VL)模型引起了大量研究兴趣,然而,它们在有效处理图像中的文本仍面临挑战。为了解决这一限制,研究行人提出了两种方法。第一种方法涉及利用外部光学字符识别(OCR)工具从图像中提取文本信息并将其添加到文本输入之前。第二种策略是OCR无痕,它专注于使用极高分辨率的图像来提高文本识别能力。在本文中,作者通过引入一种名为TAP-V
4
0
0
0
AIGC 先锋科技
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
AI
大模型
向量数据库
云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群通过将大型语言模型(LLMs)适配到特定领域任务或向其添加特定领域的知识,作者可以充分利用 LLMs 的能力。然而,目前尚存在服务器端的 LLM 和下游客户端的轻量级语言模型(SLMs)之间实现同时 mutual enhancement 的差距。为了解决这个问题,作者提出了一种新颖且参数高效的联邦框架 FedCoLLM,用于协同调
10
0
0
0
AIGC 先锋科技
哈工大/齐鲁工大/北京师范联合提出 PMoL:结合 LoRA 与 MoE 框架,实现高效偏好混合与降低训练成本的新方法 !
AI
大模型
向量数据库
云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群强化学习从人类反馈(RLHF)已被证明是一种有效的偏好对齐大语言模型(LLM)的方法,并在LLM的预训练过程中得到了广泛应用。然而,RLHF在处理多个相互竞争的偏好时存在困难,这导致LLM与人类偏好的对齐降低。为解决此问题,作者从模型架构的角度提出偏好混合低秩自 Adapter (PMoL),它可以适应任意数量的偏好进行混合。PM
7
0
0
0
AIGC 先锋科技
纽约大学提出 EMMA:多模式 LLMs中的高效视觉对齐 !
AI
大模型
向量数据库
云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群多模态大型语言模型(MLLMs)最近通过利用视觉基础模型将图像的核心概念编码为表示,展示了令人印象深刻的通用能力。这些表示随后与指令结合并被语言模型处理以生成高质量的响应。尽管在增强语言成分方面取得了显著的进步,但语言模型中视觉编码的优化仍存在挑战,以实现针对特定任务的适应性。最近的研究主要通过改进模态适应模块来提高融合,但这也以显
5
0
0
0
AIGC 先锋科技
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
AI
大模型
向量数据库
机器学习
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群基于 Adapter 的调优方法在将预训练的视觉语言模型(VLMs)的知识迁移到下游任务方面显示了巨大的潜力。然而,在审查现有 Adapter 后,作者发现它们通常无法完全探索不同模态之间的交互关系,以构建特定任务的知识。此外,现有工作通常仅关注正文本 Prompt (或关系挖掘)之间的相似性匹配,这使得区分具有高度相似视觉内容的
5
0
0
0
AIGC 先锋科技
多角度视频描述:FIOVA基准推动LVLMs向人类水平迈进 !
AI
大模型
向量数据库
视频服务
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型视觉语言模型(LVLMs)在处理复杂视频任务方面取得了显著进展,激发了研究行人对其具有人类多模态理解能力的兴趣。视频描述是评估视频理解能力的基本任务,需要深入理解空间和时间动态,这对人类和机器都具有挑战性。因此,通过使用视频字幕作为 Agent 任务进行合理的人机比较,研究 LVLMs是否能像人类一样全面地描述视频 将有助于增
8
0
0
0
AIGC 先锋科技
华中科技 & 北航 & 清华 & 上海 AI Lab 提出 BIG.LITTLE Transformer ,用于高效视觉识别 !
AI
大模型
数据中台
向量数据库
在本文中,作者提出了大.小视觉 Transformer ,这是一种创新架构,旨在实现高效视觉识别。该双 Transformer 系统由两个不同的模块组成:大性能模块,具有高容量和大量计算需求,以及小效率模块,设计用于速度,容量较低。作者方法的关键创新在于其动态推理机制。在处理图像时,作者的系统确定每个 Token 的重要性,并相应地分配它们:重要 Token 由高性能大模型处理,而较不重要的 To
10
0
0
0
AIGC 先锋科技
从文本到图像:AutoBench-V利用LVLMs实现高效视觉问答评估 !
AI
大模型
向量数据库
云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型视觉语言模型(LVLMs)已成为推进视觉和语言信息融合的重要工具,为各种复杂应用和任务提供了便利。然而,LVLMs的评估面临着巨大的挑战,因为评估标准始终需要大量的人力物力进行构建,且一旦构建完成就变得静态,缺乏灵活性。尽管在文本模态中已经探索了自动评估,但视觉模态仍然有待深入挖掘。因此,在本研究中,作者提出一个问题:“LVL
4
0
0
0
AIGC 先锋科技
MIT 提出 Bend-VLM ,超越传统去偏,在检索、分类和图像描述中的性能突出 !
AI
大模型
向量数据库
数据中台
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群视觉语言模型(VLM)的嵌入层已经证明可以编码其训练数据中存在的偏见,例如,社会偏见将负面的特征赋予各种种族和性别身份的成员。VLM正在迅速应用于各种任务,从少样本分类到文本引导图像生成,因此,对VLM嵌入进行去偏的重要性不言而喻。然而,许多去偏方法在微调VLM时往往会出现灾难性遗忘。另一方面,去偏训练免费的方法通常采用“一概而论
12
0
0
0
AIGC 先锋科技
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !
AI
大模型
向量数据库
机器学习
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群作者提出了一个名为Diffusion Transformers(DiT)的新颖无训练空间定位技术,用于文本到图像生成。使用边界框进行空间定位因其简单性和通用性而受到关注,允许在图像生成中增强用户控制。然而,先前的无训练方法通常依赖于通过自定义损失函数从反向扩散过程(通过反向传播)更新噪声图像,这经常难以精确控制每个边界框。在本工作
8
0
0
0
AIGC 先锋科技
MMFuser 用于精细视觉-语言理解的多模态多层特征融合器 !
AI
大模型
向量数据库
云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群尽管在多模态大型语言模型(MLLMs)方面取得了显著的进展,通过跨模态交互理解复杂的人类意图,但是捕捉图像的细微细节仍然具有挑战性。以前的方法将多个视觉编码器集成起来以增强视觉细节,这引入了冗余和计算开销。作者观察到,大多数MLLMs仅利用视觉 Transformer (ViTs)的最后一层特征图进行视觉表示,而忽略了浅层特征图中
7
0
0
0
AIGC 先锋科技
北大和港科技提出 DiT4Edit, 用于图像编辑的扩散变换器 (Diffusion Transformer) !
AI
大模型
向量数据库
图像处理
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群尽管UNet基础的图像编辑方法近年来取得了进步,但在高分辨率图像中进行形状感知目标编辑的方法仍然缺乏。与UNet相比,扩散 Transformer (DiT)在捕捉 Patch 之间的长程依赖关系方面具有优越能力,从而实现更高质量的图像生成。在本论文中,作者提出DiT4Edit++,这是第一个基于扩散 Transformer 的图
5
0
0
0
AIGC 先锋科技
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
大模型
大模型
向量数据库
云安全
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型语言模型(LLMs)在各种任务上展现了令人瞩目的能力,但它们在特定领域的表现仍然有限。虽然诸如检索增强生成和微调等方法可以解决这个问题,但它们需要大量的资源。而在语境中学习(ICL)是一种便宜且高效的选择,但无法与高级方法相媲美。作者提出了一种名为Ensemble SuperICL的新方法,通过利用多个微调过的专门领域的语言模
16
0
0
0
AIGC 先锋科技
超越低秩自适应,从LoRA到Neat,利用轻量级神经网络优化预训练模型 !
AI
大模型
向量数据库
云安全
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群微调预训练模型对于将大型模型适配到下游任务中至关重要,通常可以实现最先进的表现。然而,微调所有模型参数资源消耗大且耗时,因此出现了参数高效的微调(PEFT)方法。一种广泛采用的PEFT技术,低秩自适应(LoRA),将预训练模型权重冻结并引入两个低秩矩阵,其秩显著小于原始权重矩阵的维度。这使得可以通过调整少量参数实现高效微调。尽管其
15
0
0
0
AIGC 先锋科技
Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !
AI
大模型
向量数据库
云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群尽管在视觉语言推理方面表现出色,但大型视觉语言模型(LVLMs)可能会生成与给定图像中不存在的虚假内容。大多数现有的LVLM幻觉基准都局限于评估与目标相关的幻觉。然而,两个目标之间的潜在幻觉,即关系幻觉,仍然缺乏研究。为了弥补这一缺陷,本文提出了一种统一的框架,同时测量LVLMs中的目标和关系幻觉。作者的框架的核心思想是对LVLM
6
0
0
0
AIGC 先锋科技
你永远不知道 : 量化导致视觉-语言基础模型的不一致偏差 !
AI
大模型
向量数据库
云安全
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群作者研究了压缩基础视觉语言模型(Vision-Language Models)中的一个标准做法(量化)对模型产生社会公平输出的影响。与单模态模型中压缩始终放大社会偏见的前期发现不同,作者在三个数据集和三个CLIP变体中评估了四种量化设置,得出的结果令人惊讶:尽管单个模型表现出偏见,但由于量化,压缩后的模型群体中偏见的大小或方向没有
14
0
0
0
AIGC 先锋科技
MEDGO:一个中文医疗大语言模型,已在在上海东方医院落地 !
AI
大模型
向量数据库
云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型模型是人工智能领域的一个热门研究话题。利用其生成能力有可能提高医疗服务水平和质量。针对现有大型语言模型在准确性和医学应用方面的局限性,本文提出了一种名为MedGo的中医疗大型语言模型。MedGo使用高质量的无监督医学数据、有监督数据和偏好对齐数据进行训练,旨在提高其在医学任务中的多样性和精确度。该模型通过公共CBLUE基准测试
35
0
0
0
AIGC 先锋科技
推理加速策略对 LLMs 偏差的影响 !
AI
大模型
向量数据库
云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群近年来,大型语言模型(LLM)的能力取得了前所未有的进步。这些进步有望在众多应用领域带来深刻的益处。然而,由于其庞大的规模,使用LLM进行推理既费时又费钱。因此,许多最近的工作提出了提高推理效率的策略,例如量化、剪枝和缓存。这些加速策略通过降低推理成本和延迟,通常降低几个数量级,同时保持通过常见基准测量的预测性能。在这项工作中,作
18
0
0
0
AIGC 先锋科技
西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究 !
AI
大模型
向量数据库
视频云
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群得益于大型语言模型(LLMs)的兴起,大规模视觉语言模型(LVLMs)已成为一个重要的发展趋势,它成功地弥合了图像和文本之间的鸿沟。然而,视频使得LVLMs难以有效地发挥作用,因为语言和空间-时间数据结构之间的关系非常复杂。最近,大规模视频语言模型(LVidLMs)将静态视觉数据(如图像)的特征映射到语言特征的潜在空间,通过通用的
6
0
0
0