AIGC 先锋科技
AIGC 先锋科技
AI大模型向量数据库数据中台
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型多模态模型(LMMs)在各种复杂视觉任务中取得了显著进展,这得益于它们从大型语言模型(LMMs)中继承的坚实的语言和推理能力。低秩适应(LoRA)提供了一种有前景的方法,将外部知识集成到LMMs中,以弥补其在特定领域任务上的局限性。然而,现有的LoRA模型服务过于计算昂贵且延迟极高。在本文中,作者提出了一种端到端的解决方案,使
7
0
0
0
AI大模型向量数据库机器学习
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群视觉语言(VL)模型引起了大量研究兴趣,然而,它们在有效处理图像中的文本仍面临挑战。为了解决这一限制,研究行人提出了两种方法。第一种方法涉及利用外部光学字符识别(OCR)工具从图像中提取文本信息并将其添加到文本输入之前。第二种策略是OCR无痕,它专注于使用极高分辨率的图像来提高文本识别能力。在本文中,作者通过引入一种名为TAP-V
4
0
0
0
AI大模型向量数据库云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群通过将大型语言模型(LLMs)适配到特定领域任务或向其添加特定领域的知识,作者可以充分利用 LLMs 的能力。然而,目前尚存在服务器端的 LLM 和下游客户端的轻量级语言模型(SLMs)之间实现同时 mutual enhancement 的差距。为了解决这个问题,作者提出了一种新颖且参数高效的联邦框架 FedCoLLM,用于协同调
10
0
0
0
AI大模型向量数据库云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群强化学习从人类反馈(RLHF)已被证明是一种有效的偏好对齐大语言模型(LLM)的方法,并在LLM的预训练过程中得到了广泛应用。然而,RLHF在处理多个相互竞争的偏好时存在困难,这导致LLM与人类偏好的对齐降低。为解决此问题,作者从模型架构的角度提出偏好混合低秩自 Adapter (PMoL),它可以适应任意数量的偏好进行混合。PM
7
0
0
0
AI大模型向量数据库云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群多模态大型语言模型(MLLMs)最近通过利用视觉基础模型将图像的核心概念编码为表示,展示了令人印象深刻的通用能力。这些表示随后与指令结合并被语言模型处理以生成高质量的响应。尽管在增强语言成分方面取得了显著的进步,但语言模型中视觉编码的优化仍存在挑战,以实现针对特定任务的适应性。最近的研究主要通过改进模态适应模块来提高融合,但这也以显
5
0
0
0
AI大模型向量数据库机器学习
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群基于 Adapter 的调优方法在将预训练的视觉语言模型(VLMs)的知识迁移到下游任务方面显示了巨大的潜力。然而,在审查现有 Adapter 后,作者发现它们通常无法完全探索不同模态之间的交互关系,以构建特定任务的知识。此外,现有工作通常仅关注正文本 Prompt (或关系挖掘)之间的相似性匹配,这使得区分具有高度相似视觉内容的
5
0
0
0
AI大模型向量数据库视频服务
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型视觉语言模型(LVLMs)在处理复杂视频任务方面取得了显著进展,激发了研究行人对其具有人类多模态理解能力的兴趣。视频描述是评估视频理解能力的基本任务,需要深入理解空间和时间动态,这对人类和机器都具有挑战性。因此,通过使用视频字幕作为 Agent 任务进行合理的人机比较,研究 LVLMs是否能像人类一样全面地描述视频 将有助于增
8
0
0
0
AI大模型数据中台向量数据库
在本文中,作者提出了大.小视觉 Transformer ,这是一种创新架构,旨在实现高效视觉识别。该双 Transformer 系统由两个不同的模块组成:大性能模块,具有高容量和大量计算需求,以及小效率模块,设计用于速度,容量较低。作者方法的关键创新在于其动态推理机制。在处理图像时,作者的系统确定每个 Token 的重要性,并相应地分配它们:重要 Token 由高性能大模型处理,而较不重要的 To
10
0
0
0
AI大模型向量数据库云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型视觉语言模型(LVLMs)已成为推进视觉和语言信息融合的重要工具,为各种复杂应用和任务提供了便利。然而,LVLMs的评估面临着巨大的挑战,因为评估标准始终需要大量的人力物力进行构建,且一旦构建完成就变得静态,缺乏灵活性。尽管在文本模态中已经探索了自动评估,但视觉模态仍然有待深入挖掘。因此,在本研究中,作者提出一个问题:“LVL
4
0
0
0
AI大模型向量数据库数据中台
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群视觉语言模型(VLM)的嵌入层已经证明可以编码其训练数据中存在的偏见,例如,社会偏见将负面的特征赋予各种种族和性别身份的成员。VLM正在迅速应用于各种任务,从少样本分类到文本引导图像生成,因此,对VLM嵌入进行去偏的重要性不言而喻。然而,许多去偏方法在微调VLM时往往会出现灾难性遗忘。另一方面,去偏训练免费的方法通常采用“一概而论
12
0
0
0
AI大模型向量数据库机器学习
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群作者提出了一个名为Diffusion Transformers(DiT)的新颖无训练空间定位技术,用于文本到图像生成。使用边界框进行空间定位因其简单性和通用性而受到关注,允许在图像生成中增强用户控制。然而,先前的无训练方法通常依赖于通过自定义损失函数从反向扩散过程(通过反向传播)更新噪声图像,这经常难以精确控制每个边界框。在本工作
8
0
0
0
AI大模型向量数据库云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群尽管在多模态大型语言模型(MLLMs)方面取得了显著的进展,通过跨模态交互理解复杂的人类意图,但是捕捉图像的细微细节仍然具有挑战性。以前的方法将多个视觉编码器集成起来以增强视觉细节,这引入了冗余和计算开销。作者观察到,大多数MLLMs仅利用视觉 Transformer (ViTs)的最后一层特征图进行视觉表示,而忽略了浅层特征图中
7
0
0
0
AI大模型向量数据库图像处理
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群尽管UNet基础的图像编辑方法近年来取得了进步,但在高分辨率图像中进行形状感知目标编辑的方法仍然缺乏。与UNet相比,扩散 Transformer (DiT)在捕捉 Patch 之间的长程依赖关系方面具有优越能力,从而实现更高质量的图像生成。在本论文中,作者提出DiT4Edit++,这是第一个基于扩散 Transformer 的图
5
0
0
0
大模型大模型向量数据库云安全
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型语言模型(LLMs)在各种任务上展现了令人瞩目的能力,但它们在特定领域的表现仍然有限。虽然诸如检索增强生成和微调等方法可以解决这个问题,但它们需要大量的资源。而在语境中学习(ICL)是一种便宜且高效的选择,但无法与高级方法相媲美。作者提出了一种名为Ensemble SuperICL的新方法,通过利用多个微调过的专门领域的语言模
16
0
0
0
AI大模型向量数据库云安全
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群微调预训练模型对于将大型模型适配到下游任务中至关重要,通常可以实现最先进的表现。然而,微调所有模型参数资源消耗大且耗时,因此出现了参数高效的微调(PEFT)方法。一种广泛采用的PEFT技术,低秩自适应(LoRA),将预训练模型权重冻结并引入两个低秩矩阵,其秩显著小于原始权重矩阵的维度。这使得可以通过调整少量参数实现高效微调。尽管其
15
0
0
0
AI大模型向量数据库云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群尽管在视觉语言推理方面表现出色,但大型视觉语言模型(LVLMs)可能会生成与给定图像中不存在的虚假内容。大多数现有的LVLM幻觉基准都局限于评估与目标相关的幻觉。然而,两个目标之间的潜在幻觉,即关系幻觉,仍然缺乏研究。为了弥补这一缺陷,本文提出了一种统一的框架,同时测量LVLMs中的目标和关系幻觉。作者的框架的核心思想是对LVLM
6
0
0
0
AI大模型向量数据库云安全
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群作者研究了压缩基础视觉语言模型(Vision-Language Models)中的一个标准做法(量化)对模型产生社会公平输出的影响。与单模态模型中压缩始终放大社会偏见的前期发现不同,作者在三个数据集和三个CLIP变体中评估了四种量化设置,得出的结果令人惊讶:尽管单个模型表现出偏见,但由于量化,压缩后的模型群体中偏见的大小或方向没有
14
0
0
0
AI大模型向量数据库云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型模型是人工智能领域的一个热门研究话题。利用其生成能力有可能提高医疗服务水平和质量。针对现有大型语言模型在准确性和医学应用方面的局限性,本文提出了一种名为MedGo的中医疗大型语言模型。MedGo使用高质量的无监督医学数据、有监督数据和偏好对齐数据进行训练,旨在提高其在医学任务中的多样性和精确度。该模型通过公共CBLUE基准测试
35
0
0
0
AI大模型向量数据库云通信
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群近年来,大型语言模型(LLM)的能力取得了前所未有的进步。这些进步有望在众多应用领域带来深刻的益处。然而,由于其庞大的规模,使用LLM进行推理既费时又费钱。因此,许多最近的工作提出了提高推理效率的策略,例如量化、剪枝和缓存。这些加速策略通过降低推理成本和延迟,通常降低几个数量级,同时保持通过常见基准测量的预测性能。在这项工作中,作
18
0
0
0
AI大模型向量数据库视频云
备注好友: 方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群得益于大型语言模型(LLMs)的兴起,大规模视觉语言模型(LVLMs)已成为一个重要的发展趋势,它成功地弥合了图像和文本之间的鸿沟。然而,视频使得LVLMs难以有效地发挥作用,因为语言和空间-时间数据结构之间的关系非常复杂。最近,大规模视频语言模型(LVidLMs)将静态视觉数据(如图像)的特征映射到语言特征的潜在空间,通过通用的
6
0
0
0