AIGC 先锋科技
AIGC 先锋科技
AI向量数据库大模型云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群摘要——盲去雾图像质量评估(BDQA),旨在在没有参考信息的情况下准确预测去雾图像的视觉质量,对于图像去雾算法的评价、比较和优化至关重要。现有的基于学习的BDQA方法取得了显著的成功,但DQA数据集的规模较小限制了它们的性能。为了解决这一问题,在本文中,作者提出将大规模图像-文本对预训练的对比语言-图像预训练(CLIP)应用于BDQ
13
0
0
0
云原生向量数据库大模型云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群视觉-语言模型(VLMs),如CLIP,已显示出卓越的泛化能力,并且可以通过 Prompt 微调快速适应下游任务。然而,在涉及非训练类别的分类任务中,即所谓的开放词汇设置,微调后的VLMs往往对训练类别过度拟合,导致置信度评分与未见类别实际准确度之间出现偏差,这在很大程度上削弱了它们在实际部署中的可靠性。现有的置信度校准方法通常需要
16
0
0
0
AI大模型向量数据库机器学习
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群语言模型(LMs)在医学领域展示了专家级推理和记忆能力。然而,计算成本和隐私问题正在成为广泛实施的障碍。作者为医学应用引入了phi-3-mini的轻量级适应版MedMobile,这是一款38亿参数的模型,能够在移动设备上运行。作者证明,MedMobile在MedQA(USMLE)上得分为75.7%,超过医生的通过分数线(约60%),
1
0
0
0
AI大模型向量数据库数据中台
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群大型语言模型(LLMs)通过链式思维(CoT) Prompt 在各种复杂任务上表现出令人瞩目的性能。最近,有研究提出了知识蒸馏(KD)方法,即推理蒸馏,通过微调LLM教师生成的多步推理语言模型的语言模型,将LLM的推理能力进行传递。然而,他们没有充分考虑LLM教师模型中存在的两个挑战,即1)数据质量和2)软标签提供。在本文中,作者提
19
0
0
0
AI大模型向量数据库视频服务
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群视觉和音频场景的内容是多维的,因此视频流可以与各种音频流配对,反之亦然。因此,在视频到音频生成任务中,引入控制生成音频的引导方法至关重要。虽然视频到音频生成是一个已经确立的生成任务,但现有方法缺乏这种可控性。在本工作中,作者提出了VATT,这是一个多模态生成框架,输入一个视频和一个可选的文本 Prompt ,生成音频和可选的音频文本
10
0
0
0
AI大模型向量数据库数据中台
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群生成对抗网络(GANs),尤其是StyleGAN及其变体,在生成高度逼真的图像方面展现了惊人的能力。尽管它们取得了成功,但将这些模型适应到诸如域自适应、参考引导合成和文本引导操作等多样化任务,在有限训练数据的情况下仍然具有挑战性。为此,本研究中,作者提出了一种新颖的框架,通过超网络集成CLIP空间,显著扩展了预训练StyleGAN的
10
0
0
0
AI大模型机器学习算法
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群随着其在各个领域和任务中的出色表现和强大的泛化能力,机器学习模型越来越受到广泛的应用。然而,其成功与否取决于大量标注数据的可用性,而创建这些数据通常具有劳动密集、耗时和昂贵的特点。为了解决这些挑战,已经提出了许多主动学习(AL)方法,但它们往往无法充分利用AL的核心阶段的信息,例如在 Token 数据上训练和在 未标注 数据上 Qu
6
0
0
0
大模型大模型向量数据库云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群微调大型语言模型(LLMs)已成为一种常见的实践,用于调整模型以满足个体的需求和偏好。微调数据的选取可以多种多样,这可能引入有关潜在有害数据样本的安全问题。手动过滤或避免这些样本,然而,可能需要投入大量的人力和主观判断。为了解决这些问题,作者提出了一种名为“安全感知微调”(SAFT)的新颖框架,该框架旨在自动检测和删除可能的有害数据
12
0
0
0
AI大模型向量数据库云安全
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群迄今为止,大多数大规模视觉-语言模型(LVLMs)主要在英语数据上训练,这使得它们难以理解非英语输入,并且无法生成所需的目标语言输出。现有的努力通过添加多语言训练数据来减轻这些问题,但这种做法大多是临时的,缺乏对不同语言训练混合如何影响不同语言群体的洞察。在这项工作中,作者全面调查了大规模多语言LVLM的训练策略。首先,作者进行了一
5
0
0
0
AI大模型向量数据库云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群在本文中,作者提出了一种名为DreamDance的新方法,仅使用骨架动作序列作为条件输入来动画化人体图像。现有方法在生成连贯且高质量的内容方面面临挑战,且难以做到高效和用户友好。具体而言,依赖仅有2D姿态引导的基本方法缺乏3D信息的 Prompt ,导致结果不尽如人意;而采用3D表示作为引导的方法虽然可以实现更高质量的结果,但过程繁
19
0
0
0
云原生大模型向量数据库云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群Introduction文本到图像生成的扩散模型[11]已经彻底改变了基于文本 Prompt 的图像合成,这在从Stable Diffusion[29]、Imagen[33]和DALL-E 2[27]取得的重大进展中得到了体现。这些模型的个性化技术进一步提升了其灵活性,使其能够生成特定概念(如角色、物体或艺术风格)的个性化图像。低秩
10
0
0
0
AI大模型向量数据库云存储
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群近年来,一些研究将Gaussian Splatting与语言嵌入结合,用于开放词汇的3D场景理解。虽然这些方法表现良好,但本质上需要非常密集的多视角输入,这限制了它们在实际应用场景中的适用性。在这项工作中,作者提出了一种名为SparseLGS的方法,以应对无姿态和稀疏视图输入图像下的3D场景理解挑战。作者的方法利用基于学习的稠密立体
9
0
0
0
AI向量数据库大模型云通信
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群近期的Segment Anything Model (SAM) 在扩展分割模型方面取得了显著突破,在RGB模态的各种下游应用中表现出了强大的性能。然而,直接将SAM应用于新兴的视觉模态,如深度和事件数据,在多模态分割任务中会导致性能不佳。在本文中,作者首次尝试通过提出一种针对不同输入视觉模态的Mixture of Low-Rank
56
0
0
0
AI大模型向量数据库视频云
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群视频生成模型(VGMs)近年来受到了广泛关注,并且被视为通用大视觉模型的有前途候选者。尽管它们每次只能生成短视频,但现有方法通过多次调用VGMs并以上一轮的最后一帧作为下一轮生成的条件,实现了长视频生成。然而,最后一帧只包含了场景的短期细粒度信息,导致长时段内的一致性问题。为解决这一问题,作者提出了一种全景世界模式(Owl-1),以
15
0
0
0
AI大模型向量数据库云存储
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群图像分割,即将原始图像像素转换为紧凑的低维潜在表示的过程,已被证明对于可扩展和高效的图像生成至关重要。然而,主流的图像分割方法通常压缩率有限,使得高分辨率图像生成计算成本高昂。为解决这一挑战,作者提出利用语言来实现高效的图像分割,并称之为文本条件图像分割(TexTok)。TexTok 是一种简单有效的分割框架,通过利用语言提供高层语
19
0
0
0
AI火山方舟向量数据库大模型
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群近年来,扩散模型的发展已经革新了二维和三维内容的生成,但生成逼真的动态四维场景仍然是一项重大挑战。现有动态四维生成方法通常依赖从预训练的三维生成模型中提炼知识,这些模型往往是在合成物体数据集上进行微调的。因此,生成的场景往往会侧重于物体而缺乏照片的真实感。尽管文本到视频模型可以生成更具现实感且带有运动的画面,但在空间理解方面常常存在
21
0
0
0
AI大模型数据中台云安全
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群在线测试时自适应(OTTA)视觉语言模型(VLMs)近年来受到广泛关注,旨在利用观察到的数据流来改善未来的预测。遗憾的是,现有方法依赖于数据集特定的超参数,这极大地限制了它们对未见任务的适应性。为此,作者提出了在线高斯自适应(OGA)这一新颖方法,该方法使用高斯分布来建模视觉特征的似然性,并将零样本先验纳入具有固定超参数的可解释最大
14
0
0
0
AI大模型向量数据库云通信
点击下方卡片,关注「AI视界引擎」公众号( 添加时备注:方向+学校/公司+昵称/姓名 )本文提出了一种新颖的多核估计方法,通过增强KernelGAN算法[1],该算法传统上对整个图像估计一个核。作者引入了Multi-KernelGAN,通过基于目标分割 Mask 估计两个不同的核来扩展KernelGAN的能力。作者的方法通过三种不同的方法进行了验证:基于纹理的贴片FFT计算,基于细节的分割,以及使
82
0
0
0
AI大模型向量数据库机器学习
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群在2025年1月下旬,DeepSeek发布了他们新的推理模型(DeepSeek R1);该模型在成本仅为一小部分的情况下开发,尽管受到GPU 出口禁令的影响,但其性能仍与OpenAI 的模型相媲美。本报告讨论了该模型,以及其发布对更广泛的生成式AI领域的意义。作者简要讨论了近期中国发布的其他模型,它们的相似性;混合专家(MoE)、强
46
0
0
0
AI大模型向量数据库数据中台
备注好友:方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群最近,视觉语言模型(VLMs)如CLIP在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将VLMs应用到下游任务仍具有挑战性,因为它们的准确性通常依赖于耗时且需要专业知识的时间密集型 Prompt 工程,而全模型微调则成本高昂。这在生物医学图像中尤为明显,因为与自然图像不同,生物医学图像通常具有有限的标注数据集、不直观的图
20
0
0
0