Meta FAIR :分享最新研究、模型和数据集

火山方舟向量数据库大模型

点击下方 卡片 ,关注“ 慢慢学AIGC ”

picture.image

摘要

这是 Meta FAIR(Facebook 人工智能研究)最新发布的一些研究成果和资源的概述。主要包括以下几个部分:

    1. Meta Chameleon - 一个能同时处理文本和图像输入输出的统一架构模型家族。他们发布了 7B 和 34B 参数的 Chameleon 模型供研究使用。
    1. 多标记预测 - 一种训练语言模型同时预测多个未来词的新方法,提高了模型性能和训练效率。他们发布了用于代码补全的预训练多标记预测模型。
    1. JASCO - 一个能接受文本、和声、节奏等多种条件输入生成音乐的模型。他们将发布论文、示例页面、推理代码和预训练模型。
    1. AudioSeal - 一种针对检测 AI 生成语音的本地化音频水印技术,可以极大提高检测速度。他们发布了商业许可的模型和训练代码。
    1. PRISM 数据集 - 记录了 1500 名来自 75 个国家的参与者对 21 个不同语言模型对话的反馈和偏好信息。
    1. 地理公平性评测 - 提出了评估文本到图像模型在不同地理区域表现差异的自动指标 DIG In,并收集了人工注释数据。他们将发布相关代码和注释数据。
    1. 提高地理多样性 - 介绍了一种在推理时引导扩散模型生成更多元化输出的技术。

总的来说,这些发布体现了 Meta 在开放科学、负责任 AI、促进多元包容性等方面的努力和承诺。

以下为正文。

今天,Meta FAIR 公开发布了几个新的研究成果。 我们希望研究界能利用它们去创新、探索并发现在大规模应用人工智能的新方式。 这些研究工作建立在我们开放性、协作、卓越和规模化的核心原则之上。 我们相信,获得先进的人工智能会为每个人创造机会。 这就是为什么我们致力于开放人工智能生态系统的持续发展和发展的原因。

十多年来,Meta 的基础人工智能研究(FAIR)团队一直专注于通过开放研究来推进人工智能领域的最新进展(见另一篇文章:《FAIR 十年:开放研究推进人工智能》)。随着该领域创新步伐不断加快,我们认为与全球人工智能社区的合作比以往任何时候都更加重要。保持开放科学方法并与社区分享我们的工作有助于我们实现为每个人构建高效人工智能系统并让世界更紧密相连的目标。

今天,我们很高兴能与全球社区分享 FAIR 最新的一些研究成果。我们公开发布了六个围绕创新、创造力、效率和责任这些核心主题的研究成果。这些发布包括图像到文本和文本到音乐生成模型、一个多标记预测模型,以及检测人工智能生成语音的技术。通过公开分享我们早期的研究工作,我们希望能启发出更多迭代,并最终以一种负责任的方式推进人工智能的发展。我们迫不及待想看到社区能用这些最新发布内容创造出什么,并继续与开源社区进行重要对话。

Meta Chameleon

正如我们上个月在研究论文(https://arxiv.org/abs/2405.09818)中分享的那样,Meta Chameleon 是一个模型系列,可以将文本和图像作为输入,并以单一统一的架构对文本和图像进行编码和解码。

picture.image

虽然大多数当前的晚期融合模型使用基于扩散的学习,但 Meta Chameleon 使用了文本和图像的标记化。这种方法更加统一,使模型设计、维护和扩展更加容易。可能性是无穷无尽的 - 想象一下为图像生成有创意的说明文字,或使用文本提示和图像混合来创建一个全新的场景。 今天,我们在研究许可下公开发布了我们 Chameleon 7B 和 34B 模型的关键组件。 我们今天发布的模型经过了安全调优,支持混合模态输入和仅文本输出,可用于研究目的。 虽然我们已采取措施以负责任的方式开发这些模型,但我们认识到仍有风险存在。 目前,我们不会发布 Chameleon 图像生成模型。 通过今天分享的现有模型,我们希望能鼓励研究界设计出新的检测和缓解策略,以有助于以负责任的方式扩大生成式建模研究。

获取模型(需要填申请表):https://ai.meta.com/resources/models-and-libraries/chameleon-downloads/?gk\_enable=chameleon\_web\_flow\_is\_live

多标记预测

大多数现代大型语言模型都有一个简单的训练目标:预测下一个词。虽然这种方法简单且可扩展,但效率低下。它要比儿童学习相同程度的语言流利度需要的文本量多出几个数量级。

今年四月份,我们提出了一种构建更好、更快大型语言模型的新方法,即使用多标记预测(https://arxiv.org/abs/2404.19737)。使用这种方法,我们训练语言模型一次预测多个未来词,而不是老式的一次预测一个词。这提高了模型能力和训练效率,同时允许更快的训练速度。为了遵循负责任的开放科学原则,我们正在非商业/仅供研究许可下发布代码补全的预训练模型。我们希望这能让研究界独立调查我们的方法和训练模型的行为。

获取模型(需要填申请表):https://huggingface.co/facebook/multi-token-prediction

Meta 联合音频和符号条件用于时间受控文本到音乐生成

生成式人工智能使人们能够以新的方式探索创造力,例如通过文本提示生成一段音乐。虽然现有的文本到音乐模型(如 MusicGen)主要依赖于文本输入进行音乐生成,但我们新的模型 Meta 联合音频和符号条件用于时间受控文本到音乐生成(JASCO)能够接受各种条件输入,例如特定和弦或节奏,以增强对生成音乐输出的控制。

picture.image

具体而言,我们应用信息瓶颈层和时域模糊来提取与特定控制相关的信息。这允许在同一文本到音乐生成模型中并入符号和音频条件。结果表明,考虑生成质量,JASCO与评估基线相当,同时在生成音乐的控制方面显著改善并提供更多样化。今天,我们发布了研究论文和示例页面。本月晚些时候,我们将作为 AudioCraft 存储库的一部分,在 MIT 许可下发布推理代码,并在 CC-BY-NC 许可下发布预训练模型。我们期待着未来发布代码和模型。

访问 JASCO 官网(https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/)聆听我们工作的音乐样本。

AudioSeal

生成式人工智能工具启发人们与朋友、家人和粉丝在社交媒体上分享自己的创作。与所有人工智能创新一样,我们有责任确保这些工具的负责任使用。今天,我们发布了 AudioSeal,我们认为这是第一个专门用于本地化检测人工智能生成语音的音频数字水印技术,使其能够在较长的音频片段中精确定位人工智能生成的部分。AudioSeal 通过专注于检测人工智能生成内容而不是隐写术,革新了经典的音频数字水印方法。与依赖复杂解码算法的传统方法不同,AudioSeal 的本地化检测方法允许更快、更高效的检测。这种设计使检测速度比以前的方法快了多达 485 倍,非常适合大规模和实时应用。我们的方法在音频数字水印技术的稳健性和无感知性方面达到了最先进的性能水平。

picture.image

AudioSeal 在商业许可下发布。这只是我们为防止生成式人工智能工具被滥用而发布的负责任研究成果之一。我们在由 SeamlessM4T v2(我们的文本和语音基础翻译模型)和 Audiobox 生成的语音样本中包含类似的数字水印。我们在最近的发布中进一步详细介绍了图像、语音和文本模型的数字水印技术。

访问 Github 获取模型和训练代码:
https://github.com/facebookresearch/audioseal

支持 PRISM 数据集发布的合作

从不同背景的人那里获取反馈对于改进大型语言模型很重要,然而在研究界一直存在关于反馈过程的方法、领域和目标的一些公开疑问。我们与外部合作伙伴合作,围绕这些问题支持了 PRISM 数据集的发布,该数据集记录了来自 75 个国家的 1500 名不同参与者的社会人口统计数据和明确偏好。该数据集将每个人对 8011 次与 21 个不同大型语言模型的实时对话的偏好和细化反馈进行了映射。

Meta 通过关注主观和跨文化视角的对话,在存在人际和跨文化分歧的主题上,为外部合作伙伴编制 PRISM 数据集提供了建议。我们的论文通过三个案例研究(对话多样性、偏好多样性和福利结果)展示了 PRISM 的用途,表明由哪些人类确定对准规范至关重要。虽然我们希望它能成为社区资源,但我们也希望它能激发更广泛的人员参与人工智能开发,并促进更包容的技术设计方法。

从我们的外部合作伙伴那里获取数据集:
https://huggingface.co/datasets/HannahRoseKirk/prism-alignment

阅读技术报告:
https://arxiv.org/abs/2404.16019

衡量和改善文本到图像生成系统中的地理差异

文本到图像模型能够很好地为每个人服务并反映世界的地理和文化多样性是很重要的。改进这些模型需要新工具,使研究人员能够更好地了解现有模型可能存在的不足之处。为实现这一目标,我们详细介绍了最近的研究工作和进展:

我们开发了名为"DIG In"的自动指标来评估文本到图像模型中潜在的地理差异。此外,为了了解来自不同地区的人们在地理代表性方面的看法有何不同,我们开展了一项大规模的注释研究。我们收集了超过 65,000 个注释和每个示例超过 20 个调查反馈,涉及吸引力、相似性、一致性,并就改进自动和人工评估文本到图像模型提出了建议。

通过这项工作,我们了解到人们在感知地理代表性时利用了图像中的特定组成部分,而不是整体地观察整个图像。作为 Meta FAIR 合作方法的一部分,我们指导了马萨诸塞大学阿默斯特分校的一个研究生小组进行后续评估,将前面介绍的自动指标分解为前景概念和背景表示。

在 DIG In 衡量工作的启发下,我们还探索了提高文本到图像模型输出多样性的方法。在这个方向上,我们引入了上下文化的 Vendi 分数引导,它扩展了我们之前的反馈引导工作,并使用了一种推理时干预,引导最先进的文本到图像潜在扩散模型增加生成样本的表现多样性,同时保持或提高图像质量和提示-生成一致性。

获取 DIG In 代码:
https://github.com/facebookresearch/DIG-In

获取我们的注释:
https://github.com/facebookresearch/DIG-In/blob/main/task2\_geode.csv

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数据库 veDB 核心技术剖析与展望
veDB 是一款分布式数据库,采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理,并对未来进行展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论