AI进展,周粒度汇总一些重要的事件,包括Qwen2数学模型、GPT结构化输出、DALLE3免费开放等

技术

工作时间原因,很多人不能像我一样每天及时关注 AI 的进展,所以周粒度汇总一些重要的事件。

本周包括阿里巴巴发布的Qwen2-Math数学模型、OpenAI的GPT-4o模型及其结构化输出功能、DALL-E 3图像生成模型的免费开放、智谱AI的CogVideoX视频生成模型开源、Kimi平台上下文缓存存储费用的降低、阿里巴巴的Tora视频生成模型、商汤科技的秒画趣拍小程序以及腾讯元宝的深度阅读模式。

关键信息(省流版)

  • Qwen2-Math数学模型 : 阿里巴巴推出的数学专用大模型,提供15亿、70亿和720亿参数版本,专注于解决高级数学问题,目前仅支持英文。
  • OpenAI GPT-4o模型 : 新模型支持结构化输出,基于JSON Schema生成严格符合规范的输出,同时具备多模态处理和快速实时响应能力。
  • DALL-E 3图像生成 : OpenAI的图像生成模型,现在免费用户每天可生成两张图片,根据文本提示生成高质量图片。
  • CogVideoX视频生成模型 : 智谱AI开源的视频生成模型,采用3D VAE技术和Transformer架构,高效生成高质量视频。
  • Kimi上下文缓存存储费用降低 : Kimi平台降低上下文缓存存储费用,从10元降至5元/1M tokens/min,提升服务经济性。
  • Tora视频生成模型 : 阿里巴巴推出的视频生成框架,基于DiT架构,支持多模态输入和长视频生成。
  • 秒画趣拍小程序 : 商汤科技推出的AIGC产品,提供多种创意写真和自拍合照模板,迅速获得用户欢迎。
  • 腾讯元宝深度阅读模式 : 腾讯元宝推出的功能,支持长文本输入和专业内容精读,提供核心内容概览、模块化解析及高阶分析图生成能力。

以下是详细信息。

如果文章对你有一点点 🤏🏻 帮助,关注公众号并【星标】,可以及时收到最新 AI 信息,点赞、在看、转发给更多的朋友。

Qwen2-Math,新一代数学模型

Qwen2-Math是阿里巴巴最新发布的数学专用大模型,基于Qwen2 LLM构建,旨在解决需要复杂、多步骤逻辑推理的高级数学问题。该模型在多个权威评测集上表现优异,其旗舰版本Qwen2-Math-72B-Instruct超越了包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B在内的最先进模型。

picture.image

目前,Qwen2-Math仅支持英文,但阿里表示很快会推出中英双语版本,并且多语言模型也在开发之中。

该模型共有三个主要版本:15亿参数、70亿参数和720亿参数。这些模型通过在精心设计的数学专用语料库上进行预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由Qwen2模型合成的数学预训练数据

地址https://qwenlm.github.io/zh/blog/qwen2-math/

OpenAI 新模型 支持结构化输出

OpenAI 最近推出的新模型 GPT-4o 及其迷你版本 GPT-4o-mini 支持结构化输出功能。这一功能的引入旨在确保模型生成的输出能够严格遵循开发人员提供的 JSON Schema,从而提高输出的可靠性和一致性。

  • JSON Schema 支持:模型现在可以根据开发人员提供的 JSON Schema 生成输出。这与传统的 JSON 模式不同,结构化输出不仅可以定义 JSON 的 Schema,还能确保输出严格符合该 Schema137。
  • 多模态处理:GPT-4o 支持同时处理文本、音频和图像输入,能够生成多种形式的输出4。
  • 实时响应:GPT-4o 的响应时间非常快,处理音频输入的平均响应时间为 320 毫秒,接近人类对话的速度

简单案例


        
          
{  
  "schema": {  
    "type": "object",  
    "properties": {  
      "name": { "type": "string" },  
      "age": { "type": "integer" },  
      "email": { "type": "string", "format": "email" }  
    },  
    "required": ["name", "age"]  
  },  
  "input": "Generate a user profile"  
}  

      

在这个示例中,模型将生成一个包含 name 和 age 字段的 JSON 对象,并且 email 字段如果存在,必须是一个有效的电子邮件地址。

ChatGPT 免费开放 DALL-E 3

DALL-E 3 是 OpenAI 开发的最新一代 AI 图像生成模型,能够根据用户提供的文本提示生成高质量的图片。

DALL-E 3 于去年9月首次推出,最初仅向 ChatGPT Plus 付费用户开放

OpenAI 最近宣布,ChatGPT 免费用户现在每天可以使用 DALL-E 3 模型生成最多两张图片。

使用方法:用户可以直接在 ChatGPT 的输入框中键入生成图片的相关指令213。

picture.image

智谱开源视频生成模型 CogVideoX

CogVideoX是智谱AI开发的一个大型视频生成模型,具备强大的视频生成能力。该模型采用了先进的3D VAE(变分自编码器)技术和Transformer架构,能够高效地捕捉时间帧之间的关系,从而生成高质量的视频。

智谱AI宣布开源CogVideoX模型,目的是让开发者和企业能够自由开发和应用自己的视频生成模型。此次开源的模型包括多个不同尺寸的版本,目前已开源的是CogVideoX-2B。

picture.image

GitHubhttps://github.com/THUDM/CogVideo

模型https://huggingface.co/THUDM/CogVideoX-2b

Kimi 上下文缓存存储费用降低 50%

Kimi 开放平台宣布降低 50% 的上下文缓存存储费用,为用户提供更经济的服务。上下文缓存是一种高效的数据管理技术,可以提高系统效率并节省时间资源。

picture.image

原价:10 元/1M tokens/min。

新价:5 元/1M tokens/min。

阿里巴巴推出Tora视频生成模型

Tora是一款基于轨迹导向的扩散变换器(DiT)架构的AI视频生成框架,能够实现高保真度和精确运动控制的视频生成。

Tora的主要特点包括:

  • 高保真度和运动控制:Tora通过先进的Diffusion Transformer(DiT)架构,可以生成高质量且符合物理规律的视频内容。
  • 多样化的输入条件:该模型支持文本、图像和轨迹等多模态输入,能够根据这些条件快速生成精确运动控制的视频。
  • 长视频生成能力:Tora能够生成长达60秒的高质量视频,并支持不同分辨率和纵横比。
  • 物理世界模拟:它能够模拟真实世界的运动,为电影特效和虚拟现实领域带来革新。

picture.image

地址https://ali-videoai.github.io/tora\_video/

商汤科技推出秒画趣拍小程序

商汤科技近日推出了基于“日日新·秒画”文生图大模型的AIGC产品——“秒画趣拍”小程序版。该产品旨在帮助用户生成创意写真和自拍合照,提供多种丰富的模板,包括校园毕业照、创意合照、名画风写真、旅拍照片、新国风、二次元等。

picture.image

自上线以来,“秒画趣拍”迅速获得了用户的广泛欢迎,注册量和日活跃用户数持续上升。在试运营第9天,日活跃用户突破了52万人,用户总量超过146万,日页浏览量(PV)达到4117万次,网络请求量更是突破了亿次。

“秒画趣拍”小程序操作便捷友好,用户只需上传一张照片即可轻松生成高质量的创意写真,并进行不同风格的创作,最终可下载保存. 这款产品不仅为用户提供了一种新颖的摄影体验,还展示了商汤科技在AI生成技术领域的强大实力和创新能力.

腾讯元宝上线深度阅读模式

腾讯元宝最近推出了深度阅读模式,这一功能在最新版本的腾讯元宝中得到了全面升级。该模式能够原生支持最长近50万字的输入,专为论文、财报、研报等专业内容设计。

用户可以通过上传论文、财报、研报等专业内容的URL链接或文件,进入深度阅读模式。除了获得文字概括总结外,还可以对长文进行精读,提供核心内容概览及模块化解析,并生成总结性图表,辅助用户快速理解关键信息。此外,针对外文文献,腾讯元宝还能提炼论文中的创新点与不足,便于对论文质量形成判断。

深度阅读模式的一大亮点是其高阶分析图的生成能力。通过代码绘制,可以生成杜邦分析图等专业图表,帮助用户更直观地理解复杂数据和信息。同时,该模式还支持离线回看精读内容及原文,确保用户在任何情况下都能方便地查阅和学习。

picture.image

<-End->

往期推荐

工作时间原因,很多人不能像我一样每天及时关注 AI 的进展,所以周粒度汇总一些重要的事件。

OpenAI 直接挑战谷歌,推出 AI 搜索产品 SearchGPT,除此之外,AI 搜索产品都有哪些?

又发现了一个好用的AI浏览器插件,总结:快、准、狠

kimi 浏览器助手插件,这是首款官方插件!赶紧尝鲜

如何让大模型遵循你的结构化输出指令小技巧

又发现了一个很良心的 prompt 提示词库,简洁,有效,值得学习

RAG框架,都在这了!

总结优秀的prompt案例,学习更有效的prompt提示词工程写法,值得收藏

我是大林,持续关注 AI 发展,和大家一起交流。微信(dalinvip2023),备注【公众号 AIGC】,进 AIGC 交流群一起交流。

主页:https://www.dalinaip.com/

如果文章对你有一点点 🤏🏻 帮助,关注公众号 并【星标】,可以及时收到最新 AI 信息,点赞、在看、帮忙转发给更多的朋友,谢谢。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论