GPT4o-mini 发布,便宜了,效果也翻车了~

大模型人工智能与算法MySQL

今天的新闻真的太多了,之前也好几次都是这样,而且恰巧都是在月圆期间(2月15日、4月15日、5月13日和现在的7月17日),具有令人费解的占星规律~。

GPT-4o mini是openai最新推出的一个致力于替代chatgpt 3.5 turbo的一个新型号模型,具有更低的售价,更好的基准评测。picture.image

配置参数如下 ~

  • 定价:每百万token 输入0.15 美元 输出0.60 美元(以 3:1 输入:输出 token 混合价格为基础, Haiku 价格的一半,但具有 Opus 级别基准(包括 BigCodeBench-Hard),以及 3.5% GPT4o 的价格,在 Lmsys 上 达到了# 4)
  • 比 gpt3.5 更好地利用长上下文(有 16k 输出token!(比 4T/4o 多 4 倍))
  • 快一个数量级-(~100tok/s,比Haiku慢一点)
  • 未来将支持文本、图像、视频和音频输入和输出
  • 第一个基于Instruction Hierarchy架构训练的模型,openai今年的论文《The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions》
  • ChatGPT 语音模式 alpha 承诺本月发布
  • Greg Brockman回复表示由于开发人员的普遍需求,所以构建了gpt4o-mini

picture.image

第一时间被越狱[1]:新的“Instruction Hierarchy”防御机制还不够,见证新的 gpt-4o-mini 输出恶意软件、毒品配方、肮脏的受版权保护的歌词,以及如何窃取选举!

picture.image

体验方面,来自@Trisimo崔思莫 的回答[2]

就是一个Haiku Flash级的东西,感觉傻傻的。完全体现不出MMLU 82的性能。我会拿豆包跟它PK一下。我觉得豆包可以打败它。拿常用LLM来说,我的第一感觉是 Deepseek>Qwen 2≈豆包>GPT-4o mini>Kimi ;如果一个模型的智力要跟Kimi去比了,那就没啥好说的了。

在Lmsys上做的简单上手。上手时间不到5分钟。等Poe上出了,我做个全套评测。第一感觉……不大行。四道推理题,只对了一题,有一道是数学题,做了老半天二元一次不等式,最后还是错到西伯利亚。(难度不是很高,GPT-4o可以全对,Deepseek多发也能全对) 附加了一道弱智吧的题,也没回答正确。弱智吧的题都是考验常识和人之常情的。GPT不是弱智吧杀手吗?咋不行了?picture.image

来自@宝玉xp 关于pdf解析的测试[3]

picture.image

外网的一些评价[4](有一点点翻车):

  • 做了一些初步测试,结果比我本地运行的 gemma2:27b-instruct-q6_K 更糟糕,但显然比 GPT-3.5 好得多。
  • 我认为 GPT-4o-mini 的响应是可怕且无用的,对我来说不可用,因为它的输出包含比实际真实陈述更多的谎言和夸大的文本。
  • 图中的响应以每分钟 165 个令牌的速度生成,结果如下:每秒 35 个真实token; 每秒 70 个错误token;每秒 60 个通用且无用的填充token;
  • 根据我的衡量标准,该模型不适用于我的用例,因为有用的信息被虚假信息和填充垃圾淹没了。
  • 对于一般性问题,我根本不信任它,因为它显然强烈偏向于编写尽可能多且听起来不错的短语,与模型中嵌入的实际知识量不同步。

参考资料

[1] 越狱: https://x.com/elder\_plinius/status/1814023961535295918

[2] 回答: https://www.zhihu.com/pin/1797451550148415490

[3] 测试: https://m.weibo.cn/status/5057711589032312

[4] 评价: https://www.reddit.com/r/OpenAI/comments/1e6em5h/openai\_will\_release\_gpt4o\_mini/

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论