GPT4o-mini 发布，便宜了，效果也翻车了~ - 文章 - 开发者社区

今天的新闻真的太多了，之前也好几次都是这样，而且恰巧都是在月圆期间（2月15日、4月15日、5月13日和现在的7月17日），具有令人费解的占星规律~。

GPT-4o mini是openai最新推出的一个致力于替代chatgpt 3.5 turbo的一个新型号模型，具有更低的售价，更好的基准评测。 picture.image

配置参数如下 ~

定价：每百万token 输入0.15 美元输出0.60 美元（以 3:1 输入：输出 token 混合价格为基础， Haiku 价格的一半，但具有 Opus 级别基准（包括 BigCodeBench-Hard），以及 3.5% GPT4o 的价格，在 Lmsys 上达到了# 4）
比 gpt3.5 更好地利用长上下文（有 16k 输出token！（比 4T/4o 多 4 倍））
快一个数量级-（~100tok/s，比Haiku慢一点）
未来将支持文本、图像、视频和音频输入和输出
第一个基于Instruction Hierarchy架构训练的模型，openai今年的论文《The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions》
ChatGPT 语音模式 alpha 承诺本月发布
Greg Brockman回复表示由于开发人员的普遍需求，所以构建了gpt4o-mini

picture.image

第一时间被越狱[1]：新的“Instruction Hierarchy”防御机制还不够，见证新的 gpt-4o-mini 输出恶意软件、毒品配方、肮脏的受版权保护的歌词，以及如何窃取选举！

picture.image

体验方面，来自@Trisimo崔思莫的回答[2]

就是一个Haiku Flash级的东西，感觉傻傻的。完全体现不出MMLU 82的性能。我会拿豆包跟它PK一下。我觉得豆包可以打败它。拿常用LLM来说，我的第一感觉是 Deepseek＞Qwen 2≈豆包＞GPT-4o mini＞Kimi ；如果一个模型的智力要跟Kimi去比了，那就没啥好说的了。

在Lmsys上做的简单上手。上手时间不到5分钟。等Poe上出了，我做个全套评测。第一感觉……不大行。四道推理题，只对了一题，有一道是数学题，做了老半天二元一次不等式，最后还是错到西伯利亚。(难度不是很高，GPT-4o可以全对，Deepseek多发也能全对) 附加了一道弱智吧的题，也没回答正确。弱智吧的题都是考验常识和人之常情的。GPT不是弱智吧杀手吗？咋不行了？

来自@宝玉xp 关于pdf解析的测试[3]

picture.image

外网的一些评价[4]（有一点点翻车）：

做了一些初步测试，结果比我本地运行的 gemma2:27b-instruct-q6_K 更糟糕，但显然比 GPT-3.5 好得多。
我认为 GPT-4o-mini 的响应是可怕且无用的，对我来说不可用，因为它的输出包含比实际真实陈述更多的谎言和夸大的文本。
图中的响应以每分钟 165 个令牌的速度生成，结果如下：每秒 35 个真实token; 每秒 70 个错误token；每秒 60 个通用且无用的填充token；
根据我的衡量标准，该模型不适用于我的用例，因为有用的信息被虚假信息和填充垃圾淹没了。
对于一般性问题，我根本不信任它，因为它显然强烈偏向于编写尽可能多且听起来不错的短语，与模型中嵌入的实际知识量不同步。

参考资料

[1] 越狱: https://x.com/elder\_plinius/status/1814023961535295918

[2] 回答: https://www.zhihu.com/pin/1797451550148415490

[3] 测试: https://m.weibo.cn/status/5057711589032312

[4] 评价: https://www.reddit.com/r/OpenAI/comments/1e6em5h/openai\_will\_release\_gpt4o\_mini/

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！