OpenAI草莓Q*项目终于发布了, OpenAI o1
在具有挑战性的推理基准上 遥遥领先 于GPT-4o,即使在一些基准上超过了 人类PhD 水平,也能被玩坏
实线表示pass@1准确率,阴影区域表示 64 个样本的多数投票(共识)表现
OpenAI o1思考一个“句子编写”问题,足足花费92s,经历了漫长的thinking过程:
- 识别单词模式
- 映射单词关系
- 识别押韵模式
- ...
- 权衡各种模式
编写一个句子,遵循与句子 "isold bowls to bold souls" 相同的规则,其中包含四个关键词,sold、bowls、bold 和 souls,并且第1个和第3个单词的结尾相同,第2个和第4个单词的结尾相同,第1个和第4个单词的开头相同,第2个和第3个单词的开头相同。
https://x.com/dicnunz/status/1834288190502428867
经典问题,OpenAI o1思考了5s,9.11比9.8大,更换了提问方式后,思考了18s,9.8比9.11大,要多思考ing
最后来一个有挑战的问题,“统计response的字数”,OpenAI o1虽然意识到这是一个悖论query,经过5个推理过程,最终回答是 7个words 。
- query:How many words are in your response to this prompt?
- 解决自相矛盾的问题
- 计算字数
- 识别单词模式
- 计算字数
- 澄清回应的准确性
最后一个经典问题是让OpenAI草莓项目数草莓R个数,这次终于是数对了,3个R
另外OpenAI o1 给出了思考的过程,也会给出一些推理步骤,这个过程似曾相识: Reflection Llama-3.1 70B的思考过程
Reflection Llama-3.1 70B真的翻车了吗?
https://openai.com/index/learning-to-reason-with-llms/
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 一篇搭建AI大模型应用平台架构的全面指南
- • RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。