OpenAI o1很强,也能被玩坏!

大模型关系型数据库云安全

OpenAI草莓Q*项目终于发布了, OpenAI o1

在具有挑战性的推理基准上 遥遥领先 于GPT-4o,即使在一些基准上超过了 人类PhD 水平,也能被玩坏

实线表示pass@1准确率,阴影区域表示 64 个样本的多数投票(共识)表现

picture.image

OpenAI o1思考一个“句子编写”问题,足足花费92spicture.image,经历了漫长的thinking过程:

  1. 识别单词模式
  2. 映射单词关系
  3. 识别押韵模式
  4. ...
  5. 权衡各种模式

编写一个句子,遵循与句子 "isold bowls to bold souls" 相同的规则,其中包含四个关键词,sold、bowls、bold 和 souls,并且第1个和第3个单词的结尾相同,第2个和第4个单词的结尾相同,第1个和第4个单词的开头相同,第2个和第3个单词的开头相同。

https://x.com/dicnunz/status/1834288190502428867

经典问题,OpenAI o1思考了5s,9.11比9.8大,更换了提问方式后,思考了18s,9.8比9.11大,要多思考ingpicture.image

picture.image

最后来一个有挑战的问题,“统计response的字数”,OpenAI o1虽然意识到这是一个悖论query,经过5个推理过程,最终回答是 7个words

  1. query:How many words are in your response to this prompt?
  2. 解决自相矛盾的问题
  3. 计算字数
  4. 识别单词模式
  5. 计算字数
  6. 澄清回应的准确性

picture.image

最后一个经典问题是让OpenAI草莓项目数草莓R个数,这次终于是数对了,3个R

picture.image

另外OpenAI o1 给出了思考的过程,也会给出一些推理步骤,这个过程似曾相识: Reflection Llama-3.1 70B的思考过程

Reflection Llama-3.1 70B真的翻车了吗?

picture.image


        
            

          https://openai.com/index/learning-to-reason-with-llms/
        
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论