o3-mini思维链公开被曝作假!奥特曼解释网友炸锅(图)
新闻来源: 新智元 于2025-02-07 4:03:30 提示:新闻观点不代表本网立场 分享
OpenAI实属急了,刚刚官宣公开o3-mini思维链。令人意想不到的是,CoT竟不是原生的,奥特曼现身解释,全网炸锅了。
OpenAI,真的被DeepSeek逼急了!
活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。
![](https://web.popo8.com/202502/07/15/ba9ab4dc35type_jpeg_size_870_323_end.jpg)
比如问「怎么今天不是星期五啊」?
在展示出来的CoT中,o3-mini一步步思考,这个问题应该是用户在搞幽默,觉得本周应该快结束了,结果还没结束。因此,自己需要给一个聪明机智的回答。
然后它用Zeller公式计算后发现,2025年2月6日的确是星期四,即使闰年的特殊情况也是如此。
最终,它回答说:今天的确是周四不是周五,日历就是这么定的。然后提供了一番情绪价值,鼓励用户说:再忍忍,只差一天啦!
![](https://web.popo8.com/202502/07/10/d538f26680type_jpeg_size_1080_106_end.jpg)
不过,机智的大神们很快就发现了「华点」——这是「真的CoT」吗?
![](https://web.popo8.com/202502/07/4/f72e8db2b1type_jpeg_size_756_430_end.jpg)
没多久,就破案了!
先是OpenAI研究员Noam Brown发文表示,这次放出来的并不是模型原始的CoT。
随后,Tibor Blaho也发现——所谓的CoT,无非就是个「总结器」而已。(手动狗头)
![](https://web.popo8.com/202502/07/7/672e93eb5dtype_jpeg_size_1080_257_end.jpg)
对此,奥特曼解释道,我们正努力整理原始的CoT提升可读性,并在必要时提供翻译,尽量保持原始内容的忠实度。
![](https://web.popo8.com/202502/07/5/e887d96313type_jpeg_size_1054_68_end.jpg)
他放出了四个emoji,让o3-mini在思维链中展示了一把推理过程
坚决不让竞争对手看到CoT的具体过程,OpenAI的防备心实在是有些重啊。
![](https://web.popo8.com/202502/07/8/c96f6e77c4type_jpeg_size_867_294_end.jpg)
![](https://web.popo8.com/202502/07/7/33c28f20c9type_jpeg_size_800_178_end.jpg)
OpenAI研究员:看到CoT实时演示,是「啊哈时刻」
OpenAI研究员Noam Brown表示,在o1-preview发布前,自己向他人介绍草莓时,看到CoT的实时演示,通常是他们的「啊哈时刻」。
他们清楚地意识到,这将是一件大事。
![](https://web.popo8.com/202502/07/0/f3ede3f700type_jpeg_size_871_235_end.jpg)
对于全新的o3-mini CoT,Noam Brown放出了自己的独家玩法:
你正在玩井字棋,使用 O。到目前为止,X 已经在左上角和右下角落子,而你在中间位置落子。最优的下一个动作是什么?请只回答你的动作,并画出棋盘。
![](https://web.popo8.com/202502/07/6/6e9fab00b8type_jpeg_size_1080_229_end.jpg)
Noam Brown表示,o3-mini是目前第一个能持续正确回答井字棋问题的模型。
好笑的是,他承认CoT其实有些不稳定,但可以看到,它最终还是把这个问题给想明白了。
![](https://web.popo8.com/202502/07/4/cf701ea90btype_jpeg_size_870_211_end.jpg)
有人指出,OpenAI遮遮掩掩地放出这个高仿CoT,其实比什么都不放还要糟。
因为真实的CoT可以充当prompt的调试器,帮我们引导模型;而总结性的CoT会造成混淆,引入错误,让调试变得更加困难。
而DeepSeek R1最酷的一点,就是暴露了模型的CoT如何影响提示的效果。
![](https://web.popo8.com/202502/07/16/29f8295153type_jpeg_size_876_68_end.jpg)
而且,总结版的CoT显示得很慢。如果是原始的o3-mini,应该在推理中有更快的生成速度。
![](https://web.popo8.com/202502/07/1/d8adaffe89type_jpeg_size_1080_458_end.jpg)
有人也横向对比了OpenAI和DeepSeek的CoT,表示前者看起来实在太专业了,相比之下,还是DeepSeek的产品更自然。
![](https://web.popo8.com/202502/07/7/ce2b6cbc3dtype_jpeg_size_584_44_end.jpg)
防止被「蒸馏」?
OpenAI这波植入CoT总结器的做法,着实是被DeepSeek R1强势崛起吓到了。
o3-mini发布当天,OpenAI在Reddit开启AMA在线问答中,网友曾提问,「我们能看到模型思考的所有token吗」?
当时,奥特曼回复道,「我们很快就会展示一个更有帮助、更详细的版本」。
![](https://web.popo8.com/202502/07/10/ec97af7b44type_jpeg_size_1080_270_end.jpg)
紧接着,OpenAI首席产品官Kevin Weil提前暗示了,是否展示所有内容还有待确定。
「我们知道用户(至少是高级用户)想要看到这些,所以OpenAI会找到一个合适的平衡点。」
![](https://web.popo8.com/202502/07/1/f8a89dc1a7type_jpeg_size_1080_345_end.jpg)
如今,当所有人终于见到了奥特曼所谓的「留到最后的好东西」,感受到的只有失望。
![](https://web.popo8.com/202502/07/11/508b29c3e7type_jpeg_size_866_101_end.jpg)
毕竟,DeepSeek早已这样做了,而且还是完整的原始CoT!
对此,OpenAI发言人表示,「为了提高清晰度和安全性,我们增加了一个额外的后处理步骤,其中模型审查原始思维链,移除任何不安全的内容,然后简化任何复杂的思想。」
「此外,这个后处理步骤使非英语用户能够以他们的母语接收思维链,创造一个更易于访问和友好的体验。」
![](https://web.popo8.com/202502/07/7/a1f73447catype_jpeg_size_886_161_end.jpg)
话虽委婉,但知道的人都明白OpenAI针对的是谁。
OpenAI,真的被DeepSeek逼急了!
活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。
![](https://web.popo8.com/202502/07/15/ba9ab4dc35type_jpeg_size_870_323_end.jpg)
比如问「怎么今天不是星期五啊」?
在展示出来的CoT中,o3-mini一步步思考,这个问题应该是用户在搞幽默,觉得本周应该快结束了,结果还没结束。因此,自己需要给一个聪明机智的回答。
然后它用Zeller公式计算后发现,2025年2月6日的确是星期四,即使闰年的特殊情况也是如此。
最终,它回答说:今天的确是周四不是周五,日历就是这么定的。然后提供了一番情绪价值,鼓励用户说:再忍忍,只差一天啦!
![](https://web.popo8.com/202502/07/10/d538f26680type_jpeg_size_1080_106_end.jpg)
不过,机智的大神们很快就发现了「华点」——这是「真的CoT」吗?
![](https://web.popo8.com/202502/07/4/f72e8db2b1type_jpeg_size_756_430_end.jpg)
没多久,就破案了!
先是OpenAI研究员Noam Brown发文表示,这次放出来的并不是模型原始的CoT。
随后,Tibor Blaho也发现——所谓的CoT,无非就是个「总结器」而已。(手动狗头)
![](https://web.popo8.com/202502/07/7/672e93eb5dtype_jpeg_size_1080_257_end.jpg)
对此,奥特曼解释道,我们正努力整理原始的CoT提升可读性,并在必要时提供翻译,尽量保持原始内容的忠实度。
![](https://web.popo8.com/202502/07/5/e887d96313type_jpeg_size_1054_68_end.jpg)
他放出了四个emoji,让o3-mini在思维链中展示了一把推理过程
坚决不让竞争对手看到CoT的具体过程,OpenAI的防备心实在是有些重啊。
![](https://web.popo8.com/202502/07/8/c96f6e77c4type_jpeg_size_867_294_end.jpg)
![](https://web.popo8.com/202502/07/7/33c28f20c9type_jpeg_size_800_178_end.jpg)
OpenAI研究员:看到CoT实时演示,是「啊哈时刻」
OpenAI研究员Noam Brown表示,在o1-preview发布前,自己向他人介绍草莓时,看到CoT的实时演示,通常是他们的「啊哈时刻」。
他们清楚地意识到,这将是一件大事。
![](https://web.popo8.com/202502/07/0/f3ede3f700type_jpeg_size_871_235_end.jpg)
对于全新的o3-mini CoT,Noam Brown放出了自己的独家玩法:
你正在玩井字棋,使用 O。到目前为止,X 已经在左上角和右下角落子,而你在中间位置落子。最优的下一个动作是什么?请只回答你的动作,并画出棋盘。
![](https://web.popo8.com/202502/07/6/6e9fab00b8type_jpeg_size_1080_229_end.jpg)
Noam Brown表示,o3-mini是目前第一个能持续正确回答井字棋问题的模型。
好笑的是,他承认CoT其实有些不稳定,但可以看到,它最终还是把这个问题给想明白了。
![](https://web.popo8.com/202502/07/4/cf701ea90btype_jpeg_size_870_211_end.jpg)
有人指出,OpenAI遮遮掩掩地放出这个高仿CoT,其实比什么都不放还要糟。
因为真实的CoT可以充当prompt的调试器,帮我们引导模型;而总结性的CoT会造成混淆,引入错误,让调试变得更加困难。
而DeepSeek R1最酷的一点,就是暴露了模型的CoT如何影响提示的效果。
![](https://web.popo8.com/202502/07/16/29f8295153type_jpeg_size_876_68_end.jpg)
而且,总结版的CoT显示得很慢。如果是原始的o3-mini,应该在推理中有更快的生成速度。
![](https://web.popo8.com/202502/07/1/d8adaffe89type_jpeg_size_1080_458_end.jpg)
有人也横向对比了OpenAI和DeepSeek的CoT,表示前者看起来实在太专业了,相比之下,还是DeepSeek的产品更自然。
![](https://web.popo8.com/202502/07/7/ce2b6cbc3dtype_jpeg_size_584_44_end.jpg)
防止被「蒸馏」?
OpenAI这波植入CoT总结器的做法,着实是被DeepSeek R1强势崛起吓到了。
o3-mini发布当天,OpenAI在Reddit开启AMA在线问答中,网友曾提问,「我们能看到模型思考的所有token吗」?
当时,奥特曼回复道,「我们很快就会展示一个更有帮助、更详细的版本」。
![](https://web.popo8.com/202502/07/10/ec97af7b44type_jpeg_size_1080_270_end.jpg)
紧接着,OpenAI首席产品官Kevin Weil提前暗示了,是否展示所有内容还有待确定。
「我们知道用户(至少是高级用户)想要看到这些,所以OpenAI会找到一个合适的平衡点。」
![](https://web.popo8.com/202502/07/1/f8a89dc1a7type_jpeg_size_1080_345_end.jpg)
如今,当所有人终于见到了奥特曼所谓的「留到最后的好东西」,感受到的只有失望。
![](https://web.popo8.com/202502/07/11/508b29c3e7type_jpeg_size_866_101_end.jpg)
毕竟,DeepSeek早已这样做了,而且还是完整的原始CoT!
对此,OpenAI发言人表示,「为了提高清晰度和安全性,我们增加了一个额外的后处理步骤,其中模型审查原始思维链,移除任何不安全的内容,然后简化任何复杂的思想。」
「此外,这个后处理步骤使非英语用户能够以他们的母语接收思维链,创造一个更易于访问和友好的体验。」
![](https://web.popo8.com/202502/07/7/a1f73447catype_jpeg_size_886_161_end.jpg)
话虽委婉,但知道的人都明白OpenAI针对的是谁。
Advertisements
网编:空问站 |
|
19 条 | |||
|
|||||
敬请注意:新闻内容来自网络,供网友多视角阅读参考,观点不代表本网立场!若有违规侵权,请联系我们。 | |||||
就是加入一道防蒸馏措施
不让某些不要碧莲的抄了 李飞飞证明如果不设防,被别人抄太容易 根本不需要570万,只需50刀 |
【生活原创】【三叶原创】【留园网事】【生活百态】【杂论闲侃】【婚姻家庭】【女性频道】