时政·财经·军事 | 生活·家庭·娱乐 | 体坛·历史·科技 | 摄影·旅游·文化 | 移民·教育·就业 | 数码·健康·奇闻 | 社区·评论·问卷
留园网首页 · 新闻速递首页 · 【繁體閱讀】 【网友评论:45 条】 【 热评新闻排行 】 【 热门新闻排行 】 【 即刻热度新闻排行 】 【 72小时神评妙论 】   

o3-mini物理推理粉碎DeepSeek R1 OpenAI王者归来(图)

新闻来源: 新智元 于2025-02-01 23:57:00  提示:新闻观点不代表本网立场

【新智元导读】一场改写AI历史的震撼对决正在上演!就在昨天,当DeepSeek R1还在用「降维打击」重构AI格局时,OpenAI王者回归之作o3-mini已悄然降临,用实力证明——王者,从未离场!

在科技界,一天的时间足以改写历史。

DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。

o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。

甚至,在「物理模拟」高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。



能够清晰地看出,o3-mini具备更强的物理推理能力,DeepSeek表现出明显的「反重力」现象。



prompt:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

在另一个演示中,更加复杂,不仅要考虑小球与墙壁的碰撞,还要考虑不同小球之间的相互碰撞。



prompt:Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls

从单球反弹到多球碰撞,从简单物理到复杂系统,OpenAI的仿佛在诉说着「王者,从未离场」。

教授Derya Unutmaz对o3 mini表现的进步非常激动:

o3-mini只需一次提示就能准确生成符合物理定律的代码!与此同时,DeepSeek-R1对此却显得很吃力。这场AI竞赛正在全速加速,后来居上者,拭目以待。目前,OpenAI明显处于领先地位!」



此外,在「人类最后一场考试」的纯文本测试集上,新模型03-mini(medium/high)在准确率上超越了DeepSeek-R1。

奥特曼甚至自信的表示:「不久,人类就需要另一场考试了……」



然而,这只是OpenAI新模型的冰山一角。

奥特曼剧透o3-mini接下来还有更大的惊喜!



o3-mini还有好东西,很快就会给你,我想我们把最好的留到了最后!

编码吊打o1,最好的编程模型

在代码补全基准Codeforces排名中,相对o1系列模型,o3-mini进步明显。



而独立于LLM提供商的性能基准和定价排行,Artificial Analysis表示:「o3-mini是从o1-mini向前迈出的一大步。」

同时,公布了o3 mini的初步结果,完整的基准测试结果稍后推出:

人工分析质量指数为89,与DeepSeek R1匹配,略低于o1更便宜 - 每百万个token1.1美元/4.4美元的输入/输出定价,低于许多 DeepSeek R1 API(高于DeepSeek的甲方R1 API定价)快速-与o1-mini的速度相似,为170个token/秒,尽管这意味着2000个代币的「思考」时间仍然需要 ~12 秒

其中人工分析质量指数(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。

相关排名如下:





AI初创企业CEO,Bindu Reddy,整体上o3击败了R1,特别是在编码方面,让人大吃一惊。

她认为综合考虑性能、速度和价格,o3-mini high是目前最好的大语言模型(LLM):

在编程上,o3-mini high大幅度领先o1、Sonnet以及其他模型

o3-mini high比Sonnet便宜2倍,比o1便宜15倍

o3-mini high比R1快约5倍

在所有类别中,o3-mini high仅次于01,是第2名最佳模型



具体结果如下:



对此,OpenAI研究员Clive Chan表示:「我每天都在cursor中使用o3-mini,它绝对是最好的编程模型。我基本上完全信任它的Python代码(不再有误解/偷懒的问题),而且即使我当前的项目涉及3种我不熟悉的编程语言,o3-mini也帮了大忙!」



全网实测

那么,o3-mini真实实力究竟如何?

如下来自全网实测的最全演示,即可揭晓谜底。

o3-mini彻底掌握了arXiv

OpenAI研究科学家Sebastien Bubeck表示,o3-mini是一个了不起的模型。

在理解和解析arXiv论文方面,o3-mini达到了全球独一无二的水平,成为真正的科研伙伴!



下面是一个看似简单但会让所有其他模型都感到困惑的问题,而o3-mini却能给出极其有用的答案。

它完全说到了点子上:与自收缩曲线的联系、依赖于维度的界限,甚至还引用了相关论文。



下面这个例子是Sebastien在不同主题的另一个查询。

有趣的是,o3-mini-high给出的参考文献「Bubeck and Ganguly」并不完全正确,但确实非常相关。

总的来说,它给出的参考文献都是「模糊准确的」,可能会混淆作者/期刊/标题,但令人惊讶的是这些引用仍然很有用。



他又表示,这些都是相当冷僻的问题,能够回答这两个问题的论文少于100篇(实际上更接近约10篇)。

能有一个模型可以回答只有O(10)数量级的人类知道答案的问题,这确实令人惊叹。

此外,Sebastien又演示了一个用o3-mini构建「我的世界」的演示。



AI物理新巅峰,轻松击败R1

Hyperbolic联创Yuchen Jin测试后惊叹道,o3-mini可能是目前最强的物理推理LLM!



o3-mini竟然成功生成了四维超立方体(Tesseract)内反弹小球的Python代码,展现出惊人的物理推理和数学建模能力。



Prompt: Write a Python script of a ball bouncing inside a tesseract

再来看R1的表现,显然不如o3-mini。‍



再来看o3-mini-high,demo中竟然翻车不如o3-mini?

Yuchen Jin多次尝试后发现,o3-mini-high在这个任务上表现糟糕,甚至比一次性生成的o3-mini版本还差!

其中一个版本居然只生成了小球,没有四维空间结构……



另一个很好展现o3-mini理解物理世界的demo。



「被o3-mini震撼到了(不仅仅是因为它的编程能力),更因为它那闪电般的速度。

它仅用19秒就一次性生成了这四个演示。我从未见过类似的东西。一个新的AI时代已经到来」。











沃顿商学院教授Ethan Mollick让o3-mini-high首次挑战生成动态海洋风暴Shader,没想到竟然成功了!





18秒,克隆一个应用

另一位OpenAI研究员Aidan Clark表示:「o3-mini在智能和速度的组合方面令人难以置信,我不知道该说什么,你只能自己去试试看了。」



在下面demo中,Clark要求o3-mini用单个Python文件写一个Twitter克隆应用。

整个过程只用了8秒。





一句话,生成游戏

用一句话制作的「贪吃蛇」游戏。





prompt:create a snake game, where snakes compete with each other


另一个动漫小人射击游戏。



还有网友通过o3-mini-high制作的太阳系3D模拟。



网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。





prompt:build me a massive amazing epic a floating city


OpenAI王者重归

OpenAI的策略,已经重新获得了用户的「芳心」。

开发者Mckay Wrigley已经用o3-mini模型代替AI智能体和工作流中的o1模型。一切都正常工作,甚至有一些表现的更好,但是便宜了9倍,速度快了4倍。

他认为:「OpenAI对新模型的宣传明显不足——这绝对令人难以置信。o3& o3 Pro会很疯狂。」





03-mini和o1系列定价比较


根据Information报道,OpenAI2024年快速增长:

2024年,ChatGPT付费订阅用户已达1550万。企业的模型采用率增长了7倍。新推出的200美元/月Pro订阅计划,年收入已达3亿美元。



网友Prakash,则在X上列出了OpenAI的各部分收入:

ChatGPT Plus月经常性收入(MRR):3.33亿美元订阅价格:20美元/月月活用户(MAU):1665万ChatGPT Pro月经常性收入(MRR):2500万美元订阅价格:200美元/月月活用户(MAU):12.5万ChatGPT总收入月经常性收入(MRR):3.58亿美元年经常性收入(ARR):43亿美元API收入每分钟处理Token数量:14亿每年处理Token数量:735万亿每百万Token价格(以o3 mini输入价格计算):1.1美元年经常性收入(ARR):8.09亿美元总收入年经常性收入(ARR):51亿美元

他表示:「有趣的是,API收入远小于ChatGPT订阅收入,真正推动增长的还是消费级应用。」

网友Andrew Gao表示Anthropic正在吃掉OpenAI的市场份额。



OpenAI在企业客户中的份额从2023年的50%下降到了2024年的34%,具体如下:



OpenAI早已与美国政府合作,确保AI领域的领先地位。

在参加特朗普的就职典礼并宣布「星际之门」后,OpenAI首席执行官奥特曼,连续第二周来到华盛顿特区。

就在近日,在国会山附近的一次非正式演示中,奥特曼向美国政府领导人、政策专家和记者展示了即将推出的技术。

目的不仅是展示美国如何最大化人工智能带来的经济利益,还希望让华盛顿的领导者提前了解即将到来的技术能力,以减少他们在未来措手不及的可能性。

谈到能够自主完成现实世界任务的新型自主智能技术时,奥特曼表示:[我的直觉是……对美国经济贡献,这些技术将占个位数百分比。」

但与政府合作,并不是OpenAI唯一的选择。

外媒报道称,OpenAI为了实现增长,寄希望于更高级模型驱动的ChatGPT的高价订阅

			
网编:睿文

鲜花(43)

鸡蛋(9)
45 条
【手机扫描浏览分享】

扫一扫二维码[Scan QR Code]
进入内容页点击屏幕右上分享按钮


敬请注意:新闻内容来自网络,供网友多视角阅读参考,观点不代表本网立场!若有违规侵权,请联系我们。
热门评论当前热评  更多评论...
评论人:闲人老修[♂☆品衔R4☆♂][个人频道][个人动态] 2025年02月02日2:06 回复
o3-mini宣布免费服务,不是应该感谢deep seek吗?你们这些哈美的中国垃圾!
27   1
评论人:Riordan[★★声望品衔9★★][个人频道][个人动态] 2025年02月02日0:47 回复
一句话概括,股市不能崩,ai必须是美国№ 1,哈哈
泡沫需要继续吹,风不能停
21   5
评论人:chenfengjj[☆品衔R3☆][个人频道][个人动态] 2025年02月02日0:46 回复
狗粮比较微软,英伟达,亚马逊的专家都牛!
45   5
评论人:flying72[♂★★★飞翔的自行车★★★♂][个人频道][个人动态] 2025年02月02日0:40 回复
80分对50分属于碾压,99分对95分,价格更重要
60   5
评论人:把酒问明月[☆品衔R4☆][个人频道][个人动态] 2025年02月02日0:39 回复
奥特曼基友,人品太差,这是拿用户当傻子啊 — 在DeepSeek出现前,一直以极贵的费率让人用落后的东西,好东西藏着掖着
120  
评论人:简单人[♂★品衔R6★♂][个人频道][个人动态] 2025年02月02日0:33 回复
傻逼文章。O3處處有抄襲Deepseek 的痕跡
49   6
评论人:开心小黄人[☆★★中国运即我运★★☆][个人频道][个人动态] 2025年02月02日0:32 回复
再牛逼。deepseek免费开源。就跟所有的编程语言一样。免费开源通用性强的python迅速占领市场
63   5
评论人:闲人老修[♂☆品衔R4☆♂][个人频道][个人动态] 2025年02月02日0:31 回复
媚洋崇美。喜形于色。至于如此欢呼雀跃?
35   5
评论人:[☆明正大☆][个人频道][个人动态] 2025年02月02日0:24 回复
如果这场竞争是在相对公平下进行到不失为推动人类进步的动力。可美帝有公平可言吗?
19   5
评论人:樱桃儿熟了[☆★品銜R19★☆][个人频道][个人动态] 2025年02月02日0:22 回复
微软,英伟达,Open AI, AMD, 等等都跪了,舔人还在舔?
一一一一
汉奸伪军火力猛开,一回头,发现太君都投降给八路了,很尴尬。很有过年的喜庆
43   5
评论人:史前巨混[★品衔R5★][个人频道][个人动态] 2025年02月02日0:15 回复
deepseek代码看了这么久,还没有open source的?这都违法且没道德

来自留园官方客户端

89  
评论人:hhhhya[☆品衔R3☆][个人频道][个人动态] 2025年02月02日0:01 回复
这舔的,味道怎么样?
72   5
新闻速递首页 | 近期热门新闻 | 近期热评新闻 | 72小时神评妙论 | 即刻热度新闻排行
科技频道】【宠物情缘
前期相关精彩新闻
新闻速递首页·向留园新闻区投稿·本地新闻·返回前页