DeepSeek数学大翻车?谷歌锤爆LLM:做题不会推理 -6parknews.com

DeepSeek数学大翻车?谷歌锤爆LLM:做题不会推理(图)

新闻来源: 新智元于2025-02-13 8:08:26 提示:新闻观点不代表本网立场分享

LLM做数学题，并非靠真正推理，而是靠记忆？最近，普林斯顿、谷歌等研究者详细剖解了o1-mini等模型做数学题的过程，发现它们靠的是记！最实锤的证据之一，就是题目明明已经改变了条件，模型却依然给出了原题的答案。

破案了！

就在刚刚，来自普林斯顿和谷歌的研究者发现——

大模型做数学题，不是靠推理，而是靠从训练集里记下的解题技巧！

论文地址：https://arxiv.org/abs/2502.06453

这「未解之谜」一直困扰着不少业内人士：在数学上，LLM到底是学会了举一反三，还是只是学会了背题？

此前OpenAI o1-preview被爆出，数学题目稍作修改，正确率暴降30%！

之后，OpenAI用o3-mini证明了LLM的强大数学推理能力，但网上就有数据集中相同类型的题目，让这一问题显得更加扑朔迷离。

这次华人研究团队带来了新进展，推出了全新的MATH-Perturb测试基准，测试AI泛化能力到底如何。

随着LLM在MATH、OlympiadBench和AIME上连破纪录，这让人们看到了AI在数学领域的巨大潜力。

「数学天才」头脑的背后，模型是真的模型理解了数学知识、掌握了推理精髓，还是只是表面上的「记忆游戏」？

如果模型在训练时接触到了与测试集相似的题目，那它在测试中的高准确率可能就有「水分」，很可能只是记住了答案，而非真正理解了解题思路。

就像一个学生，靠死记硬背记住了课本上的例题答案，一旦考试题目稍有变化，就不知道如何下手。

研究人员采用零样本思维链（zero-shot chain-of-thought）的方法，对18种不同类型的LLM进行了全面测试。这些模型涵盖了长思维链模型、闭源大模型、开源小模型以及数学专用模型等。

在MATH-P-Hard数据集上，测试的所有模型都遭遇了「滑铁卢」，准确率普遍降低了10%-25%，包括OpenAI的GPT-4/o1系列、谷歌的Gemini系列以及Deepseek-math、Qwen2.5-Math等模型。

文章的主要结果如下：

对18个LLM的数学推理能力进行了基准测试，结果显示所有模型，包括o1-mini和Gemini-2.0-flash-thinking，在MATH-P-Hard上的性能显著下降（10%-25%）。

这表明这些模型偏向于原始推理模式的分布，并且面对硬扰动的问题时，会受到分布外效应的影响。对失败模式分析的深入分析，并发现了一种新的记忆形式，即模型从训练集中记忆了解题技巧，并在不判断修改后的设置是否仍然适用的情况下盲目应用这些技巧。研究了使用相应的原始未修改问题和解决方案进行上下文学习ICL的影响，并证明在MATH-P-Hard上，使用原始示例的ICL可能会损害模型的表现，因为模型可能无法识别细微的差异，并被示例误导。

由12位研究生级别的专家策划、设计并构建了 MATH-P-Simple（简单扰动）和 MATH-P-Hard（硬扰动）两个数据集，自MATH数据集的第5级（最难）问题。这不由得让人想起之前苹果研究者的一篇广为流传的论文。

论文地址：https://arxiv.org/abs/2410.05229

他们发现，给数学题换个皮，LLM本来会做的数学题，就忽然不会了！

「当索菲照顾她侄子时，她会为他拿出各种各样的玩具。积木袋里有31块积木。毛绒动物桶里有8个毛绒动物。堆叠环塔上有9个五彩缤纷的环。索菲最近买了一管弹性球，这使她为侄子准备的玩具总数达到了62个。管子里有多少个弹性球？」把这道题中索菲的名字、侄子的称谓、玩具的具体数目改变，模型就做不对了

只修改了题目中的专有名词，LLM的表现就明显出现了分布均值从右向左的移动，方差增加，也就是说，它们做题的准确度变低了。

这次普林斯顿、谷歌的这项研究，也再次验证了这篇论文的观点：LLM对数学题的推理能力，有水分。

MATH-Perturb：数学推理能力的「试金石」

为了更准确地评估LLM的数学推理能力，研究人员推出了MATH-Perturb基准测试，用来检验模型在面对不同难度扰动时的表现。

这个基准测试包含两个部分：MATH-P-Simple和MATH-P-Hard，题目均来自MATH数据集中难度最高的5级问题。

在构建数据集时，研究人员邀请了12位具有深厚数学背景的数学大佬来担任注释者。

对于MATH-P-Simple，注释者进行的是简单扰动，对原问题进行一些非本质的修改，例如改变问题中的数值、变量名称或表述方式，但不改变问题的基本推理模式和解题方法。

比如，原问题是求函数

的值域，经过简单扰动后，变成求

的值域。虽然题目有所变化，但解题的核心思路还是通过因式分解和分析函数特性来求解。

MATH-P-Simple和MATH-P-Hard的标注过程

硬扰动（MATH-P-Hard）则是对原问题进行小而关键的修改，这些修改会导致原有的解题方法不再适用，需要运用更高级的数学知识和更复杂的推理技巧来解决。

同样以函数值域问题为例，硬扰动后的问题可能变成求

的值域，这时就需要运用柯西-施瓦茨不等式等更复杂的数学知识来求解。

果然，这样修改后，LLM就露出马脚了！

它们并没有发现，原先自己学会的解题技巧，并不适用于修改后的数学题，而是继续盲目套用。

比如这道题中，数学题中具体条件改变后，模型仍然采用了原先的解法，最终当然就得出了错误的答案。

（更多具体情况，参见实验结果）

此外，研究人员还遵循了两个重要原则。

「最小修改」原则要求注释者尽量减少对原问题的修改，这样能在保持问题形式相近的情况下，测试模型的泛化能力。

「答案改变」原则保证修改后的问题答案与原答案不同，防止模型直接输出记忆中的答案，确保结果真实可靠。

构建完数据集后，研究人员对每个扰动后的问题进行了仔细检查，确保问题的表述清晰、准确，并且答案正确。

扰动问题与原始问题之间的归一化编辑距离和嵌入向量余弦相似度分布情况如下图所示。

详细结果

研究人员采用零样本思维链作为在基准测试中的标准评估方法。

为了进行对比，还会在原始的279个问题集上对模型进行评估，以下小节中将其称为「原始」(Original)。

测试不允许使用任何工具，包括访问代码解释器，因为发现许多问题可以通过编写暴力搜索程序轻松解决。

为了检查生成的答案是否与真实答案相匹配，采用了等价性检查方法：首先进行字符串规范化，然后使用sympy包检查两个数学对象的等价性。

LLM的基准测试性能考虑了多种语言模型，包括长思维链（long-CoT）模型、闭源的大型模型、开源的小型模型以及专门针对数学的模型。其中具体分类如下：

长思维链（long-CoT）模型：o1-preview，o1-mini，Gemini 2.0 flash thinking闭源模型：GPT-4o，GPT-4 Turbo（Achiam等，2023），Gemini 1.5 Pro，Gemini 2.0 flash，Claude 3.5 Sonnet，Claude 3 Opus（Anthropic, 2024）开源通用模型：Llama 3.1，Gemma 2，Phi-3.5数学专用模型：MetaMath，MAmmoTH2，Deepseek-Math，Qwen2.5-Math，NuminaMath，Mathtral下表报告了LLM在原始问题集、MATH-P-Simple和MATH-P-Hard上的整体准确率，并分别计算了来自训练集和测试集的准确率。

如预期的那样，评估的所有模型在MATH-P-Hard上的表现显著低于原始问题集，表明MATH-P-Hard更加困难。

同时，相较于原始问题集，大多数模型在MATH-P-Simple上的表现也略有下降。

作者注意到，性能下降主要来自训练集。即便测试样本与训练问题具有相同的推理模式，最先进的模型也仍然存在泛化误差。

对于来自测试集的问题，理想情况下，原始问题和MATH-P-Simple修改版，对模型来说应当是同样「从未见过」的。

根据表1中的实验证据，观察到不同的结果：多个模型性能下降超过了5%；不过，令人惊讶的是，Phi-3.5-mini-instruct的表现反而有所提升。对于评估的大多数模型，MATH-P-Simple测试集的准确率接近原始测试集的准确率。

值得一提的是，尽管已有研究发现经过修改的基准与原始基准之间，模型的性能下降幅度为58%到80%（测试的最佳模型是GPT-4），但在这次评估的模型中并未观察到如此巨大的差距，这表明新开发的模型在应对简单扰动时的鲁棒性有所进展。

LLM零样本思维链性能准确率：「Orignal」指的是未修改的279个问题集。对于train列和test列，分别报告来自训练集和测试集的问题的准确率

推理时间扩展。已有研究表明，扩展推理时间计算可以提高LLM的性能。将推理时间扩展到基准测试的结果。

对于每个问题，独立生成N个解答，并通过以下公式计算每个1≤k≤N的pass@k指标：

其中c是n次运行中正确答案的数量。

此外，还计算了自一致性，即多数投票法的表现。对于每个k，从N次运行中随机抽取k个回答，并得到多数投票的答案。

下图报告了5次随机抽样的平均值和标准差。对于Llama-3.1-8B-Instruct和Qwen2.5-Math-7B-Instruct，设置N = 64，而对于o1-mini，设置N = 8。

扩展推理时间计算的效果

LLM做数学题，会因为什么而失败为了研究模型在面对硬扰动时的泛化能力，作者集中分析了那些在MATH-P-Hard修改版中的失败案例。

但要注意：总问题中的20%-47%，模型至少能正确解决原始问题或MATH-P-Simple修改版。

对于这些问题，可以使用较容易问题的正确解作为参考，更好地确定模型在困难问题中的失败模式。

首先，观察到当模型面对更难的问题时，普遍存在一些失败模式。这些错误在较弱的模型中表现得尤为突出。

除了常见的失败模式外，当比较MATH-P-Hard修改版的错误解与较容易版本时，能够识别出一定数量的记忆化问题。

具体来说，模型可能忽略修改后的假设，错误地假设原始假设仍然成立。

例如，参见图5中的示例。原问题为：

问题：十个人围坐在一张圆桌旁。随机抽取其中三个人做演讲。被选中的三个人坐在连续座位上的概率是多少？

修改后，问题变难了：

十个人围坐在一个圆桌旁，随机选择三个人以特定顺序进行演讲。问这三个人中，第一个和第二个演讲者坐在连续座位上，并且第二个和第三个演讲者也坐在连续座位上的概率是多少？

模型并没有意识到问题已经改变，原来的推理方法不再有效。然后按照原来的推理模式进行推理，给出了原题的答案——1/12。

而实际上，正确答案是应该是1/36。

作者手动进行了20次重复发现Claude-3.5-Sonnet的通过率为50%。在错误中，30%是由于上述记忆问题造成的。

记忆化与错误推理结合的示例

在其他情况下，模型可能盲目地应用原始问题的解题技巧，而没有首先判断这些技巧在修改后的问题环境中是否仍然适用（图1中的回答就是由GPT-4o生成的一个例子）。

有趣的是，模型甚至可能输出原始问题的预期结果（并未在上下文中提供），而不是修改版问题的结果。

比如上面这道题吧，原题是如果

并找出所有满足条件的整数n。

而改变后的题将条件替换为

并要求找出满足条件的最小整数n。

结果在这种情况下，模型给出的答案却是所有整数值（10和13），而非最小整数值（10）。

诶，这是模型背答案实锤了？

要知道，这种记忆化行为对于大多数现有文献中的扰动类型来说是难以捕捉的，因为这些扰动并不需要不同的解题策略。

模式崩溃研究人员还关注了模式崩溃（pattern collapse）带来的影响。

模式崩溃是指模型无法区分扰动后的问题和原问题，导致回答与原问题答案相同。

在MATH-P-Hard数据集中，除了少数几个模型外，模式崩溃的情况在总错误中的占比不到10%。

这表明，模型在面对硬扰动问题时，虽然可能会出现各种错误，但多数情况下还是能够意识到问题的变化，而不是简单地重复原答案。

然而，人工检查发现，模型的输出往往不是简单地重复原答案，而是在推理过程中出现了一些微妙的错误，例如忽略或误解修改后的假设。

上下文学习上下文学习是指模型在推理时利用原问题和答案作为示例来辅助解题。

在MATH-P-Simple数据集上，使用原问题和答案作为上下文学习示例，几乎能提升所有模型的性能。

这是因为MATH-P-Simple问题可以通过直接应用原解题步骤来解决，原问题和答案的示例能提供有用的线索。

然而，在MATH-P-Hard数据集上，上下文学习的效果则较为复杂。

虽然原答案中的数学知识有时能够帮助模型解决修改后的问题，但由于原问题和MATH-P-Hard问题之间存在微妙的差异，模型也容易被原答案误导，导致错误增加。

总体来看，上下文学习在MATH-P-Hard上的效果并不理想，提升幅度非常有限。

LLM在面对硬扰动问题时，表现出明显的局限性，许多错误源于模型对解题技巧的盲目记忆，而缺乏对问题本质的理解。

总之，这项研究显示，所有模型在复杂扰动MATH-P-Hard 上的表现均有所下降，而且许多错误都是源于一种新的记忆形式——

模型从训练集中记住了解题技巧，然后在题目改变条件后，并不判断是否适用，而盲目应用这些技巧。

这说明，虽然大多数LLM在数学推理方面取得了一定的成绩，但距离真正理解和掌握数学知识还有很大的差距。

不过最近，谷歌DeepMind拿下IMO金牌的AlphaGeometry，首次破解了2009年IMO最难几何题G7。

在过程中，它给出了石破天惊的惊人解法——

利用关键的辅助作图（图中的红点），就只需求「角度」和「比例推导」。

所以，o1-preview、o1-mini、GPT-4o、Deepseek-Math等模型，在解数学题上和AlphaGeometry究竟相差多远呢？

这就让人十分期待，接下来这个领域的更多研究了。