微软亚洲研究院

大模型智商在线，为何“情”商掉线?

Publié May 28, 2026

Partagez cette page

如今的大语言模型早已在数学领域展现出令人惊叹的实力，在 AIME 美国数学邀请赛、IMO 国际数学奥林匹克竞赛等高难度抽象数学竞赛中，多款主流模型都能交出近乎满分的答卷。这一表现也成为大模型推理能力持续突破的亮眼标签。

但是，这些在抽象数学题中所向披靡的“学霸”，面对藏在现实场景中的数学问题时却频频失手，抽象解题能力始终无法转化为可靠的现实应用能力，形成了巨大的性能落差。比如模型能精准解出抽象的数字三元组计算问题，可当这些数字对应成无人机飞行步数、智能能源系统的组件参数，仅为数学逻辑披上一层现实叙事的“马甲”后，其解题准确率便大幅下降。

针对这一问题，微软亚洲研究院联合香港中文大学等多所高校展开系统性探索，推出了 ContextMATH 情境化数学推理基准测试集，通过对 61 款主流大模型的全面测试，揭示了大模型在抽象与情境化数学推理之间的能力差距，为大模型的实际应用优化提供了关键科学依据。相关论文已被ICLR 2026接收。

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

论文链接：https://openreview.net/forum?id=KBknLdXxTa (opens in new tab)

大模型解不了场景化数学题的原因：读不懂题

为了精准找到大模型解不了场景数学题的核心症结，研究员们设计了ContextMATH 基准测试集，将 AIME 和 MATH-500 的抽象数学题目转化为两种贴合实际应用场景的题目，以探究模型在情境化场景挑战下的数学问题提炼和推理能力。

第一种是情境化重构（SG）。其主要思路是保持原题的数学难度和逻辑结构不变，但将所有抽象的数学元素，如变量、方程嵌入到一个真实可信的叙事场景中。例如，原本的方程 x+y=10 被改写为“油罐A中的原油量与油桶B中的原油量之和为10”。这种改写不增加任何新的数学推理步骤，仅仅是改变了问题的表述形式。其目的是测试模型是否能在无关的上下文细节干扰下，准确识别出背后的数学骨架。

第二种是复杂度扩展（CS）场景。这类题目会将原本直接给出的显性数学条件，隐藏为需要先推导的子问题，模拟现实中人们解决问题时需要先搜集信息、推导条件再解题的真实场景。例如，问题不会直接告诉模型“有25盏灯”，而是描述为“指示灯的唯一两两组合数恰好为 300”。模型必须先解决这个隐含的计数子问题，才能得到关键的“25”这个数字。这种设计迫使模型进行分层推理，更贴近工程师或分析师在现实中必须经历的信息提炼过程。

graphical user interface, text, application — 图1：ContextMATH示例，基于AIME 2025第15题。在情境化重构中，数学成分被映射到一个叙述中。在复杂度扩展场景中，显式条件被隐藏在子问题中，需要额外的推理步骤。一致的颜色编码突出了三个版本中数学组件之间的对应关系。大语言模型在抽象基准测试中表现依然强劲，但在情境化重构中的准确率有所下降，而在复杂度扩展场景中，这一差距进一步扩大。

基于 ContextMATH 测试集，研究员们对61款具有代表性的开源及闭源大模型进行了评估，涵盖了从数十亿参数到万亿级参数的不同规模。结果显示，所有模型在情境化任务上的表现都出现了显著下滑。平均而言，开源模型在情境化重构任务上的准确率下降了13%，而在复杂性扩展任务上更是下降了34%。即便参数量达 1.8 万亿的 GPT-5，在 2025 年 AIME 的复杂性缩放题中，准确率也下滑了 26%。

table — 表1：模型在ContextMATH上的准确率。每列中最佳和次佳结果分别以粗体和下划线标出。括号中的数值表示相对于Ori的相对性能变化，降幅越大，红色颜色越深。为验证发现具有一致性，而非特定场景下的伪现象，研究员们额外生成了两个AIME 2024 SG数据集并进行了标注，并在SG Avg@3列中报告了这三个数据集的平均准确率。

通过对所有失败案例的深度拆解分析，研究员们发现模型出现错误的原因有四种：提炼错误（从叙事到数学的映射错误）、计算错误、逻辑错误和其他错误（如截断、重复）。其中约80%的解题错误都源于“问题提炼出错”，也就是大模型无法从复杂的场景描述中，准确提取出背后的核心数学逻辑。比如将“齿轮的旋转周期可调节，但每分钟旋转次数不得超过 6 次”，对应不等式 x≥10（x 为每次旋转的秒数），从解题的第一步就偏离了正确方向。

chart, bar chart — 图2：在AIME 2024/2025 数学竞赛题中，各类错误在失分案例中的分布情况，其中比率表示出现每种错误类型的案例所占的比例。

这场测试揭示了一个事实，即当前大语言模型在抽象数学推理与情境化数学推理之间，存在显著且难以消除的能力差距，抽象解题的高水准并不能转化为情境化解题的可靠性。

场景数学能力不能“分而治之”，要“融会贯通”

面对场景化的数学问题，大模型究竟是数学计算能力不足，还是对题目的理解能力存在短板？研究员们通过对模型错误类型的系统性拆解，给出了明确的答案：大模型并非不会计算，而是读不懂题。

针对这一问题，研究员们进一步指出当前大语言模型在解决情境化数学问题时，面临着两大能力瓶颈：

第一是公式化能力，也就是从场景化的叙述中，准确抽象出方程、变量、约束条件等核心数学要素的能力，这是解决情境化数学问题的前提；
第二是推理能力，也就是对已经成功抽象出的数学问题，进行正确求解的能力，这是完成解题的关键。

为了突破这两大能力瓶颈并寻找可行的解决方案，研究员们尝试了两种截然不同的训练策略。

第一种策略是“端到端的混合训练”。研究员们构建了一个包含抽象数学题与合成场景题的混合数据集，并对不同规模的基础模型进行了微调。结果显示：使用混合数据进行训练的模型，其在情境化问题上的表现获得了显著提升，同时其原有的抽象数学解题能力并未受损。这意味着模型确实可以通过接触大量情境化案例，来学习如何更好地完成从叙事到数学的转换。

然而，第二种策略的结果却发人深省。研究员们尝试训练了一个专门的公式化模型，其唯一任务就是将场景描述转化为对应的抽象数学问题，然后再交由一个独立的、能力很强的“求解器”模型去解答。令人意外的是，这种将任务拆解为“提炼”与“求解”两个孤立步骤的做法完全无效，甚至导致最终的整体性能相比直接求解时大幅下降。

两种训练策略的结果表明：大模型的场景数学推理能力是一种综合能力，无法拆解为孤立的技能进行培养，必须通过融合式训练，让模型同时提升公式化和推理能力。

大模型训练的下一站：从解题到理解世界

研究员们此次针对大模型情境化数学推理能力的研究，虽然以数学领域为核心的探索对象，但其得出的研究结论和创新的研究方法，为整个人工智能领域的发展提供了多维度的重要启示，同时也表明，未来模型能力的提升，不仅依赖于更大的规模和更强的计算能力，还取决于模型对现实世界的理解能力。

首先，对于AI模型的优化与训练，仅让模型在抽象数学题库上死刷题，是无法培养出应对现实复杂问题的能力。未来的模型训练要走“抽象+场景”的融合路线，只有将逻辑推导置于丰富多变的现实语境中，模型才能真正具备解决实际问题的能力。而这对于推动 AI 技术在教育辅导、金融量化、工程设计等依赖精密数学应用的领域真正落地，具有重要的指导意义。

此外，ContextMATH的构建思路具有高度的可迁移性。这种将标准化、高质量的抽象测试题，通过系统化方法转化为贴近现实的情境化任务的做法，可以被复制到代码生成、机器人规划、逻辑推理等多个AI能力评估领域。这为整个AI的研究提供了一种通用的、低成本、高效率的测试范式，用以更真实、更全面地衡量大语言模型在脱离实验环境后的真实智能水平。

Domaines de recherche

Artificial intelligence

Groupes de recherche

General Artificial Intelligence

En relation

微软亚洲研究院