微软亚洲研究院

AI 能考过计算机等级考试吗？

已发布 2026年7月1日

分享这个页面

如果让今天最强的大模型去参加一场国家计算机等级考试（NCRE），它能拿多少分？

近期，微软亚洲研究院的研究员们把 NCRE 一、二级的 200 道 Word、Excel、PPT 实操题搬到 AI 面前，让 7 个前沿大模型作答，并用官方评分引擎逐条打分。然而，测试结果却与我们的直觉大相径庭：在普通考生普遍能拿满分的考试中，最强单轮模型只考了 36.6 分；即便是配上了能反复执行调试的“编程智能体”，最高也只有 68.8 分。作为对比，社区贡献的标准解答平均能拿到 95.5 分。

这一戏剧性的翻车现场，并非大模型们的偶尔失手，而是一场硬核学术测试带来的真实一幕。这项研究来自微软亚洲研究院的最新成果《Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?》。研究员们希望借此探寻，AI 浪潮背后，大模型距离真正精通日常办公究竟还有多远？

论文信息已整理于文末，欢迎点击相关链接，了解更多技术详情。

用 NCRE 国家级考试来“卷”AI

作为知识工作者的基础工具，Microsoft Office 的全球用户已超十亿。在日常办公中，一份合格的文档往往需要数十步精确的操作：页边距调整、样式设置、图表生成、动画效果、水印添加……任何一步出错，都可能导致整页排版走样。

然而，在现有的主流大模型基准测试中，Office 办公能力长期被掩盖。这些测试要么只覆盖单一应用，要么用合成任务凑数，甚至直接请另一个大模型来充当评委。为了打破这种局限，研究员们希望引入一场真正的考试和一套真实的评分标准，以此来精准量化 AI 与真人在办公自动化领域的实际差距。

于是，研究员们把目光投向了教育部考试中心组织的标准化考试NCRE（全国计算机等级考试）一、二级 Office 模块。该考试每年报考人数以百万计，广泛应用于就业、公务员招考、考研与职称评定。引入 NCRE 作为测试基准有三大独特优势：题目由专家命制，难度经过严格校准；评分细则机器可读，保证了绝对的客观性；最重要的是，它的尺度与真人完全一致——AI 最终的得分，就是它在官方满分中实打实拿到的分数。

基于这套严苛的标准，研究员们整理出了 200 道极具代表性的题目，其中一级 88 道、二级 112 道，全面覆盖三大核心应用。这些题目被拆解为了 7,118 条可由机器判定的细粒度评分点。这套专为大模型打造的全新办公自动化基准测试，被命名为 OfficeEval。

Diagram — 图 1：OfficeEval 一道 Word 任务的端到端示意。左为原始文档，中为任务指令，右为期望产出，下为 30 条机器评分准则。

table — 表 1：OfficeEval 数据集统计（200 道任务，7,118 条评分点）。

裸考 vs 开机考：七大前沿大模型真实能力起底

为了全面评估 AI 的真实潜力，研究员们设计了两种作答范式。第一种是“单轮代码生成”模式：模型一次性接收任务说明、截图与文件路径，随后直接输出 Python 代码，代码运行完即刻提交，期间没有任何报错反馈，也完全无法重试。

第二种是“编程智能体”模式，以评测更接近人类的实际办公状态：由 Claude Opus 4.7 驱动的 Claude Code 以及由 GPT-5.5 驱动的 Codex可以反复编写代码、运行程序、查看报错、再进行修复。每道题的作答上限长达一小时，且允许它们自由调用 Windows COM 等Office中的技术。

在这场包含“裸考”与“开机考”的双重试炼中，研究员们评测了七个前沿大模型，其中包括闭源的 Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro，以及开源的 Kimi-K2.6、Qwen3.5-397B-A17B、MiMo-V2.5、Grok-4.1-fast。

在单轮设置下，各模型的表现普遍低迷。Claude Opus 4.7 以 36.6% 的得分率位居榜首，GPT-5.5 以 36.2% 紧随其后，而 Gemini 3.1 Pro 仅获得 16.3% 的分数。在开源阵营中，除 Kimi-K2.6 拿到了接近双位数的成绩外，其余模型均在个位数徘徊。顶尖模型生成的程序也只有约六成能够勉强执行。

当场景切换到允许反复试错的编程智能体模式时，情况有了显著改善。得益于多次迭代与调用 COM 自动化的能力，Codex 的总分为68.8%，比其单轮表现提升了 32.6 个百分点；Claude Code 的得分率也提高到了 53.0%。在多次纠错后，两者的代码执行成功率均达到了 98%–99% 的水准。但即使有智能体形态的外挂加持，AI 的最高成绩也未能触及及格线（70%），距离人类社区贡献的标准答案（95.5%）仍有超过 25 个百分点的差距。这表明，仅赋予大模型“重试”的机会，依然无法从根本上解决它们在复杂办公场景下的无力感。

AI 究竟被哪块“硬骨头”卡住了？

纵观三大办公应用，大模型表现出了明显的“偏科”特征：Excel 最容易，Word 居中，而 PPT 最难。Excel 的任务主要围绕公式、数据和图表展开，相关的参数和逻辑往往直接写在题面上，易于模型捕捉。相比之下，PPT 则是名副其实的“硬骨头”。它要求生成极其精确的内部常量与 XML 属性（例如实现某种特定的“陀螺旋”动画效果）。这些底层的实现知识在题面上从未提及，AI 很难凭借通用经验猜测准确。

从细分的 8 类核心技能来看，大模型的弱点更加明显。其中，动画（Animation）与图形媒体（Graphics & Media）的最高通过率仅为 26.7% 和 29.1%；而在图表（Charts）与数据公式（Data & Formulas）类任务上，通过率则分别达到了 51.4% 和 48.5%。

radar map — 图 2：七个模型在 8 类技能上的标准通过率。数据类技能普遍较强，动画与图形媒体类是短板。

那么，当 AI 面对这些难题时，它们究竟是怎么丢分的？通过对错误根因的深度拆解，研究员们发现了一个有趣的现象：随着作答模式从单轮裸考升级到智能体开机考，扣分点发生了戏剧性的转移。

在单轮设置下，大模型的主要问题是程序崩溃。以 Claude Opus 4.7 为例，其失分有 51.8% 来自“代码执行失败”，由于语法或环境问题，程序根本没有跑起来。剩下的失分则主要归咎于实现知识错误（29.8%）以及操作缺失或误解（17.3%）。

当换上编程智能体模式后，代码崩溃的比例急剧下降至 7.9%。由于程序终于能够顺利运行，原本被崩溃掩盖的细节错误开始大量暴露，实现知识错误的占比反而飙升至 89.7%。

深入探究这些实现知识错误可以发现，AI 的痛点集中在底层表示对不上。无论是 OOXML 属性路径、枚举常量、主题颜色还是图表布局，AI 都极易因猜测而错位。例如，题目要求使用 Word 的内置页脚模板，但大模型放着系统现成的 API 不调用，非要大费周章地用基础代码从头重新拼装出一个模板。

看见人机协同的未来

通过这场严苛的国家级等级考试，大模型暴露了在办公自动化领域的局限性。究其根源，阻碍 AI 完美攻克 Office 任务的核心痛点并非模型参数量不够大，而是卡在以下三个鸿沟上：

样式库 vs API 常量的天然断层。人类用户在日常操作时，只需在可视化菜单中轻点两三下鼠标即可完成复杂的排版；但 AI 作为代码生成者，却必须精准背诵并写出那些在题面上从未出现过、隐藏在底层的复杂内部常量。
缺乏实时的视觉反馈机制。目前的 AI 大多处于“闭眼”写代码的状态。在缺乏图形界面感知的情况下，上一步操作的轻微偏差或失败，极易引发下游任务一连串的级联崩溃，而模型在执行过程中对此却一无所知。
迭代过程中“越改越错”的回退现象。编程智能体在面对报错、反复修改代码时，常常会顾此失彼，在修补新 Bug 的同时会把原本已经做对的部分意外改坏。数据显示，Codex 在 11.5% 的任务中，其智能体版本的最终表现反而退化到了比单轮版本还要低的水平。

OfficeEval 的这场“大考”让我们清醒地看到，通往完全办公自动化的道路依然充满荆棘。单纯依靠把模型做大或盲目拉长智能体的思考轮次，并不能从根本上解决问题。未来的突破口在于如何为 AI 引入运行时的状态检查、实时的视觉反馈闭环以及防回归机制，让模型能够看屏操作。当学术界与工业界的评测开始驶入追求绝对精准的真实社会任务时，这些差距为下一代人机协同办公系统的演进指明了方向。

Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?

论文链接：https://arxiv.org/abs/2606.10956 (opens in new tab)