新一代大模型评测基准：超越 MMLU 时代

zhuonixian2026/6/13大约 13 分钟

新一代大模型评测基准：超越 MMLU 时代

大模型能力飞速迭代的今天，传统评测基准正在失效。MMLU 上的顶级模型准确率已超过 90%，GSM8K 接近满分，HumanEval 也早已不是难以企及的高峰。当"考试分数"越来越难以区分模型的真实水平，评测社区正在转向更难、更真实、更具挑战性的新一代基准。本文系统梳理 2026 年最值得关注的大模型评测基准，涵盖代码修复、数学推理、人类偏好、科学问答等多个维度。

为什么需要新一代基准

传统基准的困境可以归结为三个核心问题。

饱和问题。 MMLU、GSM8K、HumanEval 这三个曾经的标准基准，在 2025 年底就已接近饱和。顶级模型在 MMLU 上的准确率超过 92%，在 GSM8K 上接近 99%，在 HumanEval 上也突破了 95%。当所有模型都能拿到接近满分的成绩时，基准就失去了区分度。

数据污染。 更严重的问题在于训练数据污染。许多基准的题目和解答在互联网上广泛传播，几乎不可避免地被纳入模型的训练语料。研究显示，部分模型在"见过"的题目上表现远好于"没见过"的同类题目，这意味着高分可能只是记忆而非真正的能力。HumanEval 只有 164 道题，题量如此之少，数据污染的影响尤为显著。

与真实应用脱节。 传统基准多采用选择题或简答题的形式，与大模型在真实场景中的使用方式差距较大。一个能在 MMLU 上答对医学题目的模型，并不意味着它能帮助医生做出临床决策；一个能通过 HumanEval 的模型，也未必能修复真实项目中的复杂 Bug。

2026 年的趋势很明确：从"考试分数"走向"真实能力"。新一代基准更关注模型在真实任务中的表现，更注重防止数据污染，更贴近实际应用场景。

SWE-Bench：真实代码修复

SWE-Bench（Software Engineering Benchmark）由 Princeton University 的研究团队于 2023 年提出，是目前评估大模型软件工程能力最具代表性的基准。

核心设计

SWE-Bench 的数据来源于真实的 GitHub 项目。具体来说，研究者从 12 个流行的 Python 开源仓库（如 Django、Flask、Scikit-learn、SymPy 等）中收集了数千个真实的 Issue 和对应的 Pull Request。每个样本包含：

问题描述（来自 GitHub Issue）
代码仓库快照（Issue 提出时的状态）
期望的代码修改（来自修复该 Issue 的 Pull Request）
验证测试用例

SWE-Bench Verified 是其中一个经过人工验证的子集，包含约 500 个经过确认的、可独立复现的 Issue。这个子集排除了环境问题、描述模糊等噪声因素，使得评测结果更加可靠。

评测方式

评测过程模拟了真实的代码修复流程：

# 克隆 SWE-Bench 评测仓库
git clone https://github.com/princeton-nlp/SWE-bench.git
cd SWE-bench

# 安装依赖
pip install -e .

# 运行评测（以特定模型为例）
python run_evaluation.py \
  --predictions_path results/predictions.json \
  --swe_bench_tasks_path data/swe-bench-verified.json \
  --log_level INFO

模型需要在 Docker 容器中，基于给定的代码仓库快照和 Issue 描述，生成代码补丁（patch）。评测系统会在隔离的 Docker 环境中应用补丁，运行对应的测试用例来判断修复是否成功。这种方式确保了评测的客观性和可复现性。

当前 SOTA 与人类对比

截至 2026 年 6 月，SWE-Bench Verified 上的代表性结果如下：

模型	解决率	备注
Claude Mythos 5	95.5%	BenchLM.ai 报告
Claude Fable 5	95.0%	Vals AI 验证
Claude Opus 4.8	88.6%	Vals AI 验证
GPT-5.5	88.7%	DemandSphere 报告
Gemini 3 Flash (high reasoning)	75.8%	官方排行榜
人类开发者	约 90%+	参考值

值得注意的是，顶级 AI 模型已经在 SWE-Bench Verified 上超越了人类开发者的平均水平。但这并不意味着 AI 在通用软件工程上超越人类，因为 SWE-Bench 的任务范围仍然是受限的。

LiveCodeBench：动态代码生成

LiveCodeBench 由 LiveCodeBench 团队推出，核心设计理念是"动态更新，持续评测"，从而从根本上解决数据污染问题。

数据来源

LiveCodeBench 持续从以下平台抓取新的编程竞赛题目：

Codeforces -- 竞赛编程平台，包含 Div.2 到 Div.1 各难度级别的题目
LeetCode -- 面试编程题，涵盖 Easy 到 Hard 级别
AtCoder -- 日本的竞赛编程平台
CodeChef -- 印度的竞赛编程平台

由于这些平台每周都会发布新题目，模型几乎不可能在训练数据中"见过"这些题目。LiveCodeBench 使用滚动窗口机制，只采用最近发布的题目进行评测，确保评测的时效性和公平性。

支持语言与评测

LiveCodeBench 支持多种编程语言，包括 Python、Java、C++、JavaScript 等。评测基于测试用例通过率，每道题包含多组测试用例（包括公开和隐藏用例），模型需要通过全部测试用例才算正确。

截至 2026 年 6 月，LiveCodeBench 的代表性结果：

模型	分数
O4-Mini (High)	80.2
O3 (High)	75.8
O4-Mini (Medium)	74.2
Gemini 2.5 Pro (06-05)	73.6

LiveCodeBench 被广泛认为是当前最可靠的代码生成评测基准之一，其滚动更新机制有效地暴露了部分在静态基准上"刷分"的模型。

AIME 2026：高等数学推理

AIME（American Invitational Mathematics Examination，美国数学邀请赛）是面向高中生的数学竞赛，难度远高于普通高中数学。AIME 题目需要深入的数学洞察力和多步推理能力，被认为是评估大模型高级数学推理能力的理想基准。

为什么 AIME 胜过 GSM8K/MATH

GSM8K 是小学数学应用题，MATH 竞赛级别的题目虽然较难，但已在互联网上广泛流传。相比之下，AIME 有几个独特优势：

题目每年更新 -- AIME 每年都会出全新题目，2026 年的题目在 2026 年 2 月才发布，模型不可能提前"见过"
难度极高 -- AIME 要求在 3 小时内完成 15 道题，即使是优秀的竞赛选手也难以全部答对
答案格式严格 -- 每道题的答案是 0-999 之间的整数，不存在猜对的可能

当前 SOTA

模型	AIME 2024 准确率	备注
GPT-5	95.7%	pricepertoken.com 排行榜
Grok 4	94.3%	pricepertoken.com 排行榜
O4 Mini	94.0%	pricepertoken.com 排行榜

在 AIME 2024 上，顶级模型的表现已经接近完美。但 AIME 2026 作为最新版本，由于题目发布时间极短，评测结果仍在持续更新中，可以在 MathArena 等平台追踪最新成绩。

Chatbot Arena：人类偏好评测

Chatbot Arena 由 LMSYS（Large Model Systems Organization，现更名为 Arena AI）开发，是目前最具影响力的人类偏好评测平台。

盲测机制

Chatbot Arena 的核心是盲测对战。用户在平台上输入一个 Prompt，两个匿名模型同时生成回答，用户根据回答质量投票选择更好的一方。投票完成后才会揭晓两个模型的身份。这种机制消除了品牌偏见，确保评测结果反映真实的回答质量。

平台已积累超过 200 万人类投票，使用 Elo 评分系统（类似国际象棋的排名系统）为每个模型计算分数。

分类排行

Chatbot Arena 不仅提供总体排名，还细分为多个类别：

编码（Coding） -- 代码生成和调试能力
推理（Reasoning） -- 逻辑推理和问题解决
创意（Creative） -- 创意写作和内容生成
中文（Chinese） -- 中文理解和生成
硬提示（Hard Prompts） -- 复杂多步骤任务

2026 年 6 月 Top 10

排名	模型	Arena Elo
1	Claude Opus 4.6 Thinking	1502
2	GPT-5.4	~1480
3	Gemini 3.1	~1460
4	Claude Sonnet 4.6	~1440
5	GPT-5.4 Mini	~1420
6	Gemini 3.1 Flash	~1400
7	DeepSeek V4	~1380
8	Qwen 3.7 Max	~1360
9	Llama 4 Maverick	~1340
10	Mistral Large 3	~1320

注：以上 Elo 分数为近似值，实际分数每日更新。完整排行请访问 arena.ai/leaderboard/text。

优势与局限

优势：

最接近真实用户体验，评测维度全面
消除品牌偏见，结果客观
样本量大（200 万+投票），统计显著性强
持续更新，反映最新模型能力

局限：

主观性强，不同用户对"好回答"的判断标准不同
成本高，需要大量人类参与者
容易受 Prompt 分布影响（用户提交的 Prompt 偏向日常使用场景）
不适合评估需要专业知识才能判断的领域

GPQA：研究生级科学问答

GPQA（Graduate-Level Google-Proof Q&A）是一个极具挑战性的科学问答基准，其题目由物理、化学、生物学领域的博士级专家编写。

设计理念

GPQA 的核心设计目标是创建"Google-proof"的题目，即无法通过简单搜索获取答案的高难度科学问题。每道题都是高质量的多选题，需要深厚的专业知识才能回答。GPQA Diamond 是其中最难的子集，包含 198 道经过严格筛选的题目。

难度之高

GPQA Diamond 的难度可以从人类专家的表现中窥见一斑：即使是拥有博士学位的人类专家，在 GPQA Diamond 上的平均准确率也仅为约 65%。这意味着题目设计得极其精巧，即使是领域专家也容易出错。

当前 SOTA

模型	GPQA Diamond 准确率	备注
GPT-5.4 Pro (xhigh)	94.6%	lmcouncil.ai
Gemini 3.1 Pro Preview	94.1%	lmcouncil.ai
GPT-5.4 (xhigh)	93.3%	lmcouncil.ai
MiniMax M3	92.9%	lmcouncil.ai
Qwen 3.7 Max	92.3%	lmcouncil.ai
人类专家	约 65%	参考值

顶级模型在 GPQA Diamond 上的表现已经远超人类专家。这一方面展示了模型在科学知识方面的强大能力，另一方面也引发了关于"记忆 vs 推理"的讨论。部分研究者认为，模型可能在训练数据中接触过相关的科学文献，并非完全依赖推理来解题。

IFEval：指令遵循评测

IFEval（Instruction-Following Evaluation）由 Google Research 提出，专注于评估大模型是否能够精确遵循用户的指令。

为什么指令遵循很重要

在实际应用中，模型不仅需要生成高质量的内容，还需要严格按照用户的格式和约束要求来输出。例如：

"请用不超过 100 个词回答"
"请以 JSON 格式输出结果"
"回答中必须包含至少 3 个要点"
"不要使用逗号"

这些看似简单的约束，对于大模型来说却是颇具挑战性的任务。如果模型不能可靠地遵循这些指令，在实际应用中就需要额外的后处理或人工干预。

评测内容

IFEval 定义了 25 种可自动验证的指令类型，涵盖以下类别：

长度约束 -- 输出字数/词数的上限或下限
格式约束 -- 要求使用 JSON、XML 等特定格式
标点约束 -- 禁止或要求使用特定标点符号
内容约束 -- 必须包含或禁止包含特定内容
结构约束 -- 要求使用特定段落结构或列表格式

所有指令都可以通过程序自动验证，无需人工评判，这使得评测结果客观且可复现。IFEval 已被纳入 HuggingFace Open LLM Leaderboard 和 EleutherAI lm-evaluation-harness 等主流评测框架。

# 使用 lm-evaluation-harness 运行 IFEval
lm_eval --model hf \
    --model_args pretrained=meta-llama/Llama-3.1-70B \
    --tasks ifeval \
    --batch_size 8

其他新兴基准

GAIA：通用 AI 助手评测

GAIA（General AI Assistants）由 Meta AI 提出，是一个面向通用 AI 助手能力的基准。GAIA 包含 466 个需要推理、多模态处理、网络浏览和工具使用能力的问题，分为三个难度级别。与大多数基准不同，GAIA 要求模型具备综合性的问题解决能力，而非单一技能。

截至 2026 年 6 月，GAIA 仍然是 AI 领域最难的基准之一。在 HuggingFace 的公开排行榜上，结合多模型协同的 Agent 系统取得了 92% 左右的成绩，但这是在较简单的子集上。在完整的 held-out 测试集上，顶级模型的准确率仍在 45% 左右，与人类水平的接近满分相比还有巨大差距。

MMMU：多模态理解

MMMU（Massive Multi-discipline Multimodal Understanding）是一个评估多模态模型在大学级别学科任务上表现的基准，涵盖 30 个学科领域。MMMU-Pro（ACL 2025）是其增强版本，消除了猜测捷径，进一步提高了评测的可靠性。

随着多模态模型在 2026 年的快速发展，MMMU 和 MMMU-Pro 成为评估视觉-语言模型综合理解能力的重要标准。

动态评测与 Auto-Eval

评测社区也在探索自动化和动态评测方案。一些新的研究方向包括：

使用 LLM 作为评判者（LLM-as-Judge） -- 用强大的模型来评判其他模型的输出质量
对抗性评测 -- 自动生成评测样本来发现模型的弱点和边界
评测数据集的持续更新 -- 定期引入新题目，防止静态数据集的过时和污染

如何组合使用这些基准

面对众多的评测基准，如何选择和组合使用是一个实际问题。以下是一些推荐方案：

按场景推荐

场景	推荐基准组合	说明
通用能力评估	Chatbot Arena + GPQA + IFEval	覆盖人类偏好、科学推理和指令遵循
代码开发	SWE-Bench + LiveCodeBench	真实 Bug 修复 + 动态代码生成
数学推理	AIME + GPQA Diamond	竞赛数学 + 科学推理
通用助手	GAIA + Chatbot Arena + IFEval	综合问题解决 + 人类偏好 + 指令遵循
多模态	MMMU-Pro + Chatbot Arena Vision	多学科理解 + 人类偏好

综合评测 vs 专项评测

综合评测适合模型选型和横向比较。Chatbot Arena 提供了最全面的用户体验评估，配合 GPQA 和 IFEval 可以快速了解模型的综合实力。

专项评测适合特定场景的深入评估。如果你的核心场景是代码开发，SWE-Bench 和 LiveCodeBench 是不可替代的；如果关注数学推理，AIME 是最好的选择。

实践建议

不要只看一个基准的分数 -- 任何单一基准都有局限性，综合多个基准的结果才能全面了解模型能力
关注基准的时效性 -- 优先使用持续更新的基准（如 LiveCodeBench、Chatbot Arena），谨慎对待静态基准的分数
区分报告来源 -- 官方验证的分数（如 Vals AI）比厂商自行报告的分数更可靠
结合自身场景 -- 基准分数只是参考，最终还需要在自己的实际业务数据上进行评测

结语

评测基准是大模型发展的风向标。从 MMLU/GSM8K 到 SWE-Bench/AIME/Chatbot Arena，评测标准的演进反映了整个领域对"什么是真正智能"的深层思考。2026 年的评测格局更加多元和成熟，但也在不断面临新的挑战：当模型在所有基准上都接近满分时，我们该如何继续衡量进步？这个问题的答案，或许就是下一个评测范式的起点。