中意知识网 中意知识网

当前位置: 首页 » 常用知识 »

英伟达开源AIMO奥赛冠军模型,仅用1.4B参数量超越14B DeeSeek-R1

英伟达正式开源了其不久前在 AI 数学奥林匹克竞赛(AIMO,AI Mathematical Olympiad)中斩获冠军的核心模型系列。

在本届 AIMO-2 Kaggle 竞赛中,超过 2,200 支参赛队伍提交了 AI 模型,挑战在 5 小时内解决 50 道国家奥林匹克级别的复杂数学问题。英伟达的 7 人团队“NemoSkills”最终正确解答了 34 道题目(相比 2024 年的冠军提高了 5 道),夺得了冠军。

图丨此次比赛的排行榜(来源:Kaggle)

现在,英伟达向全球开放了帮助他们获胜的核心技术,包括小参数的 OpenMath-Nemotron-1.5B、OpenMath-Nemotron-7B 和直接用于竞赛并优化的 OpenMath-Nemotron-14B-Kaggle 模型、性能更为强大的旗舰模型 OpenMath-Nemotron-32B,以及训练它们所依赖的 OpenMathReasoning 数据集。

基准测试的结果显示,这几款模型表现出色,在 AIME 和 HMMT 竞赛中数学问题上的准确率全面超越了 14B 的 DeepSeek-R1。

图丨 AIME 和 HMMT 竞赛中数学问题的准确率(来源:arXiv)

英伟达是如何构建 OpenMath-Nemotron 的?

那么,英伟达是如何构建 OpenMath-Nemotron 模型的?

这首先在于一个大规模且高质量的训练数据集。认识到现有资源的不足,英伟达团队首先投入了大量的工作来创建 OpenMathReasoning 数据集。

他们先从“Art of Problem Solving(AoPS)”等在线数学社区收集了大量的原始数学问题和讨论。

随后,团队利用 Qwen2.5-32B-Instruct 开发了一套自动化流程,对这些原始数据进行细致处理。这包括从帖子中提取完整的数学问题,对问题进行分类(例如,剔除选择题和是非题),并将一些需要证明过程的问题巧妙地转化为需要具体答案的形式,以便于模型训练和自动评估。同时,为了保证模型的泛化能力,他们还进行了基准去污染处理,移除了与现有常见数学测试集(如 MATH、GSM8K)中题目过于相似的问题。

最终完成的 OpenMathReasoning 数据集,包含了 54 万个高质量数学问题,其中涵盖了从中学到奥林匹克竞赛等不同难度级别。为了让模型学会“思考过程”,团队更进一步地利用 DeepSeek-R1 和 QwQ-32B 等强大的现有模型,为这些问题生成了 320 万条包含详细解题步骤的“思维链”(CoT,Chain-of-Thought)解决方案。

图丨数据集组成(来源:arXiv)

第二个核心部分是工具集成推理。

现代 AI 研究的一个重要趋势是让语言模型学会使用外部工具,例如调用计算器或执行代码片段,来辅助解决问题,尤其是在需要精确计算或模拟的场景下。然而,团队在实践中发现,即便是当时最强的开源数学模型,也难以通过简单的提示工程来引导它们生成高质量的、将代码执行与自然语言推理深度融合的解决方案(即 TIR)。这些模型似乎对其自身固有的纯文本推理模式产生了某种“路径依赖”。

为了克服这一障碍,NemoSkills 团队设计并实施了一套迭代式开发流程。他们首先选择了一个指令遵循能力较好的基础模型(LIMO-Qwen-32B),用少量推理数据对其进行初步微调。然后,引导这个模型生成第一批包含 Python 代码的 TIR 解决方案。关键的下一步是进行严格的质量过滤:利用另一个强大的大模型( Qwen2.5-32B-Instruct),来判断每个代码块的“新颖性”(是产生了新结果还是仅仅验证已知步骤)和“重要性”(是解决问题的关键环节还是可以被几步简单 CoT 取代)。只有那些代码执行提供了显著推理价值(而非冗余计算)的样本才被保留下来,形成了约 1.5 万个样本的初始 TIR 训练集。

接下来,他们用这个高质量的初始集去微调更强大的模型(如 QwQ-32B),使其初步具备生成 TIR 的能力。随后,利用这个微调后的模型生成更多、更高质量的 TIR 数据,并再次运用上述过滤标准进行筛选。这个“生成-过滤-训练”的闭环被重复执行,每一轮都提升了 TIR 数据的规模和质量。最终,团队构建起了一个包含 170 万条高质量 TIR 解决方案的数据集。基于此训练出的 OpenMath-Nemotron 模型,能够熟练地在自然语言推理中嵌入 Python 代码执行,从而攻克那些纯文本推理难以解决的复杂计算问题。此外,他们还设计了一种机制,使得模型在生成答案时能够遵循对代码块使用次数的限制,这对于资源受限的推理场景至关重要。

第三个核心部分则是团队提出的生成式解决方案选择。

在解决困难问题时,让模型生成多个候选答案并从中择优,是提升最终准确率的常用技巧。传统的“多数投票”方法虽然直观,但往往无法充分发掘模型生成的所有答案中的潜在正确信息,其性能通常远低于理论上的“pass@k”(即 k 个答案中至少有一个正确的概率)上限。

为了弥补这一差距,英伟达团队开发了 GenSelect 技术。其核心思想不再是简单地对最终答案进行投票,而是训练一个模型,让它扮演“评审员”的角色,能够“阅读”并“理解”多个候选解决方案的完整摘要,然后基于对解题逻辑、步骤合理性等的判断,选出最可信、最有可能正确的那一个。

图丨 GenSelect 的数据构建流程(来源:arXiv)

具体来说,团队首先利用 Qwen2.5-32B-Instruct 模型为 OpenMathReasoning 数据集中所有已生成的 CoT 和 TIR 解决方案重新生成了结构化的、信息更丰富的摘要。然后,他们构建了 GenSelect 的训练数据:为每个原始问题,随机抽取 2 到 16 个候选方案的摘要(特别设计以确保样本组中至少包含一个正确和一个错误的解),将这些摘要连同原问题一起输入给 QwQ-32B 模型,并要求它生成一段详细的比较分析文本,最终明确指出哪个索引号的解决方案是最佳的。通过筛选掉那些模型判断错误(即选择了错误答案)的案例,他们构建了一个包含 56.6 万个样本的 GenSelect 训练数据集。

实验结果表明,经过 GenSelect 加持的模型,其最终准确率相比简单的多数投票有了显著提升,尤其是在候选方案数量不多时效果更为明显。虽然由于 AIMO 竞赛严格的时间和计算限制,GenSelect 未能被纳入最终的获胜提交方案中,但这项技术已被完全整合到此次发布的 OpenMath-Nemotron-32B 模型中,构成了其支持的三大推理模式之一。

基于上述三大支柱和海量数据,英伟达团队训练了一系列名为 OpenMath-Nemotron 的模型,参数规模涵盖 1.5B、7B、14B 和 32B。这些模型均基于强大的 Qwen2.5 基座模型进行微调。对于 1.5B 和 7B 版本,他们甚至使用了专门为数学任务优化的 Qwen2.5-Math 版本作为起点。

训练过程采用了监督微调,混合使用了 CoT、TIR 和 GenSelect 三种任务的数据,总计达 550 万个样本。这意味着同一个模型可以通过不同的提示(prompt)在 CoT(纯文本推理)、TIR(工具集成推理)和 GenSelect(多方案选择)模式下工作。

图丨训练过程中准确率的提升(来源:arXiv)

为了处理长达数千甚至上万个 token 的长序列推理,团队应用了旋转位置编码(RoPE,Rotary Position Embedding)扩展技术,并将训练过程中的上下文窗口扩展到支持长序列。训练使用了英伟达自家的 NeMo-Aligner 工具包,并结合了序列打包、上下文并行等技术来加速长序列训练。此外,他们还采用了检查点平均(checkpoint averaging)和在更难问题子集上进行第二轮微调等策略,进一步提升模型性能。

多项优化推理措施

赢得 AIMO-2 竞赛不仅需要模型本身强大,还需要在极其苛刻的 5 小时、4x L4 GPU 限制下高效完成推理。这要求团队在模型选择和推理优化上做出极致权衡。

他们的最终提交方案基于 OpenMath-Nemotron-14B 模型的一个早期版本,该版本在一个稍小的 CoT 数据集(仅 DeepSeek-R1 生成)上训练,并进行了轻量级的 TIR 微调。值得注意的是,他们采用了模型合并技术,将纯 CoT 训练的检查点和经过 TIR 微调的检查点进行线性组合。这种简单而有效的方法,让他们能够在保持 TIR 能力的同时,部分恢复 CoT 模型的生成流畅性和速度优势,并减少代码调用次数,从而更好地适应竞赛环境。

为了在有限的时间内最大化解题数量和准确率,团队实施了多项推理优化措施:

首先,他们使用 TensorRT-LLM 将预训练模型转换为 TensorRT 引擎。这一工具的动态批处理功能通过动态分组推理请求提高了吞吐量,在样本完成后即刻释放,减少延迟并优化 GPU 利用率。由于样本是独立处理的,批处理可以无缝混合不同的提示或推理参数。TensorRT-LLM 还包括自定义注意力内核和分页 KV 缓存等多种优化。

在量化方面,团队优先采用 int8 权重量化(W8A16)和 FP8 量化,相比 BF16 格式速度提升了 1.5 倍,同时对准确率的影响最小。减小的权重大小还为更大的键值缓存释放了内存,允许处理更长的序列。团队还使用了苹果开发的 ReDrafter 技术,这是一种循环推测解码方法,使用基于 RNN 的起草器在每个解码步骤提出并验证多个 token。他们训练了一个能够在每一步提出最多三个 token 的起草器,在大约 65% 的步骤中成功接受所有三个 token,显著加速了生成过程。

图丨在 4 个 L4 GPU 上对具有不同优化方法的提交管道进行基准测试(来源:arXiv)

此外,团队通过将 CoT 和 TIR 检查点线性组合创建了最终模型,这种策略允许他们控制每个微调阶段对最终模型行为的影响程度。最佳模型是使用 CoT0.3+TIR0.7 的组合创建的,这不仅提高了准确率,还通过减少解决方案长度和代码执行次数加速了生成。团队实现了一种缓冲策略,为每个问题分配 350 秒的基本时间限制,如果一个问题提前完成,未使用的时间会被添加到共享缓冲区,供后续问题使用。

团队还利用了 NeMo-Skills 的异步生成功能实现批量处理和早停。例如,在 16 个样本的批处理中,如果前 4-5 个完成的样本就已经对最终答案达成一致,则取消剩余的生成并继续下一个问题。这种机制极大地节约了在简单或中等难度问题上可能浪费的时间,为攻克难题争取了宝贵的时间窗口。早停策略增加了响应相关性,因为较短的答案往往质量更高。

图丨异步批处理流程(来源:Kaggle)

实验结果显示,在 Comp-Math-24-25 测试集(包含来自 AIME 和 HMMT 竞赛的问题)上,团队的模型表现出色。1.5B 模型在 CoT 模式下单次通过准确率为 58.2%,多数投票准确率达 80.0%;在 TIR 模式下,这些数字分别提高到 64.5% 和 83.3%;使用 GenSelect 技术后,准确率进一步提升至 83.3%。14B 模型的表现更为出色,在 TIR 模式结合 GenSelect 使用时,准确率高达 90.0%。最大的 32B 模型在相同条件下甚至达到了 93.3% 的准确率。这些结果也表明,无论模型大小如何,TIR 模式始终优于纯 CoT 模式,而 GenSelect 技术能进一步提高准确率。

图|数学基准测试的评估结果(来源:arXiv)

目前,英伟达团队已将完整的 OpenMathReasoning 数据集、训练好的 OpenMath-Nemotron 模型系列以及所有相关代码以商业许可方式发布到 Hugging Face 和 GitHub 上(项目地址:https://huggingface.co/collections/nvidia/openmathreasoning-68072c0154a5099573d2e730)。

参考资料:

1.https://arxiv.org/abs/2504.16891

2.https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/discussion/574765

运营/排版:何晨龙

未经允许不得转载: 中意知识网 » 英伟达开源AIMO奥赛冠军模型,仅用1.4B参数量超越14B DeeSeek-R1