中意知识网 中意知识网

当前位置: 首页 » 常用知识 »

公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族

机器之心报道

编辑:+0、刘欣

在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。

但近年来,推理效率已成为模型部署和性能的关键限制因素。

基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。

该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。

  • 论文标题:Llama-Nemotron: Efficient Reasoning Models
  • arXiv 地址:https://arxiv.org/pdf/2505.00949
  • 代码地址:https://github.com/NVIDIA/NeMo
  • 数据集:https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

这一系列模型可不简单,不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在 Hugging Face 上公开,遵循 NVIDIA Open Model License 和 Llama 社区许可,可商业使用。

Llama-Nemotron 系列模型是首批支持动态推理切换的开源模型,用户在推理时可在标准聊天模式和推理模式之间自由切换,极大地提升了交互的灵活性。

研究主要是利用推理类和非推理类这两类基准测试对 Llama-Nemotron 系列模型进行评估,结果发现 Llama-Nemotron 系列模型在不同规模下都展现出了良好的性能,尤其是 LN-Ultra 模型与 DeepSeek-R1 相比,极大地提高了推理吞吐量和部署效率。

Llama-Nemotron 通过多阶段后训练流程,强化推理和非推理任务表现。监督微调阶段专注于数学、代码、推理和工具调用任务;强化学习阶段则采用 REINFORCE 算法(RLOO)及支持在线奖励感知偏好优化的 RPO(Online Reward-aware Preference Optimization)方法,优化对话生成与指令跟随等技能。

Qwen 与 DeepSeek-R1 也在 Llama-Nemotron 的训练中扮演关键角色。Qwen(如 Qwen2.5-32B-Instruct)负责数学和科学数据的生成、分类及去污染,构建高质量训练集;DeepSeek-R1 作为核心教师模型,生成多步推理和代码解决方案,通过监督微调和强化学习将深度逻辑能力迁移到目标模型中。

想知道英伟达具体是如何构建 Llama-Nemotron 系列模型的吗?它背后有着怎样独特的训练方法?

接下来让我们深入探究一下其背后的奥秘。

构建面向推理优化的模型

LN-Super 和 LN-Ultra 模型通过 Puzzle 框架实现高效推理优化。Puzzle 是一个神经网络架构搜索(Neural Architecture Search, NAS)框架,能够在真实部署约束条件下,将大型语言模型转化为面向硬件高效的变体,如图 3 所示。

以 Llama 3 Instruct 模型为起点(LN-Super 基于 Llama 3.3-70B-Instruct,LN-Ultra 基于 Llama 3.1-405B-Instruct),Puzzle 通过逐模块局部蒸馏(block-wise local distillation)方法构建可替代的 Transformer 模块库。每个模块独立训练且可并行处理,旨在接近原始模块功能的同时提升计算性能。

该方法允许每个替代模块在精度与效率之间进行权衡,即模块库中某些变体具有更高的计算效率,但可能伴随一定的准确性下降,从而形成一种显式的精度–效率权衡(accuracy-efficiency tradeoff)。模块变体主要包括以下几种类型:

移除注意力机制(Attention removal):部分模块完全省略注意力机制,从而显著减少计算开销和 KV 缓存(Key-Value cache)内存占用。

可变 FFN 维度(Variable FFN dimensions):通过调整前馈网络(Feed-Forward Network, FFN)的中间维度,能够在不同粒度下实现模型压缩(如将隐藏层维度压缩至原始的 87%、75%、50%,甚至低至 10%)。

尽管 Puzzle 同样支持其他结构替换方式(如多组查询注意力机制(Grouped-Query Attention, GQA)中不同的键值头数、线性注意力替代方案、以及不执行操作的替换模块),但实际评估结果表明,在优化 LN-Super 和 LN-Ultra 两个模型的总体吞吐量与内存节省方面,最有效的技术仍是移除注意力机制与 FFN 压缩。

在模块库构建完成后,Puzzle 通过逐层选取模块的方式组装完整模型。模块选择过程由整数混合规划(Mixed-Integer Programming, MIP)求解器控制,该求解器会在给定的约束条件下(如硬件兼容性、最大推理延迟、总内存预算或指定推理吞吐量)确定效率最优的模块配置。

由于每一层支持多个具有不同精确度–效率权衡方案的模块变体,Puzzle 允许用户精确定位至任何位于精度 - 效率帕累托前沿(Pareto frontier)上的模型配置点。例如,Puzzle 可生成满足特定智能体系统(agentic systems)或部署流程所需约束(如内存不可超出上限或端到端响应时间严格受限)的模型。

FFN 融合实现纵向压缩(Vertical Compression with FFN Fusion): 针对 LN-Ultra 模型,研究者引入了一种额外的压缩技术 ——FFN 融合(FFN Fusion),该方法旨在降低模型的序列深度,并进一步缩短推理延迟。

该方法利用 Puzzle 移除部分注意力层后的结构特性:在这种结构下,模型中经常会出现连续的 FFN 模块序列。FFN Fusion 会识别出这类序列,并将其替换为更少但更宽的 FFN 层,这些宽层可并行执行,从而减少序列处理步骤的数量,同时保留模型的表达能力。

此外,这种方式显著提升了计算资源的利用率,特别是在多 GPU 环境中,可以有效降低跨层通信带来的开销。

部署约束与效率目标

LN-Super 专为在单块 NVIDIA H100 GPU 上高效运行而设计,采用张量并行系数为 1(Tensor Parallelism 1,TP1)的配置。通过 Puzzle 框架优化后,该模型在批量大小为 256、TP1 配置下,相较于 Llama 3.3-70B-Instruct 实现了 5 倍推理吞吐提升。即使在 Llama 3.3-70B-Instruct 使用其最佳配置(张量并行度为 4,TP4)的情况下,LN-Super 在 TP1 条件下仍保持 ≥2.17× 的吞吐优势。

LN-Super 设计满足约 30 万个缓存 Token(cached tokens)的运行约束(等于 batch size × sequence length),基于 FP8 精度在单张 H100 GPU 上测得。例如,batch size 为 16、序列长度为 18,750 的配置即可满足该缓存量要求。

LN-Ultra 的优化目标为整个 H100 节点(8 张 GPU)。在 Puzzle 结构搜索阶段,模型受到推理延迟需至少比 Llama 3.1-405B-Instruct 缩短 1.5 倍的约束。应用 FFN 融合(FFN Fusion)后,最终模型在延迟上实现了 1.71 倍提升。

LN-Ultra 同样受缓存 Token 限制:在 FP8 精度下支持最多 300 万个 Token,在 BF16 精度下支持 60 万个 Token,均以整个 H100 节点为计算基准。

图 4 展示了两种设置下 GPQA-Diamond 准确率(%)与处理吞吐量(Token/s)的权衡曲线。值得注意的是,LN-Ultra 在准确率和效率方面均优于 DeepSeek-R1 和 Llama 3.1-405B,表明在精度 - 吞吐率帕累托曲线(accuracy-throughput Pareto curve)上,LN-Ultra 是更具优势的选择。

NAS 后训练阶段:知识蒸馏与持续预训练

在神经架构搜索(NAS)阶段结束后,为提升模块间兼容性并弥补模块替换带来的质量损失,LN-Super 和 LN-Ultra 均进行了进一步训练。

  • LN-Super 使用 Bercovich 等人提出的 Distillation Mix 数据集,以知识蒸馏目标函数训练了 400 亿个 Token;
  • LN-Ultra 首先使用相同的蒸馏数据集进行了 650 亿 Token 的蒸馏训练,随后在 Nemotron-H 第四阶段预训练数据集上进行了额外 880 亿 Token 的持续预训练。

通过这一最终的预训练阶段,LN-Ultra 不仅实现了与基准模型 Llama 3.1-405B-Instruct 相当的性能,还在多个关键基准测试上取得超越,验证了即使进行激进的架构优化,也可通过短周期的蒸馏与预训练恢复并提升模型性能(见表 1)。

推理能力强化学习

为了使模型具备在不同任务场景下灵活切换推理深度与回答风格的能力,研究者设计了「detailed thinking on/off」指令机制,通过在合成数据中显式标记是否需要展开详细推理过程,引导模型在训练中学习何时进行逐步思考、展示推理链条,何时直接给出简明答案。

具体而言,指令为「on」时,模型输出完整的中间推理过程并展示解题思路;指令为「off」时,模型仅呈现最终结果。这一机制提升了模型对用户指令的响应可控性,同时增强了推理行为在不同场景中的适应性,使模型能根据实际需求调整输出风格。

在此基础上,模型通过监督微调(SFT)从教师模型中学习多步推理路径,并有效融合推理与通用任务风格,构建了兼具推理精度与使用灵活性的响应系统。

LN-Ultra 在推理类与非推理类基准测试上均达到或超越了现有开源权重模型的水平(如表 5 所示),证明通过从强大教师模型中蒸馏知识,模型可通过监督微调获得较强能力。

然而,蒸馏在本质上为学生模型设定了性能上限,特别是当学生模型本身能力不超过教师模型时。

例如,通过监督微调,LN-Ultra 可逼近 DeepSeek-R1 的性能,但难以超越。为使学生模型有机会超过教师模型,大规模强化学习(RL)提供了可行路径,因其能持续探索新策略并促进模型自学习。

研究者初步实验表明,在小型模型上应用强化学习的性能通常不及直接蒸馏。考虑到资源限制,研究者仅对 LN-Ultra 应用推理方向的强化学习,从而获得一个超越其教师模型的最终版本。

训练流程

针对 LN-Ultra,研究者通过大规模强化学习提升其科学推理能力,采用 GRPO 算法。训练中设置每个 rollout 的提示词长度为 72,并为每个提示采样 16 个响应,采样参数为 temperature = 1,top_p = 1。

全局 batch size 设置为 576,每个 rollout 更新两次梯度,训练持续至模型在推理任务上收敛。图 5 展示了模型在 GPQA-Diamond 上的准确率随训练进展的变化。借助优化后的训练基础设施,整个训练过程共消耗约 14 万张 H100 GPU 小时。

本阶段训练使用以下两类奖励信号:

准确率奖励(Accuracy rewards):每个训练样本提供标准答案(数字、句子或段落),研究者使用 Llama-3.3-70B-Instruct 模型判定策略模型响应是否与标准答案一致。

格式奖励(Format rewards):遵循 DeepSeek-AI 等人做法,在模型开启详细思考(detailed thinking on)模式时,需将推理过程置于 "" 标签之中;而在 detailed thinking off 模式下,确保不包含思考标签。格式奖励确保模型按规定格式输出推理过程。

为增加训练挑战性,研究者对数据进行预处理:由 LN-Super 为每道题生成 8 个独立回答,计算通过率(pass rate),并过滤通过率 ≥0.75 的样本,提升总体训练数据难度。

除数据筛选外,研究者发现课程化学习(curriculum learning)策略能显著帮助模型在复杂推理问题上的收敛和泛化。研究者采用渐进式批处理策略(progressive batching),使用预计算通过率作为样本难度指标,在固定 batch size 下,动态计算每个批次的目标难度分布。

该分布以高斯函数建模,从早期批次集中在高通过率(简单样本),逐步过渡至后期批次的低通过率(高难度样本)。每个 batch 中,样本按目标分布随机分配,并根据不同通过率池中剩余样本量进行容量填充。

这种策略确保样本难度在 batch 层面逐步递进,同时 batch 内部保持随机性。图 6 展示了该课程式学习策略在降低方差、稳定训练过程及提升准确率方面的有效性。

FP8 精度生成阶段

研究者识别出生成阶段是推理过程中的主要限制因素。为提升该阶段性能,研究者开发了支持 vLLM 框架下在线 FP8 精度生成模式的路径,此模式可在 FP8 精度下执行全部矩阵乘(GEMM)操作,并结合每 token 激活缩放因子及每张量权重缩放因子。

为配合训练时输出的 BF16 权重,研究者开发自定义 vLLM 权重加载器,可在运行时将 BF16 权重转换为 FP8 格式及其缩放参数。由于 vLLM 当前不支持 FP8 模式直接初始化模型,研究者实现了元权重张量初始化(meta-weight tensor initialization),避免载入完整 BF16 推理引擎导致 GPU 显存溢出。

在上述优化下,FP8 模式下单个 GPU 每个 prompt 的生成吞吐量最高可达 32 token/s,相比 BF16 提升 1.8 倍。其中,FP8 本身带来 1.4 倍加速,另外 0.4 倍收益源自内存占用减少,使研究者能够启用 vLLM 的 cudagraph 特性,进一步提升系统性能。

用于偏好优化的强化学习

指令跟随能力优化

在完成科学推理任务的强化学习训练后,研究者对 LN-Super 和 LN-Ultra 开展短周期强化学习训练,优化其指令跟随能力。参照 Zhou 等人提出的验证方案,研究者生成包含 1 至 10 条详细指令的合成提示词用于训练。

在该阶段,研究者采用 RLOO 算法进行不超过 120 步的强化学习训练,使用自定义指令跟随验证器作为奖励函数,训练批大小为 128 条提示。结果表明,此类训练不仅提升了模型在传统指令跟随评测中的表现,也对推理类基准任务产生积极影响。

基于人类反馈的强化学习(RLHF)

研究者使用基于人类反馈的强化学习(RLHF)增强模型的通用协助能力(helpfulness)与多轮聊天能力,同时确保其在其他任务上的表现不被削弱。

如表 4 所示,LN-Super(49B 参数)在 Arena Hard 评测中取得 88.3 的高分,超越了数个专有模型(如 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13)以及规模更大的开源模型如 Llama-3.1-405B-Instruct 和 Mistral-large-2407。

为实现这一目标,研究者采用迭代式在线 RPO(online Reward-Parameterized Optimization)训练方式,在 HelpSteer2 数据集的提示语上最大化 Llama-3.1-Nemotron-70B-Reward 所预测的偏好奖励。

具体训练参数为:学习率 α = 4e-7,KL 散度惩罚项 β = 1e-5,奖励缩放因子 η = 3.0,batch size 为 64,训练 500 步。两轮在线 RPO 后,Arena Hard 分数由 69.1 提升至 88.1。

值得注意的是,该过程在几乎所有基准任务中的表现均有提升,唯独在 IFEval 上略有下降。由于该数据集与奖励模型未专门针对数学、代码、科学或函数调用场景设计,研究者推测 RLHF 有助于模型更好地调动已有知识和技能。

针对 LN-Ultra,研究者延续上述训练流程,但采用 GRPO 算法。对每条提示词,生成 8 个样本响应,并以学习率 3e-7、batch size 为 288、KL 惩罚 β = 1e-3 的配置进行 30 步训练。

对于小模型 LN-Nano,研究者进行了两轮离线 RPO,使用策略内数据(on-policy data)训练。第一轮混合使用包含推理和非推理内容的数据,并配合相应系统提示,目的是提升模型的推理控制能力;第二轮聚焦于提升指令跟随表现,训练数据为模型生成的策略内响应。每轮训练最多进行 400 步,学习率 α = 7e-7,KL 惩罚 β = 3e-2,batch size 为 512。

详细内容请参见原论文。

未经允许不得转载: 中意知识网 » 公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族