本文综合了 Thinking Machines Lab 的 On-Policy Distillation 博客 与 OPD 前沿技术综述的内容,系统梳理同策略蒸馏(OPD)的核心原理、工业实践与最新算法进展。

大语言模型的能力并非一蹴而就——它们通常经历三个训练阶段:预训练(Pre-training) 教会模型语言理解与世界知识;中间训练(Mid-training) 注入领域知识;后训练(Post-training) 引导出指令遵循、数学推理或对话等目标行为。后训练是将基础模型变成有用工具的关键一步,而同策略蒸馏(On-Policy Distillation, OPD)正在以更高的样本效率和更密集的监督信号,重新定义这一阶段的范式。

从离线模仿到同策略交互

离线训练的局限:暴露偏差

传统的后训练方法依赖监督微调(Supervised Fine-Tuning, SFT)与离线知识蒸馏(Off-Policy Distillation)。在这些方法中,学生模型在教师模型生成的固定轨迹上进行训练——教师的完整 token 序列作为目标,学生在每一步都更新自身分布以逼近教师的输出。

图1:离线蒸馏示意。学生在教师的轨迹上训练,更新幅度与 token 的意外程度成正比(颜色越深代表更新越大)。(来源:Thinking Machines Lab

这种依赖外部固定轨迹的方式不可避免地引入了暴露偏差(Exposure Bias)。学生训练时看到的都是教师的轨迹,但推理时必须基于自身的生成进行后续预测。一旦偏离教师的分布范围,误差便会以 $\mathcal{O}(\epsilon T^2)$ 的速率在序列长度上二次放大。就像学棋时只观摩大师的对局——你看到的都是高水平的局面,但新手很少会进入这些局面。

此外,研究还发现离线蒸馏存在另一个隐患:学生可能学会了模仿教师的风格和置信度,但不一定学会了它的事实准确性 [6]。

强化学习的困境:稀疏奖励

基于可验证奖励的强化学习(RLVR,如 PPO 或 GRPO)通过让模型在自身策略空间中进行探索,从构造上消除了分布错位的问题。然而,RL 的奖励信号往往是稀疏的——模型可能生成了数千个 token 的推理链,最终仅获得一个二元的"对/错"信号。

图2:强化学习示意。学生自行生成轨迹并获得稀疏的最终结果奖励。(来源:Thinking Machines Lab

正如 Thinking Machines 所比喻的:RL 就像在没有教练指导的情况下下棋——你在每局结束后知道输赢,但不知道哪一步走错了。模型学会了"21"是错误答案并远离这条轨迹,但不清楚是运算顺序错了,还是算术本身出了问题。这种稀疏反馈导致了极高的方差与探索成本。

OPD 核心机制:两个世界的最佳结合

核心思想

OPD 的核心思想简洁而优雅:

  1. 学生模型基于自身策略 $\pi_\theta$ 生成轨迹——保证训练分布与推理分布一致。
  2. 教师模型对学生生成的每一个 token 进行评分——提供密集的概率分布监督。

回到国际象棋的类比:OPD 就像一位教练坐在你旁边看你下棋,对你的每一步棋都给出从"失误"到"精彩"的评价。

图3:同策略蒸馏示意。学生自行生成轨迹,教师对每个 token 进行评分——惩罚导致错误的步骤,强化正确的步骤。(来源:Thinking Machines Lab
图4:chess.com 的走法评级界面。分析引擎对每一步棋进行颜色标注——失误(红色)、错误(橙色)、不精确(黄色)、精彩(蓝色)。这正是 OPD 的直觉来源。(来源:chess.com,引自 Thinking Machines Lab

三种后训练方法的对比一目了然:

方法 采样策略 奖励信号
监督微调(SFT) 离线(Off-policy) 密集(Dense)
强化学习(RL) 在线(On-policy) 稀疏(Sparse)
同策略蒸馏(OPD) 在线(On-policy) 密集(Dense)

目标函数:逆 KL 散度

OPD 最常使用的损失函数是逐 token 的逆 KL 散度(Reverse KL)

$$ \text{KL}\Bigl(\pi_\theta \lvert\rvert \pi_\text{teacher}\Bigr) = \mathbb{E}_{x \sim {\pi_\theta}} \Bigl[ \log \pi_\theta(x_{t+1} | x_{1..t}) - \log \pi_\text{teacher}(x_{t+1} | x_{1..t}) \Bigr] $$

逆 KL 具有天然的**模式寻求(Mode-seeking)**特性——学生会集中学习教师最自信的行为模式,而不是试图覆盖教师的所有模式。这与 RL 的优化目标在数学上高度一致,但有一个关键优势:逆 KL 是"不可作弊的"(unhackable)——低 KL 值始终对应于教师视角下的理想行为。

这种方法还带来了显著的计算节省:由于不需要等待 rollout 完成才能计算奖励,我们可以使用更短的部分轨迹进行训练;查询教师的对数概率也只需要对大模型做一次前向传播。

教师评分的直觉

下图展示了一个真实案例。学生模型(Qwen3-4B)在一道需要物理直觉的题目上犯了错误——它忽略了"冰块在煎锅中会融化"这一关键事实,纯粹当作数学题来解答。教师模型(Qwen3-235B)对每个 token 给出的 KL 惩罚揭示了一个深刻的模式:

图5:教师模型对学生错误轨迹的逐 token 评分。颜色越深表示逆 KL 惩罚越高。注意教师主要惩罚的是引导学生走向歧途的关键分叉 token,而非最终的错误答案——因为给定前文,错误答案已完全可预测。(来源:Thinking Machines Lab

教师惩罚最重的不是最终的错误答案,而是那些导致推理偏离正轨的关键分叉 token(Forking Tokens)。最终答案虽然是错的,但给定前面整个错误的推理链,它已经完全可预测了,因此不需要额外惩罚。这与 RL 中"高熵少数 token 驱动有效学习"的发现高度吻合 [7]。

OPD 的惊人效率

数学推理:以 1/10 的成本超越 RL

Qwen3 技术报告中的实验验证了 OPD 的效率优势。以 AIME'24 数学基准测试为例:

方法 AIME'24 GPQA-Diamond GPU 小时
离线蒸馏(SFT) 55.0% 55.6% 未报告
+ 强化学习 67.6% 61.3% 17,920
+ 同策略蒸馏 74.4% 63.3% 1,800

来源:Qwen3 技术报告 [3],Table 21。

OPD 以仅 1/10 的计算成本,不仅达到了 RL 的水平,还超越了它。Thinking Machines 在 Qwen3-8B-Base 上的复现实验进一步验证了这一结论——从 400K SFT 检查点出发,OPD 仅用约 150 步(约 77K 提示词)便将 AIME'24 从 60% 提升至 70%。综合考虑 FLOPs,成本缩减达到 9-30 倍

图6:同策略蒸馏过程中 AIME'24 得分的变化。OPD 在计算效率上显著优于 SFT,尤其对 LoRA 模型效果突出——LoRA 在 SFT 后落后全参微调 13%,但 OPD 后仅落后 6%。(来源:Thinking Machines Lab

密集监督 vs 稀疏奖励:50-100 倍的效率差距

在一个更严格的对照实验中,Thinking Machines 从同一起点分别使用 RL 和 OPD 进行训练:OPD 在约 7-10 倍更少的梯度步数内达到了 RL 的性能水平。考虑到 OPD 可以使用更短的上下文长度和更小的批次,整体计算效率提升达 50-100 倍

图7:从相同初始化出发,OPD 以约 7-10 倍更少的梯度步数学习到 RL 训练出的策略,对应约 50-100 倍的计算效率提升。逆 KL 在不到 10 个梯度步内降至接近零。(来源:Thinking Machines Lab

这意味着 RL 的大部分计算实际花在了搜索上——在语义策略空间中探索和分配信用——而非参数更新本身。正如 Rich Sutton 所言:“突破性进步最终总是来自基于搜索和学习的计算扩展。” 一旦找到好的策略,蒸馏可以跳过所有中间策略,直接学习最终结果。

数据效率:单个样本也能蒸馏

一个令人惊讶的发现是 OPD 的极高数据效率。实验表明,即使只使用一个训练提示词,通过 20 轮连续的 on-policy 采样和教师评分(共 5120 条轨迹),模型也能近似达到教师的 AIME'24 水平。这是因为 OPD 优化的是完整分布的逆 KL 散度,而非简单记忆单一答案——RL 在多轮训练同一提示词时往往导致答案记忆化,OPD 则不然。

图8:在仅一个训练提示词上进行多轮训练,OPD 仍能有效蒸馏教师的性能。(来源:Thinking Machines Lab

工业级进化:多教师同策略蒸馏(MOPD)

在通用前沿模型的开发中,如何整合多个垂直领域的能力是核心挑战。传统方法面临跷跷板效应(See-saw Effect)——如果采用混合强化学习,不同领域的梯度会相互干涉;如果采用级联强化学习,模型在学习新技能时会迅速遗忘旧能力。

MOPD 的三阶段流水线

多教师同策略蒸馏(Multi-Teacher On-Policy Distillation, MOPD)提供了一种将能力整合从"权重空间"转移至"策略空间"的系统性解决方案,通常遵循三阶段流水线:

  1. 通用 SFT:建立多领域基座。
  2. 并行领域专家训练:从同一 SFT 起点分别训练数学、代码、逻辑等领域专家——称为"同源教师(Same-origin Teachers)",保证师生分布的初始一致性。
  3. MOPD 融合:学生模型自行生成轨迹,系统通过路由键(Routing Key)动态匹配对应专家教师,提供逐 token 反馈。

头部模型的 MOPD 部署

模型 核心架构创新 MOPD 机制
DeepSeek-V4 (1.6T) 流形约束超连接 (mHC),支持 1M 长上下文 以 MOPD 完全替代混合 RLHF,结合生成式奖励模型 (GRM)
MiMo-V2-Flash (309B) 混合注意力架构 (SWA+GA 6:1),15B 活跃参数 将大规模 Agentic RL 专家通过 MOPD 合并至学生模型
NVIDIA Nemotron 3 Ultra (550B) LatentMoE(Mamba-2 + MoE),55B 活跃参数 异步 MOPD 流水线,Rollout/评分/优化完全解耦

在 DeepSeek-V4 的案例中,MOPD 不仅是后训练技巧,更是支撑其在代码生成(Codeforces 匹配 3206 分)与长文档智能体推理中超越同侪的基石——模型能够学习到各个专家的真实推理分布,而非仅仅迎合传统的标量奖励。

CaMOPD:应对覆盖率缺陷

当 MOPD 应用于开源基座模型的能力恢复时,往往面临"教师对齐提示词覆盖率"不足的问题。标准 MOPD 会遭遇两种失效模式:

  • 恢复-保持对抗:试图恢复通用能力的梯度与试图保持领域行为的梯度相互抵消。
  • 弱信号扁平化:大量低需求样本稀释了高修正需求的梯度信号。

对抗感知 MOPD(CaMOPD)通过两项改进解决了这一困境:

  1. 解耦交替训练:设定非对称调度计划(如 3 个周期通用恢复 + 1 个周期领域保持),为通用能力的复苏分配专属的参数更新子空间。
  2. 差距分数驱动的动态样本选择:计算教师与学生在每个 token 上的对数概率差距,选择覆盖特定累积质量的最小前缀集合进行集中优化,极大提高了更新信号的信噪比。

自蒸馏机制(OPSD)

在追求极致算力效率的背景下,同策略自蒸馏(On-Policy Self-Distillation, OPSD)验证了一个惊人假设:前沿大模型可以通过"特权信息"扮演自身的教师

双角色实例化

同一个模型同时扮演两个角色:

  • 学生策略 $\pi_S(\cdot|x)$:仅观测问题 $x$,正常自回归探索。
  • 教师策略 $\pi_T(\cdot|x, y^\star)$:额外获得包含正确答案 $y^\star$ 的特权上下文。

以答案为锚点,模型能进行高置信度的内部推演,在学生轨迹上提供精确的概率分布。实验表明,OPSD 的 token 消耗量仅为 GRPO 等 RL 算法的 1/8。但自蒸馏对基础模型的能力门槛要求较高,通常在 4B 到 8B 及以上参数模型中才能观察到显著效果。

Thinking Machines 的工作也从另一个角度验证了自蒸馏的价值:在"个性化助手"实验中,他们使用模型的早期版本作为教师,通过 OPD 恢复微调过程中丢失的指令遵循能力。这种"使用自己去恢复自己"的范式对持续学习极具前景。

AR-OPD:化解后见之明泄漏

直接引入特权信息会引发后见之明泄漏(Hindsight Leakage)——教师获得完整解答路径后,可能忽视局部逻辑连贯性,提前释放预测最终答案的概率信号。锚定残差 OPD(Anchored Residual OPD, AR-OPD)通过将特权监督解耦为两个可控量来解决这一问题:

  • 局部锚点:使用确定性截断的部分特权上下文 $z_{part} = z_{1:\lfloor\rho L\rfloor}$(通常 $\rho = 0.5$),确保因果一致性,避免答案泄漏。
  • 受控残差:将全视角教师的边际远见作为 $\lambda$-scaled 增量注入。

这种"可达锚点 + 受控残差"的双视图机制,使后见之明泄漏概率降低 21.7%,在超过 768 token 的长序列推理中提升达 7.2 分

OPD 作为持续学习工具

Thinking Machines 的个性化助手实验揭示了 OPD 在持续学习中的独特价值。

中间训练不可避免地损害后训练行为

在 Qwen3-8B 上微调企业内部文档时,无论如何调整文档数据与对话数据的混合比例,指令遵循能力(IF-eval)都会出现退化。即使使用 LoRA 约束参数更新也无法完全避免——LoRA 学得更少,同时仍然遗忘。

图9:不同文档:对话数据比例下的微调效果。虽然混入少量对话数据可避免灾难性退化,但没有任何配比能保持原始的 IF-eval 性能。(来源:Thinking Machines Lab
图10:IF-eval 在中间训练过程中持续下降。使用线性学习率时退化最终会趋平并缓慢恢复,但性能永远无法完全恢复。(来源:Thinking Machines Lab
图11:LoRA 用于个性化中间训练时,学得更少(知识),同时仍然遗忘后训练行为。(来源:Thinking Machines Lab

OPD 几乎完全恢复丢失的能力

使用模型早期版本(Qwen3-8B)作为教师进行 OPD,可以在不丢失领域知识的情况下几乎完全恢复指令遵循能力:

模型 内部知识 QA IF-eval(对话)
Qwen3-8B(原始) 18% 85%
+ 中间训练(100% 文档) 43% 45%
+ 中间训练(70% 文档) 36% 79%
+ 中间训练(70%)+ OPD 41% 83%

本质上,语言模型本身被当作了奖励模型——高概率行为被奖励,低概率行为被抑制。这与逆强化学习(Inverse RL)有深层联系:高概率行为对应于假设的底层偏好模型中的优势奖励 [13]。

为什么即使在自身数据上 SFT 也会退化?

一个深层发现是:即使在模型自身的采样数据上进行 SFT(KL 散度在期望上为零),性能也会退化。这是因为每个有限 batch 的分布都与真实分布存在微小偏差,这些偏差会随时间累积,使得训练逐渐从 on-policy 变为 off-policy。OPD 始终保持 on-policy 且教师固定,因此能稳定收敛而非漂移。

图12:即使在 Qwen3-32B 自身的样本上进行 SFT 也会导致性能退化——有限 batch 的分布偏差随时间累积,将 on-policy 训练变为了 off-policy。OPD 不存在这个问题。(来源:Thinking Machines Lab

目标函数的创新:当逆 KL 不够用时

在标准 OPD 范式中,选择何种散度度量直接决定了模型演化的拓扑形态。

散度函数的权衡

散度函数 函数形态 $f(u)$ 核心特性 局限性
正向 KL $u \log u$ 模式覆盖(Zero-avoiding),教师权重 易在模式间隙产生幻觉
逆 KL $-\log u$ 模式寻求(Zero-forcing),学生权重 高熵区域多样性崩溃
Jensen-Shannon $u \log u - (u+1)\log\frac{u+1}{2}$ 对称有界,平滑插值 缺乏动态感知能力

EOPD:熵感知的动态散度切换

在复杂推理的关键分叉点,教师分布自然呈现高熵状态——存在多条合法推理路径。强行施加逆 KL 会导致多样性严重退化。EOPD(Entropy-Aware OPD)在实时迭代中监控教师分布的熵值:

  • 低熵节点:使用逆 KL 保持精确性。
  • 高熵节点(超过阈值 $\tau$):动态注入正向 KL 惩罚项以保持探索多样性。
$$ \mathcal{L}_t^{\text{EOPD}} = \mathcal{D}_{\text{KL}}(\pi_\theta || \pi_{\text{te}}) + \alpha_t \mathcal{D}_{\text{KL}}(\pi_{\text{te}} || \pi_\theta) $$

在 Qwen3 系列模型验证中,EOPD 为 0.6B、1.7B 和 4B 模型的 Pass@8 准确率分别带来了 +1.37、+2.39 和 +5.05 的显著增益。

SEAD:胜任力感知的三区域退火

SEAD(Competence-Aware OPD)通过计算教师与学生的联合熵,将所有 token 划分为三个区域:

  • Zone A(零梯度区,约占 50%):师生双方都极度自信,直接跳过梯度计算——这一机制本身就能节省约一半的计算量。
  • Zone B(逆 KL 区):教师自信但学生迷茫,使用逆 KL 快速锐化。
  • Zone C(混合退火区):教师处于不确定状态,通过余弦退火策略使 $\alpha$ 从 0.8 平滑过渡至 0——从早期的"全域探索"无缝转变为后期的"局部打磨"。

前沿理论与多模态突破

REOPOLD:OPD 与策略优化的等价性

REOPOLD 通过引入 Stop-Gradient 操作,在理论上证明了 OPD 等价于一种以教师-学生对数似然比为 token 级奖励信号的 RL 过程:

$$ r_t = \log \frac{\pi^*(a_t|s_t)}{\pi_{\text{ref}}(a_t|s_t)} $$

这一视角深刻揭示了 OPD 在高容量蒸馏中容易崩溃的原因——极端的长尾负向对数似然比会摧毁原本可行的替代逻辑链。REOPOLD 通过混合分布奖励裁剪和基于熵的动态 token 层级采样,实现了 6.7-12 倍的样本效率提升,甚至使 7B 学生模型在 Test-time Scaling 能力上逼近 32B 教师。

EffOPD:参数几何的远见

EffOPD 发现 OPD 表现出独特的"非主导几何更新"——在前 10% 的训练进程中就能识别出对推理起决定性作用的网络层,且低秩主导子空间在极早期便与最终优化方向锁定。基于这种"几何远见",EffOPD 沿累积更新方向 $\Delta_n = W_{2^n} - W_{2^{n-1}}$ 进行线性外推,生成候选参数并通过 50 样本验证集快速筛选。这种纯参数空间几何操作在 1.5B 至 32B 模型中实现了平均 3 倍的训练加速,无需引入任何额外训练模块。

Vision-OPD:内化视觉缩放机制

多模态模型常面临"局部到全局的感知鸿沟"——将关键证据区域裁剪后模型能正确作答,但面对完整图像时注意力失焦。Vision-OPD 在同一模型内构建了两个策略实体:

  1. 局部条件教师:仅接收关键证据的裁剪图像作为特权输入。
  2. 全局条件学生:读取全景图像,模拟真实推理环境。

通过 OPD 迫使学生在全局像素中演化出"显微聚焦"的隐式注意力机制。仅凭 6.2K 条合成数据,4B 和 9B 模型便在 V* Bench、ZoomBench 等高分辨率测试中全面超越了参数远大于己的开源及闭源视觉大模型。

Uni-OPD:大一统框架

Uni-OPD 揭示了决定 OPD 成功与否的两个底层瓶颈,并提出了系统的双视角优化方案:

  1. 学生视角——数据探索均衡:离线难度感知重采样 + 在线正确性感知均衡,强制每个 batch 内成功/失败轨迹对半,确保梯度中始终存在强烈的正负对比信号。
  2. 教师视角——结果引导边距校准:将环境反馈(Outcome Reward)作为绝对锚点,反向校准教师在每个 token 上的概率边距,恢复正确与错误轨迹的正确排序。

该框架在涵盖单/多教师、强到弱、跨模态等 16 个基准上均展现出卓越泛化能力。

总结与展望

同策略蒸馏代表了后训练范式的一次深刻重构。它将 RL 的分布对齐优势与蒸馏的密集监督优势完美融合,在实践中展现出 10-100 倍的计算效率提升。

Thinking Machines 的基础验证到 DeepSeek-V4、MiMo-V2-Flash 的工业级部署,OPD 已从学术概念演进为构建下一代前沿模型的核心技术。展望未来,几个方向值得关注:

  • 自蒸馏的极限:多大的模型才能有效地"自教自学"?
  • 持续学习:OPD 的交替训练范式能否成为模型持续进化的标准方案?
  • 多模态融合:Vision-OPD 的成功能否推广到音频、视频等更多模态?
  • 几何加速:EffOPD 的参数外推能否与更复杂的多智能体环境结合?

正如 Thinking Machines 所总结的:后训练是达到前沿模型能力的关键环节。通过将学生的 on-policy 采样与教师的密集监督相结合,OPD 以远低于传统 RL 的成本达到了前沿性能。

Citation

Mi Yan (密言), “On-Policy Distillation: 重塑大模型后训练的新范式”, M1YAN’s Blog, Jul 2026. https://m1yan.github.io/posts/on_policy_distillation/

References

[1] Agarwal et al. “On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes.” 2023.

[2] Gu et al. “MiniLLM: Knowledge Distillation of Large Language Models.” 2023.

[3] Qwen Team. “Qwen3 Technical Report.” 2025.

[4] Ross et al. “A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning” (DAGGER). 2010.

[5] Lightman et al. “Let’s Verify Step by Step.” 2023.

[6] Gudibande et al. “The False Promise of Imitating Proprietary LLMs.” 2023.

[7] Wang et al. “Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning.” 2025.

[8] Rafailov et al. “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” 2023.

[9] Chen et al. “Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting.” 2025.

[10] Shenfeld et al. “RL’s Razor: Why Online Reinforcement Learning Forgets Less.” 2025.

[11] Biderman et al. “LoRA Learns Less and Forgets Less.” 2024.

[12] Hu et al. “LoRA: Low-Rank Adaptation of Large Language Models.” 2021.

[13] Ng and Russell. “Algorithms for Inverse Reinforcement Learning.” ICML 2000.

[14] Kevin Lu and Thinking Machines Lab. “On-Policy Distillation.” Thinking Machines Lab: Connectionism, Oct 2025.