欧洲杯体育模子给出的中间谜底失实-开云 (集团) 官方网站 Kaiyun- 登录入口

发布日期：2026-06-12 08:56 点击次数：120

AI 恢复问题太慢太长且无谓，有莫得能让大模子提前住手念念考的法子？

华为提议了首个在 Qwen3 上还有用的高效推理法子——S-GRPO，防碍了念念维链「冗余念念考」瓶颈。

通过 "串行分组 + 衰减奖励" 的假想，在保证推理准确性的前提下，让模子学会提前阻隔念念考，推理提速 60%，生成更精准有用的谜底。

S-GRPO 相宜营为刻下 Post Training（测验后优化）范式中的终末一步，在确保模子事先存在的推理身手不受毁伤的情况下，使能模子在念念维链的早期阶段即可生成质料更高的推理旅途，并在念念考充分后隐式地提前退出。

OpenAI o1, Deepseek-R1 等推理模子依赖 Test-Time Scaling law 处治复杂的任务。

关系词，过长的念念维链序列的生成也显赫加多了盘算负载和推理蔓延，这提高了这些模子在骨子应用中的部署门槛，且引入了好多冗余的念念考。

S-GRPO 的全称为序列分组衰减奖励计策优化（Serial-Group Decaying-Reward Policy Optimization），旨在进步大讲话模子（LLM）的推理后果和准确性，处治冗余念念考问题。

核热枕念

传统的推理优化法子，如 GRPO（Group Reward Policy Optimization），招揽并行生成多条好意思满推理旅途的形貌（如下图左侧所示），并通过 0/1 奖励机制对每条旅途的最终谜底进行评价。

关系词，这种法子未能充分哄骗推理经过中的中间信息，也未能有用进步推理后果。

S-GRPO 的改动之处在于引入了"早退推理"的主张（如上图右侧所示）。

它通过对单条好意思满推理旅途进行分段截断，生成多个"早退推理"分支（Serial Group），并通过一种指数衰减的奖励机制对这些分支的谜底进行评价。

具体来说：

早退推理旅途（Serial Group）

模子在推理经过中，不错在职意中间法子住手推理并径直生成谜底。这些不同位置的早退旅途被用于测验模子，以评估在不同推理深度下的推理质料。

衰减奖励计策（Decaying Reward Strategy）

关于每个早退旅途，若是谜底正确，则把柄其推理深度分派奖励，越早退出推理的正确谜底，奖励越高（举例，奖励值按照

的轨则递减）；若是谜底失实，则奖励为 0。这种机制不仅饱读吹模子尽早得出正确谜底，还确保了推理的准确性。

法子

S-GRPO 的测验框架分为三个主要阶段，如下图所示：

好意思满推理张开（Full Thought Rollout）

模子最初生成一条好意思满的推理旅途（

），即从运袭击念考法子（

）到最终的推理竣事符号（

）和谜底（）。这一阶段为后续的早退旅途生成提供了基础。

早退推理张开（Early-exit Thought Rollout）

在好意思满推理旅途的基础上，模子通过立时截断生成多个早退旅途（

）。

每条早退旅途在截断点插入教唆语" Time is limited, stop thinking and start answering. nnn "，明确率领模子住手推理并生成谜底（

）。

这些早退旅途变成了一个"序列分组"（Serial Group），用于测验模子在不同推理深度下着实认。

奖励盘算与参数更新（Reward Computation and Parameter Update）

关于每条早退旅途，模子把柄衰减奖励计策盘算奖励值（），并进一步盘算上风值（

）。

这些上风值用于优化模子参数，最终使模子学会在合适的时机住手推理并生成高质料谜底。

下图直不雅地展现了 S-GRPO 在测验经过中如何采样在不同位置提前退出的 completions 以及赋予奖励。

关于第一个退出的位置，模子给出的中间谜底失实，则将奖励置为 0。

关于后续给出正确谜底的提前退出，则基于退出位置赋予衰减的正向奖励值，越早退出收益越高，从而饱读吹模子探索爽朗且正确的念念考。

现实收尾

为了考证 S-GRPO 着实认，作家在 5 个挑战性的推理 benchmark 上进行了测评，其中包含 4 个数学推理任务（GSM8K、MATH-500、AMC 2023、AIME 2024）、1 个科学推理任务（GPQA Diamond）。

评估办法采选准确率和生成 token 数目两维度评测。现实采选了 R1-Distill-Qwen 系列模子（7B,14B）和 Qwen3 系列模子（8B, 14B）。

现实收尾标明 S-GRPO 显赫地进步了现存的 baseline。

相较于 vanilla 的推理模子，S-GRPO 平均提高了 0.72 到 6.08 个点准确率的同期贬低了 35.4% 到 61.1% 的生成长度。

S-GRPO 在测验集域内（In Domain）的数学推理 benchmark 上（GSM8K、MATH-500、AMC 2023、AIME 2024）和测验集域外（Out of Domain）的科学推理题目上（GPQA Diamond）齐获取了显赫的进步，充分显露注解了该法子的有用性和鲁棒性。

比拟于刻下其它 SOTA 高效推理法子，S-GRPO 最佳的兼顾了正确性和后果。

比拟于 DEER，S-GRPO 在袭击问题与浅易问题上齐能有用贬低念念考长度并守护精准度。

比拟于原始 GRPO，S-GRPO 显赫贬低了推理长度的同期有着临近的准确率。

而与其它的高效推理测验法子比拟，S-GRPO 保捏住了准确率，而它们均对恢复的准确温暖能有毁伤。

现实还探究了 S-GRPO 在不同生成长度预算下的性能。

通过竣事推理时的生成长度预算由短到长，比较 S-GRPO 与 vaniila CoT 在 GSM8K 和 AIME 2024 上准确率与骨子生成长度的变化。

下图中的现实收尾展现出在不同的预算下，S-GRPO 齐比 vaniila CoT 的准确率高且生成长度更短。

此外，现实还标明，在长度预算少的情况下，S-GRPO 比拟 vaniila CoT 的准确率增益更显赫，骨子生成长度临近；在长度预算高的情况下，S-GRPO 比拟 vaniila CoT 的骨子生成长度更短，准确率略高。

S-GRPO 比拟 vaniila CoT 的两个变化趋势齐更纯粹。这标明 S-GRPO 只需要较低的长度预算就不错达到较高的准确率，反应出 S-GRPO 不错生成爽朗且正确的念念考旅途。

为了考证 S-GRPO 中每个假想的有用性，现实确立了三个不同的消融现实。

下表的现实收尾标明仅保留 two-time rollouts 中采样的最短且正确的 completion 着实立天然进一步裁汰了推理长度，然而会毁伤模子的推理正确性。

消去对短输出提供高薪金的假想，即通盘对正确的采样收尾齐给以高薪金，会导致模子推理依旧冗长，这是由于更长的推理更容易取得正确的收尾，模子会拘谨到探索长序列推理的标的。

移撤退 Serial-Group Generation 的假想后，S-GRPO 退化成 GRPO，模子在准确率和推理长度上取得了与 w/o. Decaying（All 1）临近着实认，这显露当作 S-GRPO 中不成或缺的一环，Serial-Group Generation 的假想自身不会毁伤模子在 RL 中的探索身手。