欧洲杯体育模子给出的中间谜底失实-开云 (集团) 官方网站 Kaiyun- 登录入口

发布日期:2026-06-12 08:56    点击次数:110

欧洲杯体育模子给出的中间谜底失实-开云 (集团) 官方网站 Kaiyun- 登录入口

AI 恢复问题太慢太长且无谓,有莫得能让大模子提前住手念念考的法子?

华为提议了首个在 Qwen3 上还有用的高效推理法子——S-GRPO,防碍了念念维链「冗余念念考」瓶颈。

通过  "串行分组 + 衰减奖励"  的假想,在保证推理准确性的前提下,让模子学会提前阻隔念念考,推理提速 60%,生成更精准有用的谜底。

S-GRPO 相宜营为刻下 Post Training(测验后优化)范式中的终末一步,在确保模子事先存在的推理身手不受毁伤的情况下,使能模子在念念维链的早期阶段即可生成质料更高的推理旅途,并在念念考充分后隐式地提前退出。

OpenAI o1, Deepseek-R1 等推理模子依赖 Test-Time Scaling law 处治复杂的任务。

关系词,过长的念念维链序列的生成也显赫加多了盘算负载和推理蔓延,这提高了这些模子在骨子应用中的部署门槛,且引入了好多冗余的念念考。

S-GRPO 的全称为序列分组衰减奖励计策优化(Serial-Group Decaying-Reward  Policy  Optimization),旨在进步大讲话模子(LLM)的推理后果和准确性,处治冗余念念考问题。

核热枕念

传统的推理优化法子,如 GRPO(Group Reward Policy Optimization),招揽并行生成多条好意思满推理旅途的形貌(如下图左侧所示),并通过 0/1 奖励机制对每条旅途的最终谜底进行评价。

关系词,这种法子未能充分哄骗推理经过中的中间信息,也未能有用进步推理后果。

S-GRPO 的改动之处在于引入了"早退推理"的主张(如上图右侧所示)。

它通过对单条好意思满推理旅途进行分段截断,生成多个"早退推理"分支(Serial Group),并通过一种指数衰减的奖励机制对这些分支的谜底进行评价。

具体来说:

早退推理旅途(Serial Group)

模子在推理经过中,不错在职意中间法子住手推理并径直生成谜底。这些不同位置的早退旅途被用于测验模子,以评估在不同推理深度下的推理质料。

衰减奖励计策(Decaying Reward Strategy)

关于每个早退旅途,若是谜底正确,则把柄其推理深度分派奖励,越早退出推理的正确谜底,奖励越高(举例,奖励值按照  

的轨则递减);若是谜底失实,则奖励为 0。这种机制不仅饱读吹模子尽早得出正确谜底,还确保了推理的准确性。

法子

S-GRPO 的测验框架分为三个主要阶段,如下图所示:

好意思满推理张开(Full Thought Rollout)

模子最初生成一条好意思满的推理旅途(

),即从运袭击念考法子(

)到最终的推理竣事符号(

) 和谜底()。这一阶段为后续的早退旅途生成提供了基础。

早退推理张开(Early-exit Thought Rollout)

在好意思满推理旅途的基础上,模子通过立时截断生成多个早退旅途(

)。

每条早退旅途在截断点插入教唆语" Time is limited, stop thinking and start answering. nnn ",明确率领模子住手推理并生成谜底(

)。

这些早退旅途变成了一个"序列分组"(Serial Group),用于测验模子在不同推理深度下着实认。

奖励盘算与参数更新(Reward Computation and Parameter Update)

关于每条早退旅途,模子把柄衰减奖励计策盘算奖励值(),并进一步盘算上风值(

)。

这些上风值用于优化模子参数,最终使模子学会在合适的时机住手推理并生成高质料谜底。

下图直不雅地展现了 S-GRPO 在测验经过中如何采样在不同位置提前退出的 completions 以及赋予奖励。

关于第一个退出的位置,模子给出的中间谜底失实,则将奖励置为 0。

关于后续给出正确谜底的提前退出,则基于退出位置赋予衰减的正向奖励值,越早退出收益越高,从而饱读吹模子探索爽朗且正确的念念考。

现实收尾

为了考证 S-GRPO 着实认,作家在 5 个挑战性的推理 benchmark 上进行了测评,其中包含 4 个数学推理任务(GSM8K、MATH-500、AMC 2023、AIME 2024)、1 个科学推理任务(GPQA Diamond)。

评估办法采选准确率和生成 token 数目两维度评测。现实采选了 R1-Distill-Qwen 系列模子(7B,14B)和 Qwen3 系列模子(8B, 14B)。

现实收尾标明 S-GRPO 显赫地进步了现存的 baseline。

相较于 vanilla 的推理模子,S-GRPO 平均提高了 0.72 到 6.08 个点准确率的同期贬低了 35.4% 到 61.1% 的生成长度。

S-GRPO 在测验集域内(In Domain)的数学推理 benchmark 上(GSM8K、MATH-500、AMC 2023、AIME 2024)和测验集域外(Out of Domain)的科学推理题目上(GPQA Diamond)齐获取了显赫的进步,充分显露注解了该法子的有用性和鲁棒性。

比拟于刻下其它 SOTA 高效推理法子,S-GRPO 最佳的兼顾了正确性和后果。

比拟于 DEER,S-GRPO 在袭击问题与浅易问题上齐能有用贬低念念考长度并守护精准度。

比拟于原始 GRPO,S-GRPO 显赫贬低了推理长度的同期有着临近的准确率。

而与其它的高效推理测验法子比拟,S-GRPO 保捏住了准确率,而它们均对恢复的准确温暖能有毁伤。

现实还探究了 S-GRPO 在不同生成长度预算下的性能。

通过竣事推理时的生成长度预算由短到长,比较 S-GRPO 与 vaniila CoT 在 GSM8K 和 AIME 2024 上准确率与骨子生成长度的变化。

下图中的现实收尾展现出在不同的预算下,S-GRPO 齐比 vaniila CoT 的准确率高且生成长度更短。

此外,现实还标明,在长度预算少的情况下,S-GRPO 比拟 vaniila CoT 的准确率增益更显赫,骨子生成长度临近;在长度预算高的情况下,S-GRPO 比拟 vaniila CoT 的骨子生成长度更短,准确率略高。

S-GRPO 比拟 vaniila CoT 的两个变化趋势齐更纯粹。这标明 S-GRPO 只需要较低的长度预算就不错达到较高的准确率,反应出 S-GRPO 不错生成爽朗且正确的念念考旅途。

为了考证 S-GRPO 中每个假想的有用性,现实确立了三个不同的消融现实。

下表的现实收尾标明仅保留 two-time rollouts 中采样的最短且正确的 completion 着实立天然进一步裁汰了推理长度,然而会毁伤模子的推理正确性。

消去对短输出提供高薪金的假想,即通盘对正确的采样收尾齐给以高薪金,会导致模子推理依旧冗长,这是由于更长的推理更容易取得正确的收尾,模子会拘谨到探索长序列推理的标的。

移撤退 Serial-Group Generation 的假想后,S-GRPO 退化成 GRPO,模子在准确率和推理长度上取得了与 w/o. Decaying(All 1)临近着实认,这显露当作 S-GRPO 中不成或缺的一环,Serial-Group Generation 的假想自身不会毁伤模子在 RL 中的探索身手。

上图中对比了 S-GRPO 与 vanilla 推理经过以及研讨 thinking budget 下硬截断迫使模子给出论断的输出内容对比。

尽管雷同给出了正确的谜底,S-GRPO 仅使用了一半不到的念念考 budget,显露注解了 S-GRPO 有用处治了 overthinking 问题。

假如径直对原始推理内容在研讨 thinking budget 处截断,模子无法基于已有的念念考内容得到正确的论断,这显露 S-GRPO 更精准地定位到了准确的解题念念路。

这么就有用地匡助模子向爽朗且正确的念念考旅途拘谨,幸免了关于每个解题旅途浅尝辄止的 underthinking 问题。

感兴致的一又友可到原文检察更多细节。

论文标题:S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models

论文并吞:https://arxiv.org/abs/2505.07686

一键三连「点赞」「转发」「堤防心」

宽宥在批驳区留住你的想法!

—  完  —

� � 点亮星标 � �

科技前沿进展逐日见欧洲杯体育