DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布

DeepSeek R2,果然近了。

最近,DeepSeek和清华的研究者发表的这篇论文,探讨了奖励模型的推理时Scaling方法。

论文地址:

https://arxiv.org/abs/2504.02495

现在,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。

通过RL激励LLMs的推理能力表明,采用合适的学习方法,就有望实现有效的推理时可扩展性。

然而,RL面临的一个关键挑战,就是在可验证问题或人工规则之外的多种领域中,为LLMs获得准确的奖励信号。

是否有可能通过增加推理计算资源,来提升通用查询场景下奖励建模(RM)的能力,即通用RM在推理阶段的可扩展性呢?

DeepSeek和清华的研究者发现,在RM方法上采用点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),就能提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。

为此,他们提出一种自我原则点评调优(Self-Principled Critique Tuning, SPCT)的学习方法。

通过在线RL训练促进GRM生成具备可扩展奖励能力的行为,即能够自适应生成评判原则并准确生成点评内容,从而得到DeepSeek-GRM模型

他们提出了DeepSeek-GRM-27B,它是基于Gemma-2-27B经过SPCT后训练的。

可以发现,SPCT显著提高了GRM的质量和可扩展性,在多个综合RM基准测试中优于现有方法和模型。

研究者还比较了DeepSeek-GRM-27B与671B的更大模型的推理时间扩展性能,发现它在模型大小上的训练时间扩展性能更好。

另外,他们还引入一个元奖励模型(meta RM)来引导投票过程,以提升扩展性能。

总体来说,研究者的三个贡献如下。

1.提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型(meta RM),进一步提升推理扩展性能。

2.SPCT显著提升了GRM在奖励质量和推理扩展性能方面的表现,超过了现有方法及多个强劲的公开模型。

3.将SPCT的训练流程应用于更大规模的LLM,并发现相比于训练阶段扩大模型参数量,推理阶段的扩展策略在性能上更具优势。

SPCT

受到初步实验结果的启发,研究者为点式生成式奖励模型(pointwise GRM)开发了一种新颖的方法,使其能够学习生成具有适应性和高质量的原则,以有效指导点评内容的生成。

这一方法被称为自我原则点评调优(Self-Principled Critique Tuning,SPCT)

如图3所示,SPCT包括两个阶段。

1.拒绝式微调(rejective fine-tuning)作为冷启动阶段

2.基于规则的在线强化学习(rule-based online RL),通过提升生成的原则和点评内容来强化通用奖励的生成过程。

另外,SPCT还可以促进GRM在推理阶段的可扩展行为。

将「原则」从理解转向生成

研究者发现,适当的原则可以在一定标准下引导奖励生成,这对于生成高质量奖励至关重要。

然而,在大规模通用奖励建模中,如何有效生成这些原则仍是一个挑战。

为此,他们提出将「原则」从一种理解过程解耦出来,转变为奖励生成的一部分,也就是说,不再将原则视为预处理步骤,而是纳入奖励生成流程中。

形式化地说,当原则是预定义时,原则可用于引导奖励生成。

研究者让GRM自行生成原则,并基于这些原则生成点评内容,形式化表达如下:

其中,p_θ是用于生成原则的函数,由参数θ表示,且与奖励生成函数r_θ共享同一个模型架构。

这一转变使原则能够根据输入问题及其回答内容进行动态生成,从而使奖励生成过程更加自适应。

此外,通过对GRM进行后训练,可进一步提升所生成原则与对应点评内容的质量与细致程度。

当GRM能够在大规模条件下生成多样化、高质量的原则时,其输出的奖励将更加合理且具备更高的细粒度,而这一能力正是推理阶段可扩展性的关键所在。

基于规则的强化学习

为了同时优化GRM中的原则点评内容的生成,研究者提出了SPCT方法,它结合了拒绝式微调(rejective fine-tuning)与基于规则的强化学习(rule-based RL)

其中,拒绝式微调作为冷启动阶段。

拒绝式微调(Rejective Fine-Tuning,冷启动)

这一阶段的核心思想是让GRM适应不同输入类型,并以正确的格式生成原则与点评内容。

与以往工作混合使用单个、成对和多个回答的RM数据并使用不同格式不同,研究者采用了点式GRM(pointwise GRM),以在相同格式下灵活地对任意数量的回答进行奖励生成。

在数据构建方面,除了通用指令数据外,研究者还从具有不同回答数量的RM数据中采样预训练GRM在给定查询与回答下的轨迹。

对于每个查询及其对应的回答,研究者执行了N_RFT次采样

他们统一了拒绝策略:若模型预测的奖励与真实奖励不一致(错误),或该组查询与回答在所有N_RFT次采样中全部预测正确(太简单),则拒绝该轨迹。

形式化地,令r_i表示第i个回答y_i对查询x的真实奖励,预测得到的点式奖励

被认为是正确的,当且仅当:

该条件保证真实奖励中只有一个最大值。

然而,正如以往研究所指出的,预训练的GRM在有限采样次数下,往往难以为部分查询及其回答生成正确的奖励。

因此,研究者引入了提示式采样(hinted sampling):将

作为提示,附加到GRM的提示语中,以期提高预测奖励与真实奖励的一致性。

可以发现,与之前的研究不同,提示采样的轨迹在某些情况下会捷径式简化点评生成,特别是在推理任务中。

这表明:在线强化学习对于GRM仍是必要的,并具有潜在优势。

基于规则的强化学习

在SPCT的第二阶段,研究者使用基于规则的在线强化学习对GRM进一步微调。

具体而言,我们采用了GRPO的原始设定,并使用基于规则的结果奖励(rule-based outcome rewards)

在rollout过程中,GRM根据输入查询与回答生成原则与点评,然后提取预测奖励并通过准确性规则与真实奖励进行对比。

与DeepSeek-AI不同的是,研究者不再使用格式奖励,而是采用更高的KL惩罚系数,以确保输出格式正确并避免产生严重偏差。

形式化地,对于第i个输出o_i(给定查询x和回答

),其奖励定义为

其中,点式奖励

是从o_i中提取的。

该奖励函数鼓励GRM通过在线优化生成的原则与点评内容,正确地区分最优回答,从而提升推理阶段的可扩展性

此外,这种奖励信号可无缝对接任何偏好数据集与标注的LLM回答。

SPCT的推理时Scaling

为了进一步提升DeepSeek-GRM在生成通用奖励上的性能,研究团队探索了如何利用更多的推理计算,通过基于采样的策略来实现有效的推理时扩展。

通过生成奖励进行投票

逐点GRM(pointwise GRMs)投票过程被定义为将奖励求和:

因为S_(i,j)通常被设定在一个小的离散范围内(比如{1,…,10}),所以投票过程实际上将奖励空间扩大了k倍,让GRM能生成大量原则(principles),从而提升最终奖励的质量和细腻度。

直观来说,如果把每个原则看作一种判断视角的代表,那么更多的原则就能更准确地反映真实分布,从而带来扩展的有效性。

值得一提的是,为了避免位置偏差并增加多样性,研究人员在采样前会对回答进行随机打乱。

元奖励模型引导投票

DeepSeek-GRM的投票过程需要多次采样,但由于随机性或模型本身的局限性,生成的某些原则和评论可能会出现偏见或者质量不高。

因此,研究团队训练了一个元奖励模型(meta RM)来引导投票过程。

这个meta RM是一个逐点标量模型,训练目标是判断DeepSeek-GRM生成的原则和评论是否正确。

引导投票的实现很简单:meta RM为k个采样奖励输出元奖励(meta rewards),然后从这些奖励中选出前k_meta(k_meta ≤ k)个高质量的奖励进行最终投票,从而过滤掉低质量样本。

奖励模型结果

不同方法和模型在RM基准测试上的总体结果如表2所示。

结果显示,DeepSeek-GRM-27B在整体性能上超过了基线方法,并且与一些强大的公开RM(如Nemotron-4-340B-Reward和GPT-4o)表现相当。

如果通过推理时扩展(inference-time scaling),DeepSeek-GRM-27B还能进一步提升,达到最佳整体结果。

不同方法和模型在RM基准测试上的总体结果。下划线数字表示最佳性能,粗体数字表示基线方法和本文方法中的最佳性能,斜体字表示标量或半标量RM。对于meta RM指导的投票,k_meta = 1/2k

推理时扩展性

不同方法的推理时扩展结果如表3所示,整体趋势见图1。

研究人员发现,在最多8个样本的情况下,DeepSeek-GRM-27B的性能提升最高,超越了贪婪解码和采样结果。

随着推理计算量增加(最多32个样本),DeepSeek-GRM-27B展现出进一步提升性能的潜力。meta RM也在每个基准测试中证明了其过滤低质量轨迹的有效性。

总之,SPCT提升了GRM的推理时扩展性,而meta RM进一步增强了整体扩展性能。

消融研究

表4展示了所提SPCT不同组件的消融研究结果。

令人惊讶的是,即使没有使用拒绝采样的评论数据进行冷启动,经过在线强化学习(online RL)后,通用指令调整的GRM仍然显著提升(66.1 → 68.7)。

此外,非提示采样似乎比提示采样更重要,可能是因为提示采样轨迹中出现了捷径。这表明在线训练对GRM的重要性。

与之前研究一致,研究团队确认通用指令数据对GRM性能至关重要。他们发现,原则生成对DeepSeek-GRM-27B的贪婪解码和推理时扩展性能都至关重要。

在推理时扩展中,meta RM指导的投票在不同k_meta下表现出鲁棒性。

推理与训练成本扩展

研究团队进一步研究了DeepSeek-GRM-27B在不同规模LLM后训练下的推理时和训练时扩展性能。

模型在Reward Bench上测试,结果如图4所示。

他们发现,使用32个样本直接投票的DeepSeek-GRM-27B可以达到与671B MoE模型相当的性能,而meta RM指导的投票仅用8个样本就能取得最佳结果,证明了DeepSeek-GRM-27B在推理时扩展上的有效性,优于单纯扩大模型规模。

此外,他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236B MoE RFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。

编辑:Aeneas 犀牛 

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak
xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn