微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Time-R1: 让3B小模型也能拥有全面时间推理能力,击败671B大模型

Time-R1: 让3B小模型也能拥有全面时间推理能力,击败671B大模型

2025-05-29 10:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 10:24 科技行者

这项由伊利诺伊大学香槟分校西贝尔计算与数据科学学院的Zijia Liu、Peixuan Han、Haofei Yu、Haoru Li和Jiaxuan You团队开发的研究发表于2025年5月的arXiv预印本(arXiv:2505.13508v1),为大语言模型的时间推理能力带来了突破性进展。有兴趣深入了解的读者可以通过https://github.com/ulab-uiuc/Time-R1访问完整代码、数据集和模型检查点。

现在,让我们设想一个场景:你有一个智能助手,你问它"日本的通货膨胀率和经济增长疲软可能会在什么时候出现?"普通AI可能会含糊其辞或给出错误信息,但经过Time-R1训练的模型能够思考:"这篇文章关于日本的通货膨胀,很可能指的是2024年。通常,完整的年度经济报告会在次年的前几个月发布。"然后自信地回答:"2025年2月"。更令人惊讶的是,如果你要求它预测2024年8月的商业新闻,它能创造出"股市创新高,经济保持强劲"的标题,这与实际发布的"股市创新高,强劲业绩和通胀担忧缓解"非常接近。

大语言模型(LLMs)在许多任务上表现出色,但它们在时间推理方面一直存在明显短板。即使是最先进的模型也难以将过去的时间理解与未来的预测和合理的创造性生成整合起来。现有的研究通常只针对单一的时间能力,如回答过去事件的问题或基本预测,而且泛化能力差,特别是在处理知识截止日期之后的事件或需要创造性预见时。

针对这些限制,伊利诺伊大学的研究团队开发了Time-R1,这是第一个为中等规模(3B参数)的语言模型赋予全面时间能力的框架,包括理解、预测和创造性生成。想象一下,这就像是教会一个普通人不仅能记住历史日期,还能合理预测未来事件并创造出可信的未来场景故事。

研究团队的方法特别创新,他们设计了一个新颖的三阶段开发路径。想象你在教一个孩子理解时间:首先教他理解"昨天"、"今天"和"明天"的概念,然后教他预测接下来会发生什么,最后让他能够想象和创造出合理的未来情景。Time-R1的训练也遵循类似的逻辑进阶过程。

第一和第二阶段构成了一个强化学习(RL)课程,由精心设计的动态规则奖励系统驱动。这个框架逐步建立:(1)从历史数据中培养基础时间理解和逻辑事件-时间映射,就像教孩子理解日历和历史事件的关系;(2)为超出其知识截止日期的事件开发未来事件预测技能,类似于教会孩子根据历史模式预测未来;最后(3)在没有任何微调的情况下,让模型具备创造性未来场景生成的能力,就像一个成熟的讲故事者能够创造出合理且有趣的未来故事。

令人惊讶的是,实验表明Time-R1在高度挑战性的未来事件预测和创造性场景生成基准测试中,性能超过了参数量大200多倍的模型,包括目前最先进的671B参数DeepSeek-R1。这就像一个普通人在预测和讲述未来故事方面超过了一个拥有庞大知识库的专家团队!

这项研究强有力地证明,精心设计的渐进式强化学习微调可以让更小、更高效的模型实现卓越的时间推理性能,为真正具有时间感知能力的AI提供了一条实用且可扩展的路径。为了促进进一步研究,研究团队还发布了Time-Bench,这是一个从10年新闻数据中提取的大规模多任务时间推理数据集,以及一系列Time-R1模型检查点。

一、研究背景与挑战

想象一下时间是一条河流,普通人可以自然地在这条河流上航行——记住过去发生的事情,理解当前发生的事件,并合理地预测未来可能发生什么。但对大语言模型来说,这条河流却被切割成了孤立的片段,难以形成连贯的时间认知。

大语言模型在很多领域都取得了令人瞩目的成功,包括语言理解、生成,甚至一些复杂的推理任务。然而,它们的时间推理能力却一直是个顽固的短板。时间推理能力包含几个关键方面:准确解释现有知识库中的时间关系(如推断事件时间、时间差异、事件顺序和完成时间实体);基于学习到的模式预测未来事件的时间;以及创造性地生成锚定在时间中的合理未来事件。

研究表明,大多数大语言模型在时间约束下难以更新或语境化知识;甚至前沿模型在需要整合新时间信息的任务中,表现也不如一些较小的模型。这表明当前大语言模型在把握时间方面存在系统性弱点。

这种弱点源于多种因素:架构限制,如缺乏时间的显式模块表示;训练语料库的静态性质,这不可避免地会过时;以及非时序的训练过程,不同时期的时间信息是同时处理而非顺序处理的,这阻碍了事件与其对应时间之间稳健逻辑映射的发展。

现有研究虽然试图增强时间推理能力——例如,有研究将语言模型知识与目标时间对齐,提高时间一致性,或专注于未来事件预测,还有一些研究探索表示方法——但这些工作通常只针对孤立的技能。它们通常无法赋予语言模型统一的、全面的时间智能,包括过去理解、未来预测和创造性的、锚定时间的生成,特别是对于超出其知识截止日期的事件。

简单来说,现有的大语言模型就像是一个记忆力很好但缺乏时间感的人——能回忆已知事实,但难以理解事件的时间顺序,更不用说预测未来或创造合理的未来场景了。

二、Time-R1的创新框架

面对这一挑战,伊利诺伊大学的研究团队开发了一个全新的三阶段强化学习框架,就像是给大语言模型提供了一个全面的"时间课程"。想象一下,这就像教一个孩子从认识日历,到理解历史事件顺序,再到能够预测和想象未来可能发生的事情。

该框架以Qwen2.5-3B-Instruct模型为基础,这是一个相对较小的3B参数模型。之所以选择中等规模的模型,是因为它更容易快速适应和微调,而且成本效益高——想象一下用小型轿车而非大型卡车完成同样的任务,既省油又灵活。

研究团队使用了一种叫做群组相对策略优化(GRPO)的强化学习算法。这就像是教练根据运动员在团队中的相对表现给予反馈,而不是单纯根据绝对分数。通过比较同一提示下不同生成输出的表现,模型能更稳定、更有效地学习。

这个三阶段框架的设计巧妙地模拟了人类学习时间概念的过程:

**第一阶段:理解(Comprehension)**

在这个阶段,模型就像是一个学习历史的学生,通过强化学习微调在四个基础时间任务上建立坚实的时间理解基础:

1. 时间戳推断:根据事件描述推断特定日期(例如2023-12) 2. 时间差估计:估计两个描述事件之间的时间间隔(例如14个月) 3. 事件排序:确定三个事件的正确时间顺序 4. 掩码时间实体完成:在给定事件描述中填充被掩盖的时间表达式

这些任务使用2016年至2023年的纽约时报新闻文章作为训练数据,这些数据都在模型的知识截止日期之前。通过这个阶段的训练,模型建立了强大的事件-时间映射逻辑,就像是学会了阅读和理解时间线。

**第二阶段:预测(Prediction)**

有了第一阶段建立的基础时间理解能力,模型进入第二阶段学习预测未来。这就像是一个气象学家学习如何根据历史天气模式预测未来几天的天气。

在这个阶段,模型被训练预测知识截止日期之后(2023年之后)事件的具体时间。训练数据包括两部分:2024年1月至7月的真实新闻数据,以及使用DeepSeek-V3模型生成的2024年8月至2025年2月的合成数据。

这种设计确保了公平评估,模型必须学会识别时间模式并进行推断,而不是简单记忆未来事件。这个阶段的训练让模型能够回忆相关的类似过去事件及其发生日期,推断学习到的时间发展模式,并根据新出现的信息预测未来事件。

**第三阶段:生成(Generation)**

在最后一个阶段,模型并不进行额外的强化学习训练,而是直接应用前两个阶段获得的能力来生成合理的未来场景。这就像一个掌握了历史和预测技能的讲故事者,现在能够创作出既有创意又合理的未来故事。

具体来说,模型根据指定的未来月份(2024年7月之后)和主题(如外交事务、商业、技术、政治)生成假设的新闻事件。生成的内容经过多样性筛选,然后通过与实际新闻事件的语义相似度评估其合理性。

这种三阶段框架的优势在于它模拟了人类时间认知的渐进式发展——从理解过去,到预测未来,再到创造性地想象未来场景,每一步都建立在前一步的基础上,形成了一个连贯的时间智能体系。

三、动态奖励机制:教会模型理解时间

Time-R1成功的一个关键因素是其精心设计的动态奖励机制。想象一个孩子学习新技能的过程:开始时我们会给予更多鼓励和较为宽松的标准,随着技能提升,我们会逐渐提高要求。Time-R1的训练过程正是采用了这种渐进式教学策略。

研究团队设计了一个规则基础的动态奖励系统,它评估模型生成输出的正确性和质量。奖励函数R(x, y)包含几个组成部分:特定任务的准确性(Racc)、格式奖励(Rformat)和针对不良输出的惩罚(Ppenalty)。

最核心的是准确性评分,以时间戳推断任务为例,奖励基于推断日期tp与目标真实日期tgt之间的时间距离:

Racc = e^(-α·?m(tp,tgt))

其中?m是月份差距,α是衰减系数。这种指数奖励结构确保奖励信号清晰地反映推断日期与真实日期的接近程度,让模型能感知到其时间误差的大小。

为了解决"冷启动"挑战(即模型从零开始学习专业任务的困难),研究团队在第一阶段实施了动态奖励机制,根据数据难度和训练进度自适应调整衰减系数α:

**阶段1:基础逻辑和格式学习** 首先,只训练"容易"样本(误差≤3个月)上的时间戳推断任务,使用较严格的固定衰减系数α=0.1,帮助模型快速学习基本任务逻辑和正确的响应格式。

**阶段2:全任务套件探索** 接下来,扩展到所有四个子任务和完整数据集(包括"普通/难"样本)。对于较难的样本,使用较为宽松的固定衰减系数α=0.07,鼓励模型在不同难度的任务上探索多样的推理路径。

**阶段3:过渡到严格评估** 最后,继续在所有任务和难度级别上训练,但对"普通/难"样本逐渐增加评估严格性,将衰减系数α从0.07线性过渡到0.1,促使模型在更困难的样本上提高精度。

这种渐进式方法,就像教孩子骑自行车——先有扶轮提供支持,然后逐渐撤掉辅助,最终让孩子独立骑行——帮助模型从容易的任务开始,逐步掌握更复杂的时间推理能力。

此外,奖励系统还包含其他精心设计的组件,如奖励输出格式的正确性、惩罚过长或重复的输出,以及特定任务的一致性惩罚。例如,在时间差估计任务中,如果模型明确推断的时间差与其推断的两个日期之间的差异不一致,就会受到惩罚,确保输出在逻辑上是一致的。

这种动态奖励策略不仅提高了模型的准确性,还显著减少了输出长度——使用动态奖励的模型产生更简洁的回答(平均60-140个标记),而没有动态奖励的模型则产生冗长的回答(平均240-320个标记)。这表明模型不仅学会了"做对",还学会了"高效地做对"。

四、实验结果:小模型战胜巨人

Time-R1的实验结果令人惊叹,就像是一个体重级别较轻的拳击手击败了重量级冠军。研究团队将3B参数的Time-R1与多种基线模型进行了比较,包括指令调整的语言模型(Qwen2.5-3B/7B-Instruct和Llama-3.1-8B-Instruct)、特定推理任务的大型模型(DeepSeek-Distill-Qwen-32B)以及最先进的超大模型(DeepSeek-V3-0324-671B和DeepSeek-R1-671B)。

在第一阶段的基础时间推理任务中,经过强化学习微调的Time-R1(θ1)展示了显著的改进,其整体平均分数比基础Qwen2.5-3B-Instruct模型提高了约153.0%。尽管只有3B参数,Time-R1在具有挑战性的事件排序和完成任务上表现出色,甚至与参数量大200多倍的671B DeepSeek-R1模型相媲美。

这种强劲的表现可以归功于精心设计的任务特定奖励机制。例如,事件排序任务中的不一致性和多样性惩罚非常关键,模型学会了确保其陈述的事件顺序与其推断的事件日期的时间顺序一致,展示了增强的逻辑推理能力。

在时间戳推断任务上,Time-R1(θ1)明显优于专门微调的DeepSeek-Qwen-32B模型,尽管后者的参数量大10倍。不过,在时间差估计任务上,尽管比Llama-3.1-8B-Instruct模型提高了约76.4%,但与顶级基线相比仍有差距,这可能部分归因于基础模型缺乏专门的数学推理预训练,这是较大的、专注于数学的模型的常见优势。

更令人印象深刻的是第二阶段的未来事件时间预测结果。Time-R1(θ2)在2024年8月至2025年2月的预测中取得了最高分(0.7697),超过了所有基线模型,包括参数量大得多的DeepSeek-R1-671B(0.7503)和DeepSeek-V3-671B。这一强劲表现跨越整个预测时间范围,证明了第一阶段的基础时间理解,结合第二阶段的预测技能开发,使得较小的模型能在具有挑战性的未来预测任务上取得卓越表现。

在第三阶段的创意未来场景生成中,Time-R1(θ2)继续展现出色的泛化能力。它实现了最高的整体AvgMaxSim分数(49.22%),超过所有基线模型,包括非常大的DeepSeek-V3-0324-671B(48.81%)和DeepSeek-R1-671B(47.46%)。这种成功,尽管没有针对生成任务进行直接训练,凸显了S1+S2课程的有效性,建立了强大的、可迁移的时间推理能力。

研究团队还进行了消融研究,比较了完整的Time-R1(θ2)(S1+S2训练)与只进行第二阶段训练的Time-R1-S2-Direct(θ'2)。结果清晰地突显了分阶段课程的益处:在未来事件时间预测中,完整模型(0.7697)显著优于仅S2模型(0.7234);在创意场景生成中也保持领先(49.22%对47.89%)。这些一致的收益表明,第一阶段培养的时间逻辑和事件-时间映射技能对实现卓越的预测准确性和生成合理性至关重要。

这些结果就像是一个令人惊讶的体育赛事——一个中等体型的选手凭借专业训练和策略,在技术比赛中击败了体型大得多的对手。Time-R1证明,通过专门的、分阶段的时间推理训练,较小的语言模型可以在这一特定领域超越参数量大得多的模型。

五、方法论详解:强化学习打造时间感知

要理解Time-R1的成功,我们需要深入探讨其背后的技术方法论。想象一个钢琴老师通过不断提供反馈来培养学生的演奏技巧——强化学习微调就是这样一个过程,但对象是语言模型而非人类学生。

Time-R1的方法使用强化学习(RL)来微调大语言模型进行复杂的时间推理任务。核心过程涉及语言模型策略与基于规则的环境之间的交互。给定详述特定时间任务的提示x,由参数θ表示的语言模型根据其当前策略πθ自回归地生成输出序列y。

为了促进复杂推理、可解释性和结构化输出,研究团队引导模型生成过程。对于所有任务,模型使用特定模板进行提示,包括系统指令(指示模型首先思考:"你是一个有帮助的助手。你首先在心中思考推理过程,然后向用户提供答案。")以在"..."标签内生成推理,然后在"..."标签内提供最终答案。环境评估的是整个生成序列y,包括思考和回答部分。

在策略优化方面,研究团队使用了群组相对策略优化(GRPO)。RL微调语言模型的一个关键挑战是政策梯度估计通常具有高方差。GRPO通过计算相对于为同一输入提示采样的其他响应的生成响应的优势来解决这个问题,从而提供更稳定的学习信号,而无需辅助价值函数。

具体来说,对于给定提示x,首先使用参考策略πref(通常是更新前的策略)采样一批K个响应{yk}。计算每个响应的奖励R(x, yk)后,响应yk的群组归一化优势A(x, yk)计算为:

A(x, yk) = R(x, yk) - b(x),其中b(x)是该组内所有响应的平均奖励。

这个优势估计反映了响应yk相对于其组内平均表现的相对质量。然后使用这个优势稳定地更新策略πθ,使用类似于PPO中的剪切代理目标函数,这有助于防止有害的大策略更新。

整体目标函数JGRPO(θ)在训练期间最大化,它平衡了预期的剪切优势和对参考策略πref的KL散度惩罚:

max JGRPO(θ) = Ex~D,{yk}~πref[ (1/K) ∑ LkCLIP(θ)] - β Ex~D DKL[πθ(·|x) || πref(·|x)]

这个目标引导策略朝更高奖励的方向发展,同时保持在约束优化框架内的稳定。

整个框架的设计和参数调整都经过了精心考虑。关键超参数包括KL系数β=0.001和每个提示K=5个样本响应用于群组归一化优势估计。实验表明,该框架对超参数变化(如改变学习率、批量大小或采样温度)具有较强的鲁棒性,证明了该方法的整体稳定性和可靠性。

六、数据集构建:时间之河的映射

就像地图对旅行者至关重要一样,高质量的数据集对训练时间感知模型至关重要。Time-R1的训练和评估使用了精心构建的数据集,主要源自纽约时报(NYT)文章。

研究团队通过NYT存档API收集了20多万篇英语新闻文章,发布日期从2016年1月到2025年2月。为确保内容与常见时间推理场景和当前事件的相关性,他们有选择地从政治、国家、商业、外交、世界、科学、健康、气候和观点等新闻版块提取内容。

这个庞大的NYT语料库被用于几个不同目的:

1. 第一阶段(理解)训练数据:2016年1月至2023年12月发表的文章用于训练Time-R1的基础时间理解能力。

2. 第二阶段(预测)真实新闻训练数据:2024年1月至7月的文章子集作为第二阶段训练的真实世界数据。

3. 第二阶段(预测)真实新闻测试数据:2024年8月至2025年2月的文章被保留并用作评估未来事件预测性能的真实新闻测试集。

在任务表述中,事件E通常由其标题h和摘要a表示,即E = (h, a)。

为了训练Time-R1预测未来几个月(具体是2024年8月至2025年2月)的事件,而不会遇到来自真实新闻测试期的数据泄漏,研究团队采用了数据合成策略。这个过程利用了DeepSeek-V3模型,其知识截止日期为2024年7月。

生成合成新闻文章的方法旨在反映历史上各新闻版块文章分布,基于2024年之前的NYT数据。主要的目标版块分布用于指导生成比例:外交:20.8%;商业:16.5%;观点:14.2%;国家:10.9%;华盛顿:9.6%;都市:8.6%;政治:5.5%;科学:4.6%。

研究团队采用了少样本提示策略来生成内容。对于特定目标未来月份(2024年8月至2025年2月)和指定新闻版块,DeepSeek-V3模型通过少样本学习方法提示。每个提示包含三个来自同一新闻版块的真实新闻标题和摘要,从2024年5月至7月发表的文章中随机抽样。

这种合成数据集提供了必要的训练信号,使模型能够学习预测超出其真实数据截止日期的事件,同时严格确保与同一时期的真实新闻测试数据没有重叠。2024年8月-2025年2月这一未来时期的合成数据量约为第二阶段训练中2024年1月-7月使用的真实新闻数据量的一半。

七、Time-R1的影响与应用前景

Time-R1的开发为人工智能领域带来了几个重要的突破,就像是为AI开启了一扇通往"时间感知"的新大门。这项研究不仅在技术上取得了进展,还为未来的应用创造了广阔的可能性。

首先,Time-R1证明了小型模型通过专门训练可以在特定领域超越超大模型。这一发现具有深远的实际意义:较小的模型(如3B参数)可以在时间变化时快速微调以获取新数据,这对于较大的模型(数千亿参数)来说是不可行的,后者需要巨大的计算资源(微调成本可能高达数百万美元)。这意味着时间知识可以以成本效益高的方式持续更新,让AI系统始终保持时间相关性。

其次,Time-R1开发的三阶段框架提供了一个可复制的方法来增强语言模型的时间智能。这种方法可以应用于各种规模的模型和不同的领域,为开发更具时间感知能力的AI系统提供了路线图。该研究还强调了强化学习在培养语言模型推理能力方面的有效性,特别是对于复杂的时间推理任务。

从应用角度看,具有全面时间推理能力的语言模型可以在多个领域产生重大影响:

1. 新闻和媒体:帮助记者和编辑理解历史事件背景,预测未来发展,创建基于时间的内容。

2. 金融和经济:提供更准确的时间预测用于市场分析、投资决策和经济趋势预测。

3. 决策支持:帮助组织规划未来情景,评估潜在的时间相关风险和机会。

4. 教育:创建个性化学习内容,帮助学生理解历史事件和它们的时间关系。

5. 研究和知识管理:帮助研究人员梳理时间相关信息,生成有关可能未来发展的假设。

通过发布Time-Bench数据集和Time-R1模型检查点,研究团队为社区提供了宝贵资源,促进时间感知AI的进一步研究和开发。这些资源可以作为基准来评估未来模型的时间推理能力,并作为开发更先进时间感知系统的起点。

八、总结与未来展望

Time-R1代表了语言模型时间智能发展的重要里程碑。通过创新的三阶段强化学习框架,研究团队成功地为一个中等规模的模型赋予了全面的时间能力,包括理解、预测和创造性生成。

这项研究的关键贡献包括:(1)在一个模型中实现统一的时间推理能力;(2)证明较小的模型通过精心设计的多阶段动态奖励强化学习策略可以匹配甚至超越参数量大数百倍的模型;(3)展示时间知识可以以成本效益高的方式持续更新;(4)为社区提供Time-Bench数据集和Time-R1模型检查点,为未来研究奠定基础。

展望未来,这项研究开辟了几个令人兴奋的方向:

1. 扩展性研究:探索这种方法如何扩展到更大的模型规模,以及更大的基础模型是否能通过类似训练获得更强的时间能力。

2. 领域特定适应:将这种框架适应于特定领域(如金融、医疗或法律),培养针对特定行业的时间推理能力。

3. 多模态时间推理:将时间推理能力扩展到包含视觉、音频等多种模态的模型。

4. 持续学习机制:开发允许模型自动更新时间知识的方法,无需完整的微调过程。

5. 更复杂的时间推理:探索更复杂形式的时间推理,如反事实推理("如果X在时间T没有发生会怎样?")和条件时间预测。

Time-R1的成功表明,通过精心设计的训练方法,我们可以显著提高语言模型的时间推理能力,即使是相对较小的模型也能在这一领域取得卓越表现。这为开发真正具有时间感知能力的AI系统铺平了道路,这些系统能够更好地理解过去,预测未来,并创造出合理的未来场景。

正如研究团队所言,时间是人类理解世界的基本维度,而Time-R1向我们展示了如何让AI也能获得这种关键能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-