ITBear旗下自媒体矩阵:

小米联合北大发AI新论文,“天才少女”罗福莉参与新方法R3研究

   时间:2025-10-16 12:40:52 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,小米与北京大学联合完成的一项研究成果在arXiv平台发布,其中备受关注的DeepSeek前核心开发者罗福莉以通讯作者身份出现在论文中。值得注意的是,这篇关于MoE模型强化学习优化的论文并未明确罗福莉与小米大模型团队的隶属关系,引发业界对这位95后技术新星职业动向的持续猜测。

这位计算机领域新秀的履历堪称亮眼:北京师范大学计算机专业本科毕业后,她进入北京大学计算语言学研究所深造,随后在阿里巴巴达摩院主导开发多语言预训练模型VECO,并推动AliceMind开源项目。2022年加入DeepSeek后,她深度参与MoE架构大模型DeepSeek-V2的研发工作。去年底,小米被曝以千万年薪招揽这位技术精英,但双方至今未就入职事宜作出正式回应。

此次发布的论文提出创新性的Rollout Routing Replay(R3)方法,针对MoE模型在强化学习训练中存在的路由机制不稳定问题,提出通过重放推理阶段的路由分布来协调训练与推理过程。实验数据显示,该方法使训练-推理的KL散度从1.5×10⁻³降至7.5×10⁻⁴,接近稠密模型水平,同时将存在显著差异的token比例降低一个数量级。

研究团队通过Qwen3-30B-A3B模型验证发现,R3在数学推理等复杂任务中表现突出。在约10万道数学题的基准测试中,GRPO+R3组合在多步更新场景下平均得分68.05,较基础算法提升1.29分;单步更新场景下,微调模型得分达71.83,较GRPO提升9.6分。更关键的是,所有引入R3的组合方法均未出现训练崩溃现象,而传统方法在60-105步训练中即出现稳定性问题。

技术细节显示,R3通过路由掩码缓存机制适配多轮对话场景。研究团队将推理阶段获得的路由分布存储在KVCache中,当相同前缀token出现时直接调用缓存,避免重复计算。这种设计在软件工程、网页浏览等需要多轮交互的Agent任务中具有显著优势,可使系统在保持高效的同时确保专家选择的一致性。

论文指出,现有改进方法如重要性采样未能根本解决MoE模型的训练稳定性问题。R3的创新之处在于同时保留梯度数据流与专家选择对齐:通过重放推理阶段的路由掩码,既确保训练与推理使用相同专家,又维持计算图的梯度传递。这种设计使优化过程更加稳定,序列长度增长模式更平滑,生成策略的探索行为也更早启动。

在优化与生成行为分析中,研究人员绘制了训练动态曲线。数据显示,采用R3的模型在训练初期即快速捕捉优化方向,序列长度在第25步后稳步上升,而传统方法在第80步后才出现缓慢增长。同时,R3使梯度范数始终保持在较低水平,生成熵的上升也更早更稳定,表明模型能更早探索更优策略。

 
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version