微软亚洲研究院的数学与人工智能研究团队近日宣布了一项针对小语言模型的创新技术——rStar-Math,该技术旨在解决各类数学问题。在1月10日发布的博文中,研究团队详细介绍了这一技术的设计与开发。
与微软早前推出的Phi-4技术不同,rStar-Math采用了蒙特卡洛树搜索(Monte Carlo Tree Search)方法进行推理。这种方法模仿了人类逐步解决问题的思考模式,通过将复杂问题分解为更小的部分,逐步推进,直至找到解决方案。
在研发过程中,研究团队要求模型在输出数学问题的解答时,不仅要提供自然语言描述的解题步骤,还要附带相应的Python代码实现。并且,这些自然语言描述被用作Python代码的注释,模型仅通过Python代码进行训练。
为了进一步提升解题能力,研究团队还训练了一个“策略模型”,用于生成数学推理步骤。同时,他们还引入了一个“过程偏好模型”(PPM),用于从多个可能的解题步骤中选择出最有希望的路径。这两个模型通过四轮“自我进化”过程,相互学习,共同提升性能。
在训练过程中,研究团队使用了74万道公开的数学应用题及其解答作为初始数据集。借助上述两个模型,他们成功生成了大量新的解题步骤,进一步丰富了数据集。
测试结果显示,rStar-Math技术的引入显著提升了数学模型的解题准确率。具体而言,Qwen2.5-Math-7B模型在采用rStar-Math技术后,准确率从58.8%提升至90.0%;而Phi3-mini-3.8B模型的准确率则从41.4%跃升至86.4%。这两个模型在准确率方面分别超过了OpenAI的o1-preview模型4.5%和0.9%。
为了方便其他研究者使用和改进rStar-Math技术,微软研究团队已在Hugging Face上宣布,他们计划将rStar-Math的代码和数据集在GitHub上公开。这一举措无疑将促进数学与人工智能领域的进一步发展。