2024年,人工智能与科学的结合达到了前所未有的高度,这一年的科学界因两项诺贝尔奖的颁发而熠熠生辉。化学奖授予了在蛋白质设计与结构预测领域做出开创性工作的David Baker、John Jumper和Demis Hassabis博士;物理学奖则表彰了John J. Hopfield和Geoffrey Hinton博士在人工神经网络及其机器学习核心原理方面的奠基性贡献。颁奖典礼上的演讲视频向公众展示了AI与科学交融的新时代,这些荣誉不仅是对过去成就的认可,更是对未来探索的预告。
回顾2024年,AI for Science领域展现出了一系列引人注目的新趋势。其中,“神经网络缩放定律”的兴起尤为突出。这一理论探讨了模型规模、参数量以及计算量变化时,神经网络性能如何随之改变。在大语言模型(LLM)的训练中,缩放定律得到了显著体现。商业界如GPT-4o、Claude-3.5-Sonnet,以及开源社区的Llama-3.1–140B等超大参数模型纷纷亮相,性能远超其前代。OpenAI推出的GPT-o1-preview更是通过增加推理阶段的计算资源,在高难度数学题目等复杂任务上表现出色。
缩放定律同样适用于科学应用,如蛋白折叠领域。ESM Cambrian模型在CASP15竞赛中展现了近似幂律的性能提升,超越了同期大多数模型,进一步证明了缩放定律在AI与科学交汇处的普适性。Hugging Face团队独立开发的方案也在MATH-500基准测试中,让小参数模型(如1B和3B规模的Llama Instruct模型)超越了更大型号(如8B和70B模型),这进一步验证了测试阶段资源投入的重要性。
在结构生物学领域,AlphaFold3的发布无疑是今年最耀眼的进展之一。它不仅能预测蛋白质单体结构,还能模拟包含核苷酸、小分子以及离子在内的复杂体系,达到前所未有的准确度。AlphaFold的影响力带动了相关数据库的快速扩容,如伦敦大学学院创建的TED数据库,通过分析海量蛋白质结构,发现了逾万种新的结构互作关系,为蛋白折叠空间谱系图增添了数千种新折叠形式。
尽管AlphaFold在生物医学研究中推动了巨大进步,但在实际药物设计中的效用仍存在争议。加州大学旧金山分校的研究表明,实验测得的真实蛋白结构与AlphaFold预测模型在对接模拟中的命中率相近,但鉴定到的配体几乎无重叠。这意味着AlphaFold可能提供了另一种真实而未被充分利用的蛋白质构象,有望拓展基于结构的药物筛选边界。同时,Chai-1、NeuralPLexer3及Boltz-1等新模型的相继问世,也展示了原子级生物大分子结构预测的广阔前景。
在神经架构方面,AlphaFold3弃用等变架构的做法引发了学界和工业界的广泛讨论。一方面,近期刊登于《Nature》的大规模分子模拟工作表明,神经网络势能函数(NNIP)已能精确捕捉量子级相互作用,为化学、材料与生物物理等多领域带来前所未有的求解能力。另一方面,“苦涩教训”再次得到印证:相比依赖精心设计特征或严格物理对称性的模型,以大规模计算和数据为驱动的通用网络往往更具潜力。加州大学伯克利分校的研究显示,减少对物理对称性的显式嵌入后,架构在推理速度和准确度上均能胜过许多基于对称性的模型。
大语言模型(LLM)在科学领域的表现同样引人注目。DeepMind的AlphaProof与AlphaGeometry2在数学领域取得了显著成果。AlphaProof结合了大语言模型与AlphaZero的强化学习框架,攻克了国际数学奥林匹克(IMO)中的代数与数论难题;AlphaGeometry2在几何题上效率提高两个量级,IMO的解题成功率从53%攀升至83%。二者合力在IMO 2024上取得了相当于银牌的成绩,展示了AI在数学领域的巨大潜力。
meta也在数学领域发力,其新模型针对动力系统全局稳定性中的李雅普诺夫函数(Lyapunov functions)推导问题给出了解决思路。该问题在控制理论与天体力学中至关重要,meta的模型通过为多项式系统生成随机解,并利用序列到序列Transformer进行训练,在算法求解器和人类专家都望而生畏的领域取得了突破。
在其他科学方向,大语言模型同样大放异彩。OpenAI利用强化学习与微调技术开发的模型,在罕见病基因发现中表现出色,展现了在稀缺数据场景中的强大适应力。MOLLEO模型则能甄别高活性分子,性能超越先前各类先进算法,证明了大语言模型对化学知识的潜在记忆与表征能力。
科学领域的“基础模型”也在逐渐形成。EvolutionaryScale推出的ESM3是一款面向蛋白质语言的大模型,成功设计了与自然进化无直接同源性的全新绿色荧光蛋白。Virtual Cell Initiative打造的面向细胞过程的AI基础模型(如scGPT、UCE等),通过高度细化的计算模拟,探寻疾病机理与细胞行为。GenBio AI团队提出的AIDO(AI-Driven Digital Organism)则跨越分子、细胞、组织乃至器官层面,为基础与转化研究提供了全新路径。
小分子药物设计领域同样取得了显著进展,特别是在“可合成性”这一关键环节上。为确保生成的小分子不仅功能优异,还能在实验室顺利合成,业界与学界加速弥合计算设计与实验落地的鸿沟。斯坦福大学的SyntheMol采用蒙特卡洛树搜索算法,在合成路径的广阔空间中漫游,最终发现了可抑制革兰氏阴性菌生长的分子先导化合物。GFlowNet等方法也在大规模的反应网络与分子库中探索合成友好的化学空间。
量子化学领域也迎来了突破性进展。Pfau及其合作者提出的自然激发态变分蒙特卡洛(NES-VMC)方法,利用神经网络的高灵活度,通过巧妙的数学变换,将激发态计算归结为针对“扩展体系”的基态问题,从而在计算传统上最棘手的激发态时取得了惊艳的准确度。这一工作对于研究物质与光的相互作用意义重大,潜在应用广泛,从光催化、太阳能电池到发光二极管,都将因更精准的激发态预测而受益。
AI-for-Science领域的初创企业在2024年也取得了颠覆性进展,特别是在生物科技以及化学与材料科学领域。晶泰科技XtalPi在港股成功上市,市值高达25亿美元;Terray Therapeutics和Lambic Therapeutics等公司也完成了可观的融资轮次,并在药物管线中取得实质性进展。源自Google DeepMind的衍生公司Isomorphic Labs更是与礼来和诺华达成战略合作,预付款高达8250万美元,总合同规模或可达到30亿美元,充分展示了AI模型在生物医药领域的商业价值。