SAGA团队 投稿
量子位 | 公众号 QbitAI
AI搞计算预测效果绝佳,一到湿实验就现原形?
这是AI for Science领域一直以来面临的巨大难题——
虽然有各种AI模型,一直以来刷新各大评测榜单,但专业科学家却能一眼看出它生成的东西进不了实验室,换而言之“没什么用”。
就算有AI侥幸“蒙”出一两个可用成果,生成的过程也是完全黑盒,无法复现。
现在,来自十余所顶尖机构的研究团队,终于教AI学会了像人类科学家一样搞科研:主动根据测试效果,修改生成目标,和实验室“100%对接”。

这个名叫SAGA的新AI(Scientific Autonomous Goal-evolving Agent),给人类提出的抗生素需求上加了一行代谢稳定性评分器的代码后,生成的先导化合物竟然同时通过了杀菌和安全性的双重体外验证,效果连专业科学家都直呼“合理,一开始没想到”。
不仅如此,在化学、材料等4个其他领域,SAGA也同样获得了研究人员的肯定。
有网友评价SAGA:“不仅解决问题,还在游戏中重新定义了游戏规则。”
目前,相关代码已经在GitHub上开源,据论文一作杜沅岂介绍,跑一次的成本大约在100美元左右,出来的成果“一定是看起来能用的”。
这样的效果,究竟是怎么实现的?
教AI科学家主动“快慢思考”
在SAGA之前,主流AI Scientist搞研究大多“靠运气”——
人类输入指令,AI输出结果,至于中间做了什么,不可变也不可测。
相比传统AI Scientist的全自动“黑盒”,SAGA采用了一套不仅能主动自我评估、还能被人类随时介入的双层思考机制。
这个框架的灵感来自于诺奖得主丹尼尔·卡尼曼(Daniel Kahneman)的《Thinking, Fast and Slow》。
卡尼曼认为,人类大脑分为两个系统,System 1凭直觉、反应快,但也容易犯错,System 2靠逻辑、思考慢,但更具深度。
这也是SAGA两层框架的基本原理。
它的内层是一个传统优化器(Optimizer),相当于AI的“快速直觉”,一旦给定目标函数,就能快速用遗传算法或强化学习跑优化,生成候选分子、序列、材料后,反复迭代搜索最优解。
外层则负责“慢速思考”,会对人类或自己提出的需求进行主动审视,找出“隐形约束”,判断需求本身是否合理、是否有可优化空间。
为了让思考过程透明化,外层安排了三个LLM Agent“员工”,分别扮演策划者(Planner)、执行者(Implementer)和分析者(Analyzer)。
策划者首先提出一系列新的或修改过的目标,生成一个结构化的目标函数列表,带名字、描述、优化方向和权重。
接下来,作为开发的执行者,会将策划者提的目标变成真正能运行的Python打分函数,并在封闭好的Docker环境里测试能不能跑。
如果发现其中有个目标对实验室条件来说不现实,例如需要测量暗物质,就打回去让策划者重做一份。
一旦执行者实现了所有的打分函数,它就会把这些函数交给内层优化器,让它跑出一个结果来。
最后,分析者对优化器跑出的结果做统计,研究各个目标的分数变化、趋势,还会写代码深挖具体候选的结构特征,最后输出一份分析报告,用来给策划者做下一轮数据参考。
这样的框架设计,有两方面的好处。
一方面,相比之前的AI Scientist,人类只能扮演一个“甩手掌柜”的角色,SAGA的设计不仅让整个设计过程透明可见,人类也可以随时介入,在AI有“歪念头”之前及时阻止。
SAGA在设计中包含了Co-pilot、Semi-pilot和Autopilot三种模式,从给人类打下手、半自动化到全自动化搞科研都能实现。
反过来说,如果人类在这个过程中有了新灵感,也能及时将自己的新想法输入给AI,不至于只能等结果出来了再全部重跑。
这也让SAGA更像一个“有方法论的AI科研搭档”,而不是一个你只能祈祷它跑出好结果的系统。
另一方面,相比于人类先给AI提目标函数,再由结果重新思考并提出新的目标函数,SAGA学会了自己从结果中思考,主动优化人类提出的目标函数,节省了重新提问的计算成本和时间。
相比于科学家需要基于自己的经验和知识去选择目标函数的权重组合,或者直接浪费大量计算资源暴力搜索,SAGA能够靠自身框架实现快速迭代。
这是因为,SAGA能一次性将多个目标函数结合起来,主动找到最优结果。
之前方法虽然跑分高,实际却不能用,原因是这些分数基本都是针对某个单一的目标。
例如,进化算法能针对“结合稳定性分数”去生成一系列结果,但高分结果却不一定能用,最终有几率入选的反而是某些低分的结果——
因为,直接拿单一人类设计的目标函数来预测真实工业任务,有效程度几乎为0。
但相反,如果将所有目标函数按一定的权重组合起来,得到的分数反而就可能将“可用结果”和“不可用结果”显著区分开,而SAGA恰好非常擅长寻找这样的权重组合。
那么,SAGA在实际实验室中的表现究竟如何呢?
横跨5大领域,无缝对接湿实验
研究者们在抗生素设计以及纳米抗体设计领域,对SAGA进行了湿实验验证。
以抗生素设计任务为例。一开始,专业科学家给SAGA的需求就一句话,“设计对E. coli有效、安全、可合成的新分子”。
SAGA在跑完第一轮优化后,发现了一些神秘的、科学家最初也没意识到的规律:
前100名候选分子里,80%都含有容易代谢失活的伯胺,这是代谢不稳定的危险信号。
于是,SAGA发出“小心伯胺”警告,并在代码中主动加上了一个新约束:“加一个代谢稳定性评分器”。
没想到效果绝佳,SAGA直接找到了4个体外有活性、而且同时通过杀菌与安全性验证的全新化合物结构。
如下图,在28个计算出来的分子中,4个在128μg/mL浓度下对E. coli抑制率超过80%。
尤其是其中的8号化合物,它不仅能杀菌,对人体细胞也基本没有伤害,而且结构和所有已知抗生素的相似度都低于0.3,是真正的新结构。
不仅如此,相比于其他的基线方法(TextGrad、MolT5)要么活性高但“药味不足”(作为药物而言不合理)、要么有“药味”但没有杀菌活性,SAGA的所有模式都能让生成结果的活性和药物合理性同时达标。
无论是Co-pilot、Semi-pilot还是Autopilot,三种路径最终都能稳定提升分数。
在纳米抗体设计任务上,科学家要求SAGA设计能阻断肿瘤”免疫逃跑”信号的蛋白质。
SAGA自动演化出来的复合评分函数,能显著区分阳性抗体(binders)和阴性抗体(non-binders),而且达到了极低的p值(0.03)。
在湿实验上,SAGA从零生成的候选序列里,有3个真的在实验室里验证能结合靶点,而且结构和已知抗体相似度不到20%。
在其他基于计算指标来验证的任务上,SAGA同样表现出色。比如SAGA可以被用在DNA增强子设计上,从而让科学家们设计能”开关”特定细胞里基因表达的DNA片段。
SAGA设计的序列比现有最好方法提升了约50%的细胞特异性,这意味着它能更精准地只在目标细胞里起作用,不误伤其他细胞。
而在无机材料设计和化工过程设计上,结果也都分别通过了DFT量子化学计算验证和纯度成本验证。
据作者表示,所有5个任务的结果,效果都“远远超出了专业科学家们的预期”
如果说之前AI Scientist设计的结果,一眼就能被专业科学家看出不合理之处,SAGA生成的结果,一眼看上去至少已经有了相关专业从业者的基础。
不过,这也并不意味着目前AI就能直接做科研相关的工作,或者说取代科研工作者。
段辰儒认为,SAGA证明了其强大的科学想法生成能力,下一步就是走进实验室,真正在执行侧闭环。但这需要很多工程。
杜沅岂认为,现阶段AI Scientist应该做的,是取代原本科研中重复、试错的工作,从而让科学家有更多时间去设计新的验证方式、思考更难的问题。
论文链接
https://arxiv.org/abs/2512.21782
GitHub链接
https://github.com/btyu/SAGA/tree/main
作者介绍
作者团队横跨十多所大学与研究所,主要作者团队如下:
杜沅岂:刚刚从康奈尔大学博士毕业,AI for Science社区创始人,曾多次在Nature,Nature Machine Intelligence,Nature Computational Science发表论文,包括多篇封面文章。
余博涛:俄亥俄州立大学(OSU)计算机系博士生,主要研究方向为大语言模型智能体和科学发现AI,曾在NeurIPS、ICLR、ACL、COLM等学术会议发表论文。
刘天宇:刚刚从耶鲁大学博士毕业,曾在Nature Biomedical Engineering, Nature Genetics, Nature Communications, Cell Systems等期刊发表论文。研究方向为AI Agents for Biomedicine, pre-training/post-training of LLMs。
沈同舟:刚刚从西蒙菲莎大学(SFU)博士毕业,曾在ICML、ICLR等会议发表论文。主要研究方向为小分子生成模型与面向科学发现的大模型智能体。
孙坤洋:加州大学伯克利分校化学系博士生,主要研究方向为AI辅助药物发现。
张祎坤:美国东北大学计算机系博士生,主要研究方向为用于科学发现的智能体和大模型。
陈俊武:瑞士洛桑联邦理工学院在读博士,主要研究方向为生成式AI用于材料设计,曾在Nature Machine Intelligence、Nature Communications、JACS、Angew和EES等期刊发表论文。
Jan Rittig:瑞士洛桑联邦理工学院博士后,主要研究方向为AI辅助的分子性质预测和化工流程设计,曾在Chemical Science、AIChE、CEJ和Digital Discovery等期刊发表论文。
段辰儒:深度原理创始人& CTO。
孙欢:俄亥俄州立大学(OSU)计算机系副教授、工程学院创新学者。长期深耕于自然语言处理和大模型智能体,曾多次在NeurIPS、ACL、CVPR、ICML等学术会议发表论文,曾获NSF CAREER Award、Google Research Scholar及Google Faculty Award等多项学术荣誉。
Philippe Schwaller:瑞士洛桑联邦理工学院(EPFL)化学系助理教授,长期深耕于AI for Chemistry,曾在Nature、Nature Nanotechnology、Nature Machine Intelligence,Nature Computational Science等期刊发表论文,包括封面文章。曾获Novartis Early Career Award,MGMS Frank Blaney Award,University Latsis Award等多项学术荣誉。
金汶功:东北大学计算机系助理教授,长期深耕于AI for science。曾多次在Nature,Science,Cell,PNAS等期刊发表论文,包括封面文章。曾获Google Research Scholar Award,BroadIgnite Award,Dimitris N. Chorafas Prize及MIT EECS Outstanding Thesis Award等多项学术荣誉。
参考链接
[1]关于抗生素20年研发瓶颈:https://www.gov.uk/government/news/antimicrobial-resistance-poses-catastrophic-threat-says-chief-medical-officer--2
[2]https://x.com/YuanqiD/status/2039324474634309810
[3]https://x.com/IntuitMachine/status/2009594681953247662
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓
感兴趣的小伙伴欢迎关注 👉 了解详情
🌟 点亮星标 🌟
科技前沿进展每日见















