AI Can Learn Scientific Taste
Published in ArXiv, 2026
Recommended citation: Jingqi Tong, Mingzhe Li, Hangcheng Li, Yongzhuo Yang, Yurong Mou, Weijie Ma, Zhiheng Xi, Hongji Chen, Xiaoran Liu, Qinyuan Cheng, Ming Zhang, Qiguang Chen, Weifeng Ge, Qipeng Guo, Tianlei Ying, Tianxiang Sun, Yining Zheng, Xinchi Chen, Jun Zhao, Ning Ding, Xuanjing Huang, Yugang Jiang, Xipeng Qiu: AI Can Learn Scientific Taste. ArXiv 2603.14473 (2026) https://arxiv.org/pdf/2603.14473
伟大的科学家具有强有力和远见的判断力,这与我们所称的科学品味密切相关。在这里,我们用这个术语来指代判断和提出具有高潜在影响力研究想法的能力。然而,大多数相关研究都集中在提高AI科学家的执行能力上,而增强AI的科学品味仍未被充分探索。在这项工作中,我们提出了基于社区反馈的强化学习(RLCF),这是一种利用大规模社区信号作为监督的训练范式,并将科学品味学习形式化为偏好建模和对齐问题。在偏好建模方面,我们基于70万对领域和时间匹配的高引用率与低引用率论文对训练了科学评判模型(Scientific Judge)来评判研究想法。在偏好对齐方面,我们使用科学评判模型作为奖励模型,训练了一个策略模型——科学思考者(Scientific Thinker)来提出具有高潜在影响力的研究想法。实验表明,科学评判模型优于SOTA大语言模型(如GPT-5.2、Gemini 3 Pro),并且能够泛化到未来年份测试、未见领域和同行评审偏好。此外,科学思考者提出的研究想法比基线模型具有更高的潜在影响力。我们的发现表明AI可以学习科学品味,这是迈向人类水平AI科学家的关键一步。
