学术报告与演讲

迈向通用长程智能体:挑战与创新

December 26, 2025

大语言模型正在引领人工智能的范式革命,从 ChatGPT 到通用人工智能(AGI),基于大语言模型的智能体(LLM-based Agent)成为一条极具前景的技术路线。本报告首先介绍大模型与智能体的基本概念,包括 AI Agent 的定义、LLM-based Agent 的核心能力(感知与理解、推理与规划、记忆存储与检索、生成与行动),以及智能体在科研助手(WisPaper)、自动化任务等场景中的实际应用。随后,报告聚焦于构建通用长程智能体所面临的三大扩展挑战(Scaling Challenges):环境扩展(Scaling Environment)、目标扩展(Scaling Goals)和交互扩展(Scaling Interaction),并介绍我们在跨环境自我进化框架 AgentGym 以及长程决策强化学习方法 AgentGym-RL 上的探索与创新。

大语言模型赋能科学发现

December 07, 2025

人工智能正在深刻变革科学发现的方式,近年来诺贝尔物理学奖和化学奖均授予了与 AI 相关的突破性成果。本报告探讨大语言模型(LLMs)如何全方位赋能科学研究——从数据分析、假说生成到实验设计。报告首先介绍大语言模型及其涌现能力,展示其在阅读理解、编程和复杂推理等方面日益增强的能力。重点讨论面向科学的 LLM 推理增强技术,包括思维链(Chain-of-Thought)提示、自一致性(Self-Consistency)、过程监督(Process Supervision)和批判模型(Critique Models)等方法。此外,报告还介绍了基于智能体的建模与仿真(ABMS)作为研究复杂系统的强大范式,以及多模态多智能体系统在科学任务中的最新进展,包括用于物理竞赛解题的 PhysicsMinions 和面向材料发现的 AtomAgents。

大语言模型对齐技术

May 09, 2025

Invited Talk, 中国图象图形学学会 (CCIG 2025),

大语言模型在展现强大能力的同时,也存在安全与伦理风险,需要与人类价值观进行对齐。本报告系统介绍大语言模型对齐技术的最新进展。首先阐述对齐的必要性,分析大模型面临的安全伦理问题以及对齐的核心准则(有益性、诚实性、无害性)。随后深入介绍人类偏好建模方法,包括奖励模型的训练、泛化与在线更新等关键问题。在此基础上,重点讲解基于 RLHF 的对齐技术,涵盖 PPO-MAX 稳定训练算法、DPO 直接偏好优化、Linear Alignment 推理阶段对齐、以及多途径反馈融合等方法。报告还讨论了对齐后的模型评测方法,包括安全与价值观评测和能力对齐评测。最后展望对齐技术的未来方向,包括 Self-Play 多策略对抗学习以及以强化学习为核心的推理模型(如 O1)。

从大语言模型到世界模型

October 22, 2024

从弱人工智能到通用人工智能(AGI),大语言模型(LLM)正在推动 AI 的标志性突破。然而,LLM 仍存在诸多局限,如无法预测未来事件、处理超长推理和获取训练数据之外的信息等。本报告探讨从大语言模型到世界模型的发展路径。首先介绍大模型如何通过语言构建世界知识,以及课题组在大语言模型(MOSS)、语音大模型(SpeechGPT)和多模态大模型(AnyGPT)方面的研究成果。随后引入世界模型(World Model)的概念——能够模拟和理解环境并据此做出决策与预测的 AI 系统,并讨论具身智能与世界模型的结合,包括视觉-语言-动作模型(Video-Language-Action Model)等前沿方向。报告还介绍了多模态对齐(LLaVA、ChatBridge)和多模态扩展(AnyGPT)等技术,展望大语言模型向具身智能与世界模型演进的未来蓝图。