学术报告与演讲

迈向通用长程智能体：挑战与创新

December 26, 2025

大语言模型正在引领人工智能的范式革命，从 ChatGPT 到通用人工智能（AGI），基于大语言模型的智能体（LLM-based Agent）成为一条极具前景的技术路线。本报告首先介绍大模型与智能体的基本概念，包括 AI Agent 的定义、LLM-based Agent 的核心能力（感知与理解、推理与规划、记忆存储与检索、生成与行动），以及智能体在科研助手（WisPaper）、自动化任务等场景中的实际应用。随后，报告聚焦于构建通用长程智能体所面临的三大扩展挑战（Scaling Challenges）：环境扩展（Scaling Environment）、目标扩展（Scaling Goals）和交互扩展（Scaling Interaction），并介绍我们在跨环境自我进化框架 AgentGym 以及长程决策强化学习方法 AgentGym-RL 上的探索与创新。

大语言模型赋能科学发现

December 07, 2025

人工智能正在深刻变革科学发现的方式，近年来诺贝尔物理学奖和化学奖均授予了与 AI 相关的突破性成果。本报告探讨大语言模型（LLMs）如何全方位赋能科学研究——从数据分析、假说生成到实验设计。报告首先介绍大语言模型及其涌现能力，展示其在阅读理解、编程和复杂推理等方面日益增强的能力。重点讨论面向科学的 LLM 推理增强技术，包括思维链（Chain-of-Thought）提示、自一致性（Self-Consistency）、过程监督（Process Supervision）和批判模型（Critique Models）等方法。此外，报告还介绍了基于智能体的建模与仿真（ABMS）作为研究复杂系统的强大范式，以及多模态多智能体系统在科学任务中的最新进展，包括用于物理竞赛解题的 PhysicsMinions 和面向材料发现的 AtomAgents。

大语言模型对齐技术

May 09, 2025

Invited Talk, 中国图象图形学学会 (CCIG 2025),

大语言模型在展现强大能力的同时，也存在安全与伦理风险，需要与人类价值观进行对齐。本报告系统介绍大语言模型对齐技术的最新进展。首先阐述对齐的必要性，分析大模型面临的安全伦理问题以及对齐的核心准则（有益性、诚实性、无害性）。随后深入介绍人类偏好建模方法，包括奖励模型的训练、泛化与在线更新等关键问题。在此基础上，重点讲解基于 RLHF 的对齐技术，涵盖 PPO-MAX 稳定训练算法、DPO 直接偏好优化、Linear Alignment 推理阶段对齐、以及多途径反馈融合等方法。报告还讨论了对齐后的模型评测方法，包括安全与价值观评测和能力对齐评测。最后展望对齐技术的未来方向，包括 Self-Play 多策略对抗学习以及以强化学习为核心的推理模型（如 O1）。

从大语言模型到世界模型

October 22, 2024

从弱人工智能到通用人工智能（AGI），大语言模型（LLM）正在推动 AI 的标志性突破。然而，LLM 仍存在诸多局限，如无法预测未来事件、处理超长推理和获取训练数据之外的信息等。本报告探讨从大语言模型到世界模型的发展路径。首先介绍大模型如何通过语言构建世界知识，以及课题组在大语言模型（MOSS）、语音大模型（SpeechGPT）和多模态大模型（AnyGPT）方面的研究成果。随后引入世界模型（World Model）的概念——能够模拟和理解环境并据此做出决策与预测的 AI 系统，并讨论具身智能与世界模型的结合，包括视觉-语言-动作模型（Video-Language-Action Model）等前沿方向。报告还介绍了多模态对齐（LLaVA、ChatBridge）和多模态扩展（AnyGPT）等技术，展望大语言模型向具身智能与世界模型演进的未来蓝图。

Xuanjing Huang (黄萱菁)

学术报告与演讲

迈向通用长程智能体：挑战与创新

大语言模型赋能科学发现

大语言模型对齐技术

从大语言模型到世界模型