从大语言模型到世界模型

Date: October 22, 2024

从弱人工智能到通用人工智能（AGI），大语言模型（LLM）正在推动 AI 的标志性突破。然而，LLM 仍存在诸多局限，如无法预测未来事件、处理超长推理和获取训练数据之外的信息等。本报告探讨从大语言模型到世界模型的发展路径。首先介绍大模型如何通过语言构建世界知识，以及课题组在大语言模型（MOSS）、语音大模型（SpeechGPT）和多模态大模型（AnyGPT）方面的研究成果。随后引入世界模型（World Model）的概念——能够模拟和理解环境并据此做出决策与预测的 AI 系统，并讨论具身智能与世界模型的结合，包括视觉-语言-动作模型（Video-Language-Action Model）等前沿方向。报告还介绍了多模态对齐（LLaVA、ChatBridge）和多模态扩展（AnyGPT）等技术，展望大语言模型向具身智能与世界模型演进的未来蓝图。

课题组大模型工作：MOSS、SpeechGPT、AnyGPT

Slides（PDF）

Xuanjing Huang (黄萱菁)