从大语言模型到世界模型
Date:
从弱人工智能到通用人工智能(AGI),大语言模型(LLM)正在推动 AI 的标志性突破。然而,LLM 仍存在诸多局限,如无法预测未来事件、处理超长推理和获取训练数据之外的信息等。本报告探讨从大语言模型到世界模型的发展路径。首先介绍大模型如何通过语言构建世界知识,以及课题组在大语言模型(MOSS)、语音大模型(SpeechGPT)和多模态大模型(AnyGPT)方面的研究成果。随后引入世界模型(World Model)的概念——能够模拟和理解环境并据此做出决策与预测的 AI 系统,并讨论具身智能与世界模型的结合,包括视觉-语言-动作模型(Video-Language-Action Model)等前沿方向。报告还介绍了多模态对齐(LLaVA、ChatBridge)和多模态扩展(AnyGPT)等技术,展望大语言模型向具身智能与世界模型演进的未来蓝图。

