Matrix-Game是什么
Matrix-Game是昆仑万维开源的工业界首个10B+空间智能大模型,是Matrix-Zero世界模型中的可交互视频生成大模型。模型基于两阶段训练策略,根据用户输入生成连贯、可控的互动视频,具备细粒度用户交互控制、高保真视觉与物理一致性和多场景泛化能力等优势,能用在虚拟游戏世界搭建、影视与元宇宙内容生产等领域,为构建通用虚拟世界基座树立全新标杆。
Matrix-Game的主要功能
可控视频生成:用户基于简单的键盘指令、鼠标移动等操作,自由探索、操控甚至创造出细节丰富、物理规则合理的虚拟世界。
多场景泛化:具备对多种Minecraft游戏场景(如森林、沙滩、沙漠、冰川等)的泛化能力,有潜力泛化到非Minecraft游戏环境。
自回归式长视频生成:支持自回归式的长视频生成,实现动作与视角之间的丝滑衔接,确保时间一致性与环境适应性。
系统化评估:提出统一的GameWorld Score标准,从视频的视觉质量、时序质量、动作可控性与物理规则理解四个维度全面量化模型性能。
Matrix-Game的技术原理
两阶段训练策略:用大规模无标签的Minecraft游戏视频数据,基于预训练让模型学习环境的基本特征和动态规律。用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,让模型根据用户的输入生成相应的交互式视频。
图像到世界建模:单张参考图像作为生成交互式视频的起点,不依赖语言提示,基于视觉信号建模空间几何、物体运动及其物理交互。
自回归式视频生成:支持自回归方式扩展生成长度,每次用前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间上的连贯性。训练中引入随机扰动、随机删除及Classifier-free guidance策略,缓解时序漂移和误差累积。
可控交互设计:键盘动作用离散token表达,视角移动动作用连续token表达,基于GameFactory的控制模块,融入多模态Diffusion Transformer架构,用Classifier-free guidance策略提升对控制信号的鲁棒响应能力。
Matrix-Game的项目地址
项目官网:https://matrix-game-homepage.github.io/
GitHub仓库:https://github.com/SkyworkAI/Matrix-Game
HuggingFace模型库:https://huggingface.co/Skywork/Matrix-Game
技术论文:https://github.com/SkyworkAI/Matrix-Game
Matrix-Game的应用场景
虚拟游戏开发:快速生成多样化游戏地图和动态交互环境,提升开发效率和玩家沉浸感。
影视与元宇宙:生成高保真动态场景,支持沉浸式体验开发,助力创意内容快速生成。
具身智能训练:提供多样化的虚拟环境,增强具身智能体的训练数据,提升其任务执行能力。
教育与培训:创建虚拟教学和职业技能培训环境,帮助学生和学员更好地理解和实践。
创意内容生成:为创意视频制作和虚拟场景设计提供丰富素材,支持快速实现创意想法。