GPDiT是什么
GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型,模型结合扩散模型和自回归模型的优势,基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。GPDiT引入轻量级因果注意力机制,减少计算成本,推出一种无参数的旋转基时间条件策略,有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色,展示了在多种视频建模任务中的多功能性和适应性。
GPDiT的主要功能
高质量视频生成:生成具有高时间一致性和运动连贯性的长序列视频。
视频表示学习:基于自回归建模和扩散过程,学习视频的语义和动态表示,用在下游任务。
少样本学习:够快速适应多种视频处理任务,如风格转换、边缘检测等。
多任务学习:支持多种视频处理任务,如灰度转换、深度估计、人物检测等。
GPDiT的技术原理
自回归扩散框架:基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。
轻量级因果注意力:引入种轻量级因果注意力机制,消除训练期间干净帧之间的注意力计算,减少计算成本,不降低生成性能。
旋转基时间条件机制:推出一种无参数的旋转基时间条件策略,将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转,去除adaLN-Zero及相关参数,有效编码时间信息。
连续潜在空间:在连续潜在空间中进行建模,增强了生成质量和表示能力。
GPDiT的项目地址
arXiv技术论文:https://arxiv.org/pdf/2505.07344
GPDiT的应用场景
视频创作:生成高质量视频,用在广告、影视、动画等。
视频编辑:实现风格转换、色彩调整、分辨率提升等。
少样本学习:快速适应人物检测、边缘检测等任务。
内容理解:自动标注、分类和检索视频内容。
创意生成:激发艺术家和设计师的创意,生成艺术风格视频。