Nexus-Gen是什么
Nexus-Gen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型,支持同时完成图像理解、生成和编辑任务。Nexus-Gen融合强大的语言模型与扩散模型的能力,基于预填充自回归策略解决传统方法中图像嵌入误差累积的问题。模型在图像质量和编辑能力上达到与 GPT-4o 相当的水平,推动全模态模型领域的发展。
Nexus-Gen的主要功能
图像理解:分析图像内容,生成描述性文本,回答与图像相关的问题。
图像生成:根据文本描述生成高质量图像,支持复杂场景和风格的生成。
图像编辑:提供多种编辑功能,包括颜色调整、对象添加/删除、风格转换等。
Nexus-Gen的技术原理
架构设计:将输入的文本和图像基于文本 Tokenizer 和视觉编码器(Vision Encoder)转化为嵌入向量,输入到自回归 Transformer 中生成输出的文本 Token 和图像嵌入。图像嵌入用视觉投影器(Vision Projector)对齐到与输入相同的特征空间,基于扩散模型(Vision Decoder)解码为像素级图像。
预填充自回归策略:引入预填充自回归策略。在训练阶段,模型用可学习的特殊 Token 填充图像嵌入位置。在推理阶段,模型基于预测图像起始 Token(BOI)后直接预填充特殊 Token,统一训练和推理行为,避免误差累积。
统一任务表示:基于统一的任务表示格式,将图像理解、生成和编辑任务整合到一个框架中。所有任务的数据都用类似的消息格式组织,模型学习不同任务之间的协同作用,提升多模态任务的处理能力。
双阶段对齐训练
自回归 Transformer 训练:基于三阶段训练逐步赋予模型图像生成和编辑能力,最终用高质量数据提升生成质量。
扩散模型训练:基于单阶段训练,将输入条件从文本调整为图像嵌入,实现高质量图像重建。
Nexus-Gen的项目地址
GitHub仓库:https://github.com/modelscope/Nexus-Gen
HuggingFace模型库:https://huggingface.co/modelscope/Nexus-Gen
arXiv技术论文:https://arxiv.org/pdf/2504.21356
Nexus-Gen的应用场景
创意设计:快速生成艺术作品、插画或概念图,支持风格转换,提升创作效率。
内容创作:生成文章配图、视频素材,编辑图像匹配内容主题。
广告营销:制作符合品牌风格的广告素材,快速生成产品展示图。
教育学习:生成历史、科学或文学场景的图像,增强学习直观性。
游戏开发:快速生成游戏场景、角色和道具,支持虚拟现实(VR)和增强现实(AR)应用。