AI工具

Freestyler-西工大联合微软和香港大学推出的说唱乐生成模型

Freestyler-西工大联合微软和香港大学推出的说唱乐生成模型-AIGC资源中心
Freestyler是什么 Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型,能直接根据歌词和伴奏...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
157123

SnapGen-Snap联合港科大等机构推出的移动端文生图模型

SnapGen-Snap联合港科大等机构推出的移动端文生图模型-AIGC资源中心
SnapGen是什么 SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024×1024像素)的图像,且只需1.4秒。模型用3...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
9424

CosyVoice2.0-阿里开源的语音生成大模型

CosyVoice2.0-阿里开源的语音生成大模型-AIGC资源中心
CosyVoice 2.0是什么 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知因果流匹配模型...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
47225

Megrez-3B-Omni-无问芯穹开源的端侧全模态理解模型

Megrez-3B-Omni-无问芯穹开源的端侧全模态理解模型-AIGC资源中心
Megrez-3B-Omni是什么 Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现出超越34B模型的性能,推理...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
750128

Veo2-谷歌DeepMind推出的AI视频生成模型,支持高达4K分辨率

Veo2-谷歌DeepMind推出的AI视频生成模型,支持高达4K分辨率-AIGC资源中心
Veo 2是什么 Veo 2 是 Google DeepMind 推出的 AI 视频生成模型,能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作,理解镜头控制指令,能模拟现实世界的物理现象及...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
93926

RDT-清华开源的双臂机器人扩散基础模型

RDT-清华开源的双臂机器人扩散基础模型-AIGC资源中心
RDT是什么 RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类操控的情况下,自主完成复杂...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
25261

Apollo-Meta联合斯坦福大学推出的大型多模态模型

Apollo-Meta联合斯坦福大学推出的大型多模态模型-AIGC资源中心
Apollo是什么 Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解在LMMs中的关键驱动因素,推出“Scaling Consistency”现象,即在...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
39077

BrushEdit-腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复

BrushEdit-腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复-AIGC资源中心
BrushEdit是什么 BrushEdit是腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型(MLLMs)和双分支图像修复模型,...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
665105

BochaSemanticReranker-博查推出的语义排序模型

BochaSemanticReranker-博查推出的语义排序模型-AIGC资源中心
Bocha Semantic Reranker是什么 Bocha Semantic Reranker是博查AI推出的语义排序模型,能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义,对初步排序的搜...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
63115

Ruyi-图森未来推出的图生视频大模型

Ruyi-图森未来推出的图生视频大模型-AIGC资源中心
Ruyi是什么 Ruyi是图森未来推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casu...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
206105

LargeActionModels-微软推出的行动大模型开发框架

LargeActionModels-微软推出的行动大模型开发框架-AIGC资源中心
Large Action Models是什么 Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行动的智能系统,LAMs超越传统LLMs(Large Language Models,大型语言模型)的文本生...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
54085

Leffa-Meta开源的图像生成框架,精确控制人物的外观和姿势

Leffa-Meta开源的图像生成框架,精确控制人物的外观和姿势-AIGC资源中心
Leffa是什么 Leffa(Learning Flow Fields in Attention)是 Meta AI推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和姿势。Leffa基于正则化损失函数,...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
59429

LatentLM-微软联合清华推出的多模态生成模型

LatentLM-微软联合清华推出的多模态生成模型-AIGC资源中心
LatentLM是什么 LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
37127

Lyra-SmartMore联合多所高校推出的增强多模态交互能力

Lyra-SmartMore联合多所高校推出的增强多模态交互能力-AIGC资源中心
Lyra是什么 Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
129108

MangaImageTranslator-开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图

MangaImageTranslator-开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图-AIGC资源中心
Manga Image Translator是什么 Manga Image Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本,结合机器翻译将文字转换成目...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
90276

Ivy-VL-AISafeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

Ivy-VL-AISafeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型-AIGC资源中心
Ivy-VL是什么 Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型,显著降低计算资源需求,...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
38790

ColorFlow-清华和腾讯共同推出的图像序列着色模型

ColorFlow-清华和腾讯共同推出的图像序列着色模型-AIGC资源中心
ColorFlow是什么 ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术,ColorFlow确保...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
47826

NodeTool-AI工作流可视化构建器,拖放节点设计复杂工作流

NodeTool-AI工作流可视化构建器,拖放节点设计复杂工作流-AIGC资源中心
NodeTool是什么 NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无需编码即可快速原型设计和测试。NodeTool支持在本地GPU上运行AI模型...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
20158

VMB-中科院联合多所高校机构推出增强多模态音乐生成的框架

VMB-中科院联合多所高校机构推出增强多模态音乐生成的框架-AIGC资源中心
VMB是什么 VMB(Visuals Music Bridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框架,能从文本、图像和视...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
51854

豆包视觉理解模型-豆包推出视觉理解模型,具备识别和推理能力

豆包视觉理解模型-豆包推出视觉理解模型,具备识别和推理能力-AIGC资源中心
豆包视觉理解模型是什么 豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解物体间的关系和场景含义,...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
79440