AI工具

MuCodec-清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

MuCodec-清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器-AIGC资源中心
MuCodec是什么 MuCodec是清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器,能实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
76222

Find3D-加州理工学院推出的3D部件分割模型

Find3D-加州理工学院推出的3D部件分割模型-AIGC资源中心
Find3D是什么 Find3D是加州理工学院推出的3D部件分割模型,能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据,并用对比训练方法训练...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
982112

Sketch2Lineart-AI绘画工具,自动将手绘草图转换成清晰的线条画

Sketch2Lineart-AI绘画工具,自动将手绘草图转换成清晰的线条画-AIGC资源中心
Sketch2Lineart是什么 Sketch2Lineart是基于人工智能的绘画工具,能将简单的手绘草图转换成清晰的线条画。通过自动生成草图描述并据此绘制线条画,支持调整细节适应不同风格。用户只需上传草图...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
561129

Fancy123-华中科技和华南理工推出的3D网格生成技术

Fancy123-华中科技和华南理工推出的3D网格生成技术-AIGC资源中心
Fancy123是什么 Fancy123是华中科技大学和华南理工大学推出的3D网格生成技术,基于即插即用的变形技术从单张图片生成高质量的3D网格。该方法包含两个增强模块和反投影操作,分别解决多视图图像...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
20550

Mooncake-月之暗面Kimi联合清华等机构推出的大模型推理架构

Mooncake-月之暗面Kimi联合清华等机构推出的大模型推理架构-AIGC资源中心
Mooncake是什么 Mooncake是月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。采用以KVCache为中心的分布式架构,通过分离预填充和解码集群,充分利用GPU集群中未充分利用的CPU、DRAM和...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
794110

QwQ-32B-Preview-阿里开源的AI推理模型,基准测试超越o1模型

QwQ-32B-Preview-阿里开源的AI推理模型,基准测试超越o1模型-AIGC资源中心
QwQ-32B-Preview是什么 QwQ-32B-Preview(QwQ-32B)是阿里推出的开源AI推理模型,在数学和编程领域表现卓越。QwQ-32B-Preview包含325亿参数,能处理长达32000个tokens的提示词。在多个基准测试...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
651107

InfiMM-WebMath-40B-字节联合中科院开源的超大规模多模态数据集

InfiMM-WebMath-40B-字节联合中科院开源的超大规模多模态数据集-AIGC资源中心
InfiMM-WebMath-40B是什么 InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
97036

SAM2.1-Meta开源的视觉分割模型

SAM2.1-Meta开源的视觉分割模型-AIGC资源中心
SAM 2.1是什么 SAM 2.1(全称Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先进视觉分割模型,用于图像和视频。基于简单的Transformer架构和流式记忆设计,实现实时视频处理。...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
76224

Qwen2vl-Flux-开源的多模态图像生成模型,支持多种生成模式

Qwen2vl-Flux-开源的多模态图像生成模型,支持多种生成模式-AIGC资源中心
Qwen2vl-Flux是什么 Qwen2VL-Flux是多模态图像生成模型,结合Qwen2VL的视觉语言理解和FLUX框架,基于文本提示和图像参考生成高质量的图像。模型支持多种生成模式,包括变体生成、图像到图像转换...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
89597

ShowUI-新加坡国立联合微软推出用于GUI自动化的视觉-语言-操作模型

ShowUI-新加坡国立联合微软推出用于GUI自动化的视觉-语言-操作模型-AIGC资源中心
ShowUI是什么 ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
72052

NVLM-英伟达推出的多模态大型语言模型

NVLM-英伟达推出的多模态大型语言模型-AIGC资源中心
NVLM是什么 NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹敌的性能。NVLM 1.0家族...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
38233

Promptriever-信息检索模型,支持自然语言提示响应用户搜索需求

Promptriever-信息检索模型,支持自然语言提示响应用户搜索需求-AIGC资源中心
Promptriever是什么 Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型,能像语言模型一样接受自然语言提示,用直观的方式响应用户的搜索需求。Promptriever 基于 MS MARC...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
81170

LongLLaVA-香港中文大学推出的多模态上下文混合架构大语言模型

LongLLaVA-香港中文大学推出的多模态上下文混合架构大语言模型-AIGC资源中心
LongLLaVA是什么 LongLLaVA是的多模态大型语言模型(MLLM),是香港中文大学(深圳)的研究人员推出。基于混合架构,结合Mamba和Transformer模块,提高处理大量图像数据的效率。LongLLaVA能在单...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
94683

Devika-开源的AI编程工具,理解和执行复杂的人类指令

Devika-开源的AI编程工具,理解和执行复杂的人类指令-AIGC资源中心
Devika 是什么 Devika是开源的AI编程工具,能理解并拆分复杂指令,基于集成AI搜索和网页浏览能力搜集信息,编写代码实现目标。Devika支持多种AI模型,具备高级规划推理能力,能进行上下文关键词...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
361118

iDP3-斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3-斯坦福大学联合多所高校推出的改进型3D视觉运动策略-AIGC资源中心
iDP3是什么 iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略(如三维扩散策略),提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,iDP...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
600128

ProactiveAgent-清华联合面壁智能开源的新一代主动Agent交互范式

ProactiveAgent-清华联合面壁智能开源的新一代主动Agent交互范式-AIGC资源中心
Proactive Agent是什么 Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式 ,具备主动性,能预测用户需求并在没有直接指令的情况下采取行动。Proactive Agent观察环境...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
591101

EMOVA-华为诺亚方舟联合多所高校共同推出的多模态全能处理模型

EMOVA-华为诺亚方舟联合多所高校共同推出的多模态全能处理模型-AIGC资源中心
EMOVA是什么 EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、文本和语音模态,实现能...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
51767

OminiControl-AI图像生成框架,实现图像主题控制和空间精确控制

OminiControl-AI图像生成框架,实现图像主题控制和空间精确控制-AIGC资源中心
OminiControl是什么 OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制,例如边缘引导...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
285102

Talker-Reasoner-谷歌DeepMind推出的双思维AI代理架构

Talker-Reasoner-谷歌DeepMind推出的双思维AI代理架构-AIGC资源中心
Talker-Reasoner是什么 Talker-Reasoner是谷歌DeepMind推出的双思维AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker模拟人类的快速直觉思维(System 1),处理...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
62276

DiffusionSelf-Distillation-斯坦福大学推出的零样本定制图像生成技术

DiffusionSelf-Distillation-斯坦福大学推出的零样本定制图像生成技术-AIGC资源中心
Diffusion Self-Distillation是什么 Diffusion Self-Distillation(扩散自蒸馏,简称DSD)是斯坦福大学吴佳俊团队推出的零样本定制图像生成技术,用预训练的文本到图像扩散模型自动生成数据集,...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
92735