AI工具

Search-o1-人大联合清华推出自主知识检索增强的推理框架

Search-o1-人大联合清华推出自主知识检索增强的推理框架-AIGC资源中心
Search-o1是什么 Search-o1是中国人民大学和清华大学推出的创新框架,能提升大型推理模型(LRMs)在面对复杂问题时的推理能力。基于整合代理检索增强生成(RAG)机制和Reason-in-Documents模块...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
96887

SPAR3D-StabilityAI等机构推出的单试图重建3D网络模型

SPAR3D-StabilityAI等机构推出的单试图重建3D网络模型-AIGC资源中心
SPAR3D是什么 SPAR3D是Stability AI和伊利诺伊大学香槟分校推出的,先进的单图生成3D模型方法,能从单张图像中高效重建出高质量的3D对象。SPAR3D基于两阶段设计,第一阶段用点扩散模型生成稀疏...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
26072

rStar-Math-微软推出的小模型复杂推理与自进化SLMs的创新技术

rStar-Math-微软推出的小模型复杂推理与自进化SLMs的创新技术-AIGC资源中心
rStar-Math是什么 rStar-Math是微软亚洲研究院推出的创新研究项目,基于蒙特卡洛树搜索(MCTS)驱动的深度思考,使小型语言模型(SLMs)在数学推理方面达到甚至超越OpenAI大型模型的水平。rStar...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
689105

Hallo3-复旦联合百度开源的高动态与真实感肖像动画生成框架

Hallo3-复旦联合百度开源的高动态与真实感肖像动画生成框架-AIGC资源中心
Hallo3是什么 Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
86354

星火纪要-科大讯飞推出的会议交流总结和分析平台

星火纪要-科大讯飞推出的会议交流总结和分析平台-AIGC资源中心
星火纪要是什么 星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
54642

万相2.1-通义万相最新推出的视频生成模型

万相2.1-通义万相最新推出的视频生成模型-AIGC资源中心
万相2.1是什么 万相2.1是阿里推出的通义万相升级版本。基于自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现中文文字视频生成功能。升级后的通义万...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
65825

星火人设-科大讯飞推出的专为情感交互设计的独立模型

星火人设-科大讯飞推出的专为情感交互设计的独立模型-AIGC资源中心
星火人设是什么 星火人设是科大讯飞推出的专为情感交互而设计的独立模型(角色模拟API),具备人物设定、剧情演绎与语言风格等控制选项,支持模型精调。在规模C端用户的双盲体验测试中,星火人...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
30770

STAR-南大、字节、西南大学联合开源的现实世界视频超分辨率框架

STAR-南大、字节、西南大学联合开源的现实世界视频超分辨率框架-AIGC资源中心
STAR是什么 STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR整...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
62678

TransPixar-港中文联合Adobe等机构开源的生成透明背景视频技术

TransPixar-港中文联合Adobe等机构开源的生成透明背景视频技术-AIGC资源中心
TransPixar是什么 TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA视频。TransPixar...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
34591

Aria-UI-港大联合RhymesAI开源面向GUI智能交互的多模态模型

Aria-UI-港大联合RhymesAI开源面向GUI智能交互的多模态模型-AIGC资源中心
Aria-UI是什么 Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
640124

MultiBooth-清华联合Meta等机构推出的多概念图像生成方法

MultiBooth-清华联合Meta等机构推出的多概念图像生成方法-AIGC资源中心
MultiBooth是什么 MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
43993

Ingredients-多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合

Ingredients-多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合-AIGC资源中心
Ingredients是什么 Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频生成:面部提取...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
10486

ArtCrafter-清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架

ArtCrafter-清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架-AIGC资源中心
ArtCrafter是什么 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCrafter基...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
829108

Seer-上海AILab联合北大等机构推出的端到端操作模型

Seer-上海AILab联合北大等机构推出的端到端操作模型-AIGC资源中心
Seer是什么 Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
47141

EnerVerse-智元机器人推出的首个机器人4D世界模型

EnerVerse-智元机器人推出的首个机器人4D世界模型-AIGC资源中心
EnerVerse是什么 EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,旨在通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型,结合稀疏记忆机制(Sparse Memory)和...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
57332

AutoDroid-V2-清华推出的移动端GUI自动化脚本代理

AutoDroid-V2-清华推出的移动端GUI自动化脚本代理-AIGC资源中心
AutoDroid-V2是什么 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设备上的GUI代理性能。AutoDroid-V2分析应用的...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
66454

SeedVR-南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复

SeedVR-南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复-AIGC资源中心
SeedVR是什么 SeedVR是南洋理工大学和字节跳动推出的扩散变换器模型,能实现高质量的通用视频修复。SeedVR基于引入移位窗口注意力机制,采用大尺寸(64×64)窗口和边界处的可变大小窗口,有效...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
53545

LIGER-MetaAI等机构推出的混合检索模型

LIGER-MetaAI等机构推出的混合检索模型-AIGC资源中心
LIGER是什么 LIGER是Meta AI等机构推出的混合检索模型,结合生成式检索和密集检索的优点。LIGER用生成式检索模块生成有限的候选项目集,基于密集检索对候选项目进行排序和优化,保留生成式检索...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
896128

SPRIGHT-专注于空间关系的大型视觉语言数据集

SPRIGHT-专注于空间关系的大型视觉语言数据集-AIGC资源中心
SPRIGHT是什么 SPRIGHT(SPatially RIGHT)是亚利桑那州立大学 、Intel 实验室 、Hugging Face 、华盛顿大学等机构联合推出的,专注于空间关系的大型视觉-语言数据集,能解决现有文本到图像(T2...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
188130

VideoRAG-用于长视频理解的检索增强生成技术

VideoRAG-用于长视频理解的检索增强生成技术-AIGC资源中心
VideoRAG是什么 VideoRAG是用于长视频理解的检索增强生成(Retrieval-Augmented Generation)技术。通过提取视频中的视觉对齐辅助文本,帮助大型视频语言模型(LVLMs)更好地理解和处理长视频内...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
963123