AI工具

豆包3D生成模型-豆包推出3D生成模型,自然语言交互实时生成3D场景图

豆包3D生成模型-豆包推出3D生成模型,自然语言交互实时生成3D场景图-AIGC资源中心
豆包3D生成模型是什么 豆包3D生成模型是豆包推出的3D生成模型,属于豆包大模型家族。模型基于3D-DiT 架构,能生成高质量 3D 模块。与火山引擎数字孪生平台 veOmniverse 结合使用,能高效完成智...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
997122

MV-Adapter-北航联合VAST等开源的多视图一致图像生成模型

MV-Adapter-北航联合VAST等开源的多视图一致图像生成模型-AIGC资源中心
MV-Adapter是什么 MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
559112

FACTSGrounding-谷歌推出的评估大模型能力的基准测试

FACTSGrounding-谷歌推出的评估大模型能力的基准测试-AIGC资源中心
FACTS Grounding是什么 FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
61471

MarkItDown-微软开源的多功能、多格式文档转Markdown工具

MarkItDown-微软开源的多功能、多格式文档转Markdown工具-AIGC资源中心
MarkItDown是什么 MarkItDown是微软开源的多功能文档转换工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文字和元数据提取,...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
798123

EMMA-X-新加坡科技设计大学推出的具身多模态动作模型

EMMA-X-新加坡科技设计大学推出的具身多模态动作模型-AIGC资源中心
EMMA-X是什么 EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
537121

WeaveFox-蚂蚁推出AI前端研发平台,根据设计图直接生成源代码

WeaveFox-蚂蚁推出AI前端研发平台,根据设计图直接生成源代码-AIGC资源中心
WeaveFox是什么 WeaveFox是蚂蚁团队推出的AI前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、移动端H5、小程序等,兼...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
12132

UniReal-港大联合Adobe推出的通用图像生成和编辑框架

UniReal-港大联合Adobe推出的通用图像生成和编辑框架-AIGC资源中心
UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
8648

X-AnyLabeling-AI图像标注工具,支持图像和视频多样化标注样式

X-AnyLabeling-AI图像标注工具,支持图像和视频多样化标注样式-AIGC资源中心
X-AnyLabeling是什么 X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供图像级与对象级...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
88698

Explorer-AI3D世界生成模型,文本图像秒变3D渲染场景

Explorer-AI3D世界生成模型,文本图像秒变3D渲染场景-AIGC资源中心
Explorer是什么 Explorer是Odyssey公司推出的生成性世界模型,能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界,支持动态效果的生成。Explorer基于高斯溅射技术来重建场景,提...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
499117

Gemini2.0FlashThinking-谷歌推出的实验性推理模型,展示详细思考过程

Gemini2.0FlashThinking-谷歌推出的实验性推理模型,展示详细思考过程-AIGC资源中心
Gemini 2.0 Flash Thinking是什么 Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型,能快速思考和解决问题。Gemini 2.0 Flash Thinking展示详细的思考过程,与OpenAI的o1模型不同,Gemini 2...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
78972

Genesis-CMU联合20多所研究机构开源的生成式物理引擎

Genesis-CMU联合20多所研究机构开源的生成式物理引擎-AIGC资源中心
Genesis是什么 Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快速生成精确的物理模拟...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
63782

AniDoc-2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画

AniDoc-2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画-AIGC资源中心
AniDoc是什么 AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画,遵循参考角色设计。模型用对应...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
16621

ElevenLabsFlash-ElevenLabs推出的低延迟语音合成模型

ElevenLabsFlash-ElevenLabs推出的低延迟语音合成模型-AIGC资源中心
ElevenLabs Flash是什么 ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型,专为快速对话型AI设计。ElevenLabs Flash有两个版本:Flash v2仅支持英语,Flash v2.5支持32种语言。ElevenLab...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
83876

OpenAIo3-OpenAI推出的新一代最强推理模型

OpenAIo3-OpenAI推出的新一代最强推理模型-AIGC资源中心
OpenAI o3是什么 OpenAI o3模型是继o1之后的新一代推理模型,包括o3和o3-mini两个版本。o3在某些条件下接近于通用人工智能(AGI),在ARC-AGI基准测试中得分高达87.5%,远超人类平均水平。它在...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
859102

StyleStudio-文本驱动的风格迁移模型,能将参考图像的风格与文本提示内容融合

StyleStudio-文本驱动的风格迁移模型,能将参考图像的风格与文本提示内容融合-AIGC资源中心
StyleStudio是什么 StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的,文本驱动的风格迁移模型,能将参考图像的风格与文本提示的内容融合。StyleStudio...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
32639

RWKV-7-RWKV系列的最新大模型架构版本,有强大的上下文学习能力

RWKV-7-RWKV系列的最新大模型架构版本,有强大的上下文学习能力-AIGC资源中心
RWKV-7是什么 RWKV-7是RWKV系列的最新大模型架构版本,超越了传统的attention和linear attention范式,具有更灵活的状态演化能力,能在相同算力消耗下解决attention无法解决的问题。RWKV-7的研...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
21085

PromptWizard-微软开源的AI提示词自动化优化框架

PromptWizard-微软开源的AI提示词自动化优化框架-AIGC资源中心
PromptWizard PromptWizard是微软推出的自动化提示优化框架,改进大型语言模型(LLMs)在特定任务中的表现。基于自我演变和自我适应机制,PromptWizard用反馈驱动的批评和合成过程,在探索和利...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
57227

INFP-音频驱动的生成逼真面部表情和头部姿态的AI框架

INFP-音频驱动的生成逼真面部表情和头部姿态的AI框架-AIGC资源中心
INFP是什么 INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头部模仿阶段和音频引导动...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
62659

VisionFM-通用眼科AI大模型,具备少样本多种疾病诊断能力

VisionFM-通用眼科AI大模型,具备少样本多种疾病诊断能力-AIGC资源中心
VisionFM是什么 VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设备和人...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
31860

MetaMorph-统一多模态理解与生成大模型,基于VPiT预测多模态token

MetaMorph-统一多模态理解与生成大模型,基于VPiT预测多模态token-AIGC资源中心
MetaMorph是什么 MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning(VPiT)的方法,使得预训...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
86384