AI工具

AgentScope-阿里开源的多智能体开发平台

AgentScope-阿里开源的多智能体开发平台-AIGC资源中心
AgentScope是什么 AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
7524

LeviTor-南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

LeviTor-南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术-AIGC资源中心
LeviTor是什么 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
33530

3D-Speaker-阿里通义推出的多模态说话人识别任务开源项目

3D-Speaker-阿里通义推出的多模态说话人识别任务开源项目-AIGC资源中心
3D-Speaker是什么 3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
266119

ERA-42-星动纪元推出的端到端原生机器人大模型

ERA-42-星动纪元推出的端到端原生机器人大模型-AIGC资源中心
ERA-42是什么 ERA-42是北京星动纪元推出的端到端原生机器人大模型,与自研的五指灵巧手星动XHAND1结合,能完成100多种复杂灵巧操作任务。ERA-42无需预编程,具备快速学习新技能的能力,能在2小...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
9283

Baichuan4-Finance-百川智能推出的全链路金融领域增强大模型

Baichuan4-Finance-百川智能推出的全链路金融领域增强大模型-AIGC资源中心
Baichuan4-Finance是什么 Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo,用领域自约束训练,在保持通用...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
94425

VSI-Bench-李飞飞谢赛宁团队推出的视觉空间智能基准测试集

VSI-Bench-李飞飞谢赛宁团队推出的视觉空间智能基准测试集-AIGC资源中心
VSI-Bench是什么 VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
174115

Bamba-9B-基于Mamba2架构的仅解码语言模型

Bamba-9B-基于Mamba2架构的仅解码语言模型-AIGC资源中心
Bamba-9B是什么 Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提高大型语言模型的推...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
65322

Univer-开源AI办公工具,支持Word、Excel等文档处理全栈解决方案

Univer-开源AI办公工具,支持Word、Excel等文档处理全栈解决方案-AIGC资源中心
Univer是什么 Univer是开源的全栈框架,支持创建和编辑电子表格、文档及幻灯片,为用户提供统一且强大的办公解决方案。Univer能在浏览器和Node.js环境中运行,易于集成到各种应用中。Univer跨平...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
32458

Kheish-开源的多智能体协调平台,可灵活配置多个Agent解决复杂任务

Kheish-开源的多智能体协调平台,可灵活配置多个Agent解决复杂任务-AIGC资源中心
Kheish是什么 Kheish是基于大型语言模型(LLM)的多智能体编排开源平台,用多个专门的角色(智能体)和灵活的工作流协调复杂任务的各个步骤,如提案生成、审核、验证和格式化,产生高质量结果。...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
25629

HelloMeme-面部表情与姿态迁移框架,基于StableDiffusion1.5模型理解能力

HelloMeme-面部表情与姿态迁移框架,基于StableDiffusion1.5模型理解能力-AIGC资源中心
HelloMeme是什么 HelloMeme是基于最新的Diffusion生成技术的框架,实现表情与姿态的迁移,HelloMeme集成空间编织注意力(Spatial Knitting Attentions)机制,基于Stable Diffusion 1.5模型的理...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
18385

InvSR-开源图像超分辨率模型,高清修复老旧照片

InvSR-开源图像超分辨率模型,高清修复老旧照片-AIGC资源中心
InvSR是什么 InvSR是创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验,改善超分辨率的效果。InvSR的核心在于深度噪声预测器,预测器能估...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
44447

CLEAR-新加坡国立大学推出的线性注意力机制,生成8K图像时提速6.3倍

CLEAR-新加坡国立大学推出的线性注意力机制,生成8K图像时提速6.3倍-AIGC资源中心
CLEAR是什么 CLEAR是新加坡国立大学推出新型线性注意力机制,能提升预训练扩散变换器(DiTs)生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内,CLEAR实现了对图像分辨率的线性...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
33275

DisPose-北大等多所高校推出的增强人物图像控制动画质量的技术

DisPose-北大等多所高校推出的增强人物图像控制动画质量的技术-AIGC资源中心
DisPose是什么 DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效的控制信号,无需额...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
51783

OCTAVE-HumeAI推出的语音语言模型

OCTAVE-HumeAI推出的语音语言模型-AIGC资源中心
OCTAVE 是什么 OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言模型,结合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系统的能力。OCTAVE能从简短提示或录音...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
44598

Granite3.1-IBM推出的新版语言模型

Granite3.1-IBM推出的新版语言模型-AIGC资源中心
Granite 3.1是什么 Granite 3.1是IBM推出的新一代语言模型,具有强大的性能和更长的上下文处理能力。Granite 3.1模型家族有 4 种不同的尺寸和 2 种架构:密集模型2B和8B参数模型,总共使用 12 ...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
64635

Sketch2Sound-Adobe联合西北大学推出的AI音频生成技术

Sketch2Sound-Adobe联合西北大学推出的AI音频生成技术-AIGC资源中心
Sketch2Sound是什么 Sketch2Sound是Adobe 研究院和西北大学推出的AI音频生成技术,能基于声音模仿和文本提示生成高品质音效。Sketch2Sound从声音模仿中提取响度、亮度和音高三个控制信号,将控...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
90864

OmniAudio-2.6B-NexaAI推出的端侧多模态音频语言模型

OmniAudio-2.6B-NexaAI推出的端侧多模态音频语言模型-AIGC资源中心
OmniAudio-2.6B是什么 OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2b、Whisper T...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
93682

DreamOmni-港中文、字节等机构共同推出的统一图像生成和编辑模型

DreamOmni-港中文、字节等机构共同推出的统一图像生成和编辑模型-AIGC资源中心
DreamOmni是什么 DreamOmni 是香港中文大学、字节跳动和香港科技大学共同推出的统一图像生成和编辑模型。模型整合文本到图像(T2I)生成和多种编辑任务,包括指令式编辑、修复、拖拽编辑和参考...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
67370

QVQ-阿里通义开源的视觉推理模型

QVQ-阿里通义开源的视觉推理模型-AIGC资源中心
QVQ是什么 QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
18497

OpenNotebook-开源AI笔记工具,自动将多格式笔记转换成博客

OpenNotebook-开源AI笔记工具,自动将多格式笔记转换成博客-AIGC资源中心
Open Notebook是什么 Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成AI辅助笔记,并与内容互动。Open Notebook支持多笔记本、多模型,包括Open AI...
AIGC的头像-AIGC资源中心超级会员AIGC3个月前
13052