2.应用工具相关

Hi3DGen:字节联合清华等高校推出的3D几何生成框架

Hi3DGen简介 Hi3DGen是由香港中文大学(深圳)、字节跳动和清华大学联合开发的高保真3D几何生成框架。该框架通过法线图作为中间表示,有效解决了从2D图像生成...

MegaTTS 3:字节跳动开源的文本到语音模型

MegaTTS 3简介 MegaTTS 3是由字节跳动开源的高效文本到语音(TTS)模型。它以轻量级和高效性为特点,参数量仅0.45亿,却能实现超高音质的语音克隆,支持中文...

ObjectMover:在移动图像位置时能保持物体的身份和外观

ObjectMover简介 ObjectMover是由香港大学和Adobe Research联合开发的一种新型生成模型。该模型能够在一个图像中移动物体,同时保持物体的身份、调整光照和阴...

PhysGen3D:将单张图像转化为一个交互式的3D世界

PhysGen3D简介 PhysGen3D是由清华大学、伊利诺伊大学香槟分校和哥伦比亚大学的研究团队共同开发的一个创新框架,它能够将单张图像转化为一个交互式的3D世界,...

EmotiVoice:网易有道开源的语音合成系统

EmotiVoice简介 EmotiVoice是由网易有道开发的一款开源多语音和提示控制的文本到语音(TTS)系统。它支持英语和中文,拥有超过2000种不同的语音选择,并具备...

Vibe Draw:让用户将最粗糙的草图转化为3D 世界

Vibe Draw 简介 Vibe Draw 能够让用户将最粗糙的草图轻松转化为令人惊叹的 3D 世界。这个团队凭借深厚的技术功底和对艺术创作的深刻理解,将前沿的 AI 技术与...

OmniSQL:字节联合人大等开源的Text-to-SQL模型

OmniSQL简介 OmniSQL是由中国人民大学、字节跳动公司以及相关科研机构联合开发的开源Text-to-SQL模型。该模型基于一个创新的、可扩展的数据合成框架,能够自...

VideoMind:香港理工大学等推出的视频语言智能体

VideoMind简介 VideoMind是由香港理工大学和新加坡国立大学Show Lab联合开发的一种新型视频语言智能体,专为长视频的时序理解而设计。它通过角色化工作流程,...

TripoSG:VAST等推出的高保真3D形状合成模型

TripoSG简介 TripoSG是由VAST和中国香港中文大学、德克萨斯大学奥斯汀分校以及上海人工智能实验室等机构联合开发的高保真3D形状合成模型。该模型通过大规模整...

SparseFlex:香港中文大学等推出的3D基础模型

SparseFlex简介 SparseFlex是由清华大学、VAST和香港中文大学的研究团队共同开发的一种新型稀疏结构等值面表示方法,旨在实现高分辨率和任意拓扑的3D形状建模...
1 8 9 10 11 12 85