2.应用工具相关
EmotiVoice:网易有道开源的语音合成系统
EmotiVoice简介 EmotiVoice是由网易有道开发的一款开源多语音和提示控制的文本到语音(TTS)系统。它支持英语和中文,拥有超过2000种不同的语音选择,并具备...
Vibe Draw:让用户将最粗糙的草图转化为3D 世界
Vibe Draw 简介 Vibe Draw 能够让用户将最粗糙的草图轻松转化为令人惊叹的 3D 世界。这个团队凭借深厚的技术功底和对艺术创作的深刻理解,将前沿的 AI 技术与...
OmniSQL:字节联合人大等开源的Text-to-SQL模型
OmniSQL简介 OmniSQL是由中国人民大学、字节跳动公司以及相关科研机构联合开发的开源Text-to-SQL模型。该模型基于一个创新的、可扩展的数据合成框架,能够自...
VideoMind:香港理工大学等推出的视频语言智能体
VideoMind简介 VideoMind是由香港理工大学和新加坡国立大学Show Lab联合开发的一种新型视频语言智能体,专为长视频的时序理解而设计。它通过角色化工作流程,...
TripoSG:VAST等推出的高保真3D形状合成模型
TripoSG简介 TripoSG是由VAST和中国香港中文大学、德克萨斯大学奥斯汀分校以及上海人工智能实验室等机构联合开发的高保真3D形状合成模型。该模型通过大规模整...
SparseFlex:香港中文大学等推出的3D基础模型
SparseFlex简介 SparseFlex是由清华大学、VAST和香港中文大学的研究团队共同开发的一种新型稀疏结构等值面表示方法,旨在实现高分辨率和任意拓扑的3D形状建模...
PaddleSpeech:百度飞桨团队开源的全功能语音处理工具包
PaddleSpeech简介 PaddleSpeech是由百度飞桨团队开发的一个开源的、全功能的语音处理工具包。它旨在通过提供易于使用的命令行界面和简洁的代码结构,降低语音...
ChatAnyone:阿里通义推出的实时肖像视频生成框架
ChatAnyone简介 ChatAnyone是由阿里巴巴集团通义实验室开发的一种新型实时肖像视频生成框架。它通过分层运动扩散模型和混合控制融合生成模型,能够根据输入的...
RoboBrain:该模型专为机器人操作任务设计
RoboBrain简介 RoboBrain是由北京大学计算机学院多媒体信息处理国家重点实验室、北京人工智能研究院、中国科学院自动化研究所、中国科学院信息工程研究所、香...
LeX-Art:满足用户对于图像质量和视觉效果的高要求
LeX-Art简介 LeX-Art是一个致力于提升文本到图像合成质量的综合性研究项目。它通过数据驱动的方法,构建了LeX-10K这一包含10,000张高分辨率、高质量文本图像...