TextToon:将单目视频实时转换成卡通化风格的角色头像
TextToon简介 TextToon是由美国罗切斯特大学与字节跳动公司联合开发的一种创新方法,它能够将单目视频实时转换成卡通化的头像。这一技术允许用户通过简单的文...
DreamWaltz-G:根据文本提示生成具有丰富细节和清晰纹理的3D头像
DreamWaltz-G简介 DreamWaltz-G是由香港大学的研究团队开发的一种创新框架,用于从文本提示生成可动的3D头像。该框架结合了预训练的2D扩散模型和得分蒸馏采样...
DressRecon:从单目视频重建出包含形状、外观和动态变化的4D人体模型
DressRecon简介 DressRecon是一种创新的4D人体重建方法,旨在从单目视频中生成时间一致的人体模型,特别关注宽松衣物和手持物体的动态交互。该技术由卡内基梅...
Podcastfy:将多种文本内容转换为生动的音频对话
Podcastfy简介 Podcastfy 是一个开源 Python 包,旨在将多种文本内容(如网页和 PDF 文件)转换为生动的音频对话。它利用先进的生成式人工智能技术,支持多语...
BooW-VTON:在保留人物特征的同时 生成高质量的试穿图像
BooW-VTON简介 BooW-VTON是由天津大学和阿里巴巴集团共同开发的一种先进的虚拟试穿技术。这项技术通过创新的训练范式和数据增强方法,能够在没有精确遮罩的情...
Inverse Painting:从一幅已完成的绘画作品中重建其创作过程
Inverse Painting简介 Inverse Painting是一种创新的人工智能技术,由华盛顿大学的研究团队开发。这项技术能够从一幅已完成的绘画作品中重建其创作过程,生成...
Suno推出精细化编辑功能,让音乐创作更自由
Suno最近推出了局部编辑功能,允许用户精确替换歌曲中的特定部分,如歌词和乐器间奏。这一功能使得创作者可以选择10到30秒的片段进行个性化调整,确保对每个...
Playground v3:Playground Research推出的文本到图像生成模型
Playground v3简介 Playground v3(PGv3)是由Playground Research团队最新开发的文本到图像生成模型,它通过深度融合大型语言模型(LLMs),在文本提示的遵...
Lotus:基于扩散的高质量密集预测可视化基础模型
Lotus简介 Lotus是由香港科技大学(广州)、阿德莱德大学和华为诺亚方舟实验室的研究人员联合开发的一种新型视觉基础模型。该模型基于扩散模型,专门针对高质...
CapsWriter-Offline:一个 PC 端的语音输入、字幕转录工具
CapsWriter-Offline简介 CapsWriter-Offline是一款离线语音输入和转录工具,专为PC用户设计。它允许用户在没有互联网连接的情况下进行长时间的语音录入和实时...