AI开源项目 | 第 28 页

Westlake-Omni：西湖心辰推出的中文情感端到端语音交互大模型

Westlake-Omni简介 Westlake-Omni是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型。于2024年9月24日正式开源，Westlake-Omni采用了离散表示法来统...

AI开源项目

3个月前

JoyHallo简介 JoyHallo是由京东推出的的一款数字人模型，专为普通话视频生成设计。该模型通过采用中国版的wav2vec2音频特征嵌入技术和创新的半解耦结构，有效...

2-3.应用工具视频

3个月前

Open NotebookLM 简介 Open NotebookLM 是一个创新的开源工具，能够将 PDF 文档转换成个性化的音频播客。它利用了 Llama 3.1 和 meloTTS 等先进的开源人工智...

2-4.应用工具音频

3个月前

CogView3简介 CogView3是智谱AI推出的文本到图像生成模型，它采用了名为“接力扩散”的先进技术。这一模型通过先创建低分辨率图像，然后利用超分辨率生成高清晰...

3-2.图片生成模型

3个月前

Screenpipe简介 Screenpipe是一款创新的开源软件，它通过24小时不间断地记录用户的屏幕和音频活动，结合AI技术，为用户提供个性化智能服务。它的核心优势在于...

2-5.应用工具其他

3个月前

GraphReasoning简介 GraphReasoning是一种利用生成性人工智能和知识图谱来加速科学发现的方法。它通过将大量科学论文转换成知识图谱，然后对这些图谱进行深入...

2-1.应用工具文本

3个月前

SafeEar简介 SafeEar是由浙江大学与清华大学联合开发团队提出的一种创新音频深度伪造检测框架。该框架能够在不侵犯语音内容隐私的前提下，有效识别出深度伪造...

AI开源项目

3个月前

Omni-Zero-Couples简介 Omni-Zero-Couples 是一个创新的扩散模型，它能够无需任何图像训练数据，自动生成风格化的情侣肖像。用户可以上传自己的照片，并选择...

2-2.应用工具图像

3个月前

Revisit Anything简介 Revisit Anything 是一种创新的视觉地点识别（VPR）方法，由印度班加罗尔的印度科学研究所（IISc）和海得拉巴的国际信息技术研究所（II...

2-5.应用工具其他

3个月前

FLUX-Controlnet-Inpainting简介 FLUX-Controlnet-Inpainting是由阿里妈妈创意团队开源的AI图像修复模型，融合了FLUX.1-dev的图像生成能力和ControlNet的控制...

2-2.应用工具图像

3个月前