AI开源项目
Westlake-Omni:西湖心辰推出的中文情感端到端语音交互大模型
Westlake-Omni简介 Westlake-Omni是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型。于2024年9月24日正式开源,Westlake-Omni采用了离散表示法来统...
JoyHallo:京东推出的的一款数字人模型
JoyHallo简介 JoyHallo是由京东推出的的一款数字人模型,专为普通话视频生成设计。该模型通过采用中国版的wav2vec2音频特征嵌入技术和创新的半解耦结构,有效...
Open NotebookLM :将 PDF 文件转化为播客的开源工具
Open NotebookLM 简介 Open NotebookLM 是一个创新的开源工具,能够将 PDF 文档转换成个性化的音频播客。它利用了 Llama 3.1 和 meloTTS 等先进的开源人工智...
CogView3:智谱AI推出的文本到图像生成模型
CogView3简介 CogView3是智谱AI推出的文本到图像生成模型,它采用了名为“接力扩散”的先进技术。这一模型通过先创建低分辨率图像,然后利用超分辨率生成高清晰...
Screenpipe:能够全天候记录用户的屏幕活动和音频输入
Screenpipe简介 Screenpipe是一款创新的开源软件,它通过24小时不间断地记录用户的屏幕和音频活动,结合AI技术,为用户提供个性化智能服务。它的核心优势在于...
GraphReasoning:能将大量科学文献转化为结构化的知识图谱
GraphReasoning简介 GraphReasoning是一种利用生成性人工智能和知识图谱来加速科学发现的方法。它通过将大量科学论文转换成知识图谱,然后对这些图谱进行深入...
SafeEar:浙江与清华联合推出的音频深度伪造检测框架
SafeEar简介 SafeEar是由浙江大学与清华大学联合开发团队提出的一种创新音频深度伪造检测框架。该框架能够在不侵犯语音内容隐私的前提下,有效识别出深度伪造...
Omni-Zero-Couples:生成高质量风格化情侣肖像
Omni-Zero-Couples简介 Omni-Zero-Couples 是一个创新的扩散模型,它能够无需任何图像训练数据,自动生成风格化的情侣肖像。用户可以上传自己的照片,并选择...
Revisit Anything:通过图像片段检索实现视觉位置识别
Revisit Anything简介 Revisit Anything 是一种创新的视觉地点识别(VPR)方法,由印度班加罗尔的印度科学研究所(IISc)和海得拉巴的国际信息技术研究所(II...
FLUX-Controlnet-Inpainting:阿里妈妈推出的AI图像修复模型
FLUX-Controlnet-Inpainting简介 FLUX-Controlnet-Inpainting是由阿里妈妈创意团队开源的AI图像修复模型,融合了FLUX.1-dev的图像生成能力和ControlNet的控制...