AI项目合集

Kyutai:法国人工智能研究实验室Kyutai推出的实时语音多模态模型

Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的先进实时语音助手,该实验室由iliad集团、CMA CGM和Schmidt Sciences共同创立。Moshi以其独特的多模...

Meta 3D Gen:根据文本快速生成高质量的3D素材

Meta 3D Gen简介 Meta 3D Gen(3DGen)是由Meta公司的GenAI团队开发的一项突破性技术,它提供了一个快速、高效的文本到3D资产生成流程。3DGen通过集成Meta 3D...

微软开源GraphRAG:增强大模型搜索、问答、摘要、推理等能力

GraphRAG简介 GraphRAG是由微软研究院开发的一项创新技术,它通过结合大型语言模型(LLM)生成的知识图谱和图机器学习,显著提升了在处理复杂信息和私有数据...

Fish Speech:高效开源TTS工具,实现自然流畅的语音合成

Fish Speech简介 Fish Speech 是一款由 Fish Audio 开发的开源文本到语音合成工具,具备多语言支持和高效的语音处理能力。它以低显存需求、快速推理速度和高...

MimicMotion:根据指定的动作生成高质量、任意长度的视频

MimicMotion项目简介 MimicMotion 是由腾讯公司与上海交通大学联合开发的一项先进的视频生成技术。这项技术能够根据指定的动作指导生成高质量、任意长度的人...

FoleyCrafter:根据视频内容自动生成高质量的声音效果

FoleyCrafter项目简介 FoleyCrafter 是一个创新的文本驱动视频到音频生成框架,它能够根据视频内容自动生成高质量且语义相关、时间同步的声音效果。这一技术...

MARS5-TTS:深度语音克隆技术,实现个性化文本到语音的精准转换

MARS5-TTS项目简介 MARS5-TTS是由Camb-ai团队开发的一款先进的语音合成模型,它通过创新的两阶段AR-NAR技术,能够仅用5秒的音频样本和文本输入,生成具有丰富...

LLM Compiler:Meta最新推出的高效代码优化语言模型

LLM Compiler简介 LLM Compiler(Large Language Model Compiler)是由Meta最新推出的大型语言模型编译器,专为代码优化任务设计。它基于Code Llama模型,通...

Paint by Inpaint:基于文本指令的自动化图像对象添加技术

Paint by Inpaint简介 Paint by Inpaint 是由魏茨曼科学研究所和以色列理工学院的研究团队开发的一项创新图像编辑技术。该技术通过一种新颖的方法,首先从图...

PAB:基于扩散模型的实时视频生成技术

PAB项目简介 Pyramid Attention Broadcast(PAB)是由新加坡国立大学和普渡大学的研究团队共同开发的一项创新技术。它突破性地实现了基于扩散模型的实时视频...
1 22 23 24 25 26 38