Sesame发布的超真实AI语音模型-CSM 现已开源

CSM(Conversational Speech Model)是由Sesame团队开发的一款先进对话语音模型,旨在让AI语音交互更加自然和富有情感。它采用多模态Transformer架构,结合Residual Vector Quantization(RVQ)技术,能够捕捉语音的语义和声学细节,生成高度逼真的语音效果。CSM支持上下文感知和情感智能,可根据对话历史动态调整语音表现,支持多语言和多说话人交互,延迟极低,适合实时对话场景。其自然度和情感表达能力显著提升,跨越了“恐怖谷”,为用户带来如同与真人交流的体验。【现已开源】
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...