Sesame发布的超真实AI语音模型-CSM 现已开源

0 90

CSM（Conversational Speech Model）是由Sesame团队开发的一款先进对话语音模型，旨在让AI语音交互更加自然和富有情感。它采用多模态Transformer架构，结合Residual Vector Quantization（RVQ）技术，能够捕捉语音的语义和声学细节，生成高度逼真的语音效果。CSM支持上下文感知和情感智能，可根据对话历史动态调整语音表现，支持多语言和多说话人交互，延迟极低，适合实时对话场景。其自然度和情感表达能力显著提升，跨越了“恐怖谷”，为用户带来如同与真人交流的体验。【现已开源】

详细介绍：https://ai-77.cn/15695/

# AI新发布/功能更新