GLM-4-Voice：智谱AI于推出的端到端情感语音模型

3-7.语音模型3个月前更新 AI-77

0 20

GLM-4-Voice简介

GLM-4-Voice是智谱AI于推出的端到端情感语音模型，旨在提升人机交互的自然性和灵活性。该模型具备情感理解与表达能力，能够模拟多种情绪并实时调整语速，以适应用户需求。同时，它支持多语言和方言的语音生成，特别适合中国市场。GLM-4-Voice采用流式思考架构，减少信息损失，实现高质量语音合成。未来，该模型还将集成视频通话功能，进一步丰富互动体验。智谱AI计划将其开源，使更多用户能够体验这一创新技术，推动教育、客服等多个行业的发展。

GLM-4-Voice：智谱AI于推出的端到端情感语音模型

GLM-4-Voice主要功能

语音理解与生成：能够直接处理中英文语音输入，并生成相应的语音输出。
实时语音对话：支持低延迟的实时语音交互，提升用户体验。
情感控制：根据用户指令调整语音的情感、语调、语速和方言等属性。
灵活输入：允许用户随时打断对话并灵活输入指令，增强互动性。
多语言支持：支持中英文及多种地方方言，如粤语和重庆话。
视频通话集成：未来将结合视频通话功能，实现视听互动。

GLM-4-Voice技术原理

Tokenizer：通过在Whisper的编码器部分增加向量量化，将连续语音输入转化为离散token。
Decoder：基于CosyVoice的流匹配模型结构，支持流式推理的语音解码。
预训练能力：在GLM-4-9B基础上进行数百万小时音频和数千亿token的预训练，增强音频理解和建模能力。
流式思考架构：实现文本和语音的流式交替输出，降低对话延迟并提高响应速度。

GLM-4-Voice应用场景

智能客服：通过情感语音模型提供个性化的客户服务，提升客户满意度和互动体验。
教育领域：根据学生的情绪实时调整教学语音，增强课堂互动性和趣味性。
娱乐行业：用于游戏解说或故事讲述，能够根据情节变化调整语音情感，提升沉浸感。
医疗健康：在心理咨询或疗愈场景中，通过温和的语音引导用户放松，缓解焦虑。
语言学习：帮助用户练习发音和语调，通过实时反馈提升语言学习效果。
视频通话应用：结合视频通话功能，实现更加自然的人机互动，适用于远程会议或在线咨询。

GLM-4-Voice项目入口

项目主页：https://zhipuai.cn/news/141?tab=1
GitHub仓库：https://github.com/THUDM/GLM-4-Voice

# 3-7.语音模型 # 3.AI大模型数据库 # AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

AnimateDiff：文本到图像模型扩展为动画生成器的框架

AI-77cn

100

Scribe：ElevenLabs推出的高精度语音转文本模型

AI-77cn

30

Lobe Chat：现代化设计的开源 ChatGPT/LLMs 聊天应用与开发框架

AI-77cn

80

FlashVideo：字节联合香港高校推出的高分辨率视频生成框架

AI-77cn

20

GaussianEditor：使用高斯溅射实现快速且可控的 3D 编辑

AI-77cn

60

Lumina-mGPT 2.0：一款开源的自回归图像模型

AI-77cn

70

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号