腾讯的 EzAudio AI 将文本转换为逼真的声音，引发创新和争论

0 20

腾讯和约翰霍普金斯大学联合推出了一款名为EzAudio的文本到音频（T2A）生成模型，它能够通过文本提示高效地生成高质量的音效。EzAudio采用了不同于传统使用频谱图的方法，它在音频波形的潜在空间中操作，这使得它在保持高时间分辨率的同时，无需额外的神经声码器。

EzAudio-DiT（Diffusion Transformer）是该模型的架构名称，它结合了多项技术创新，包括一种新的自适应层归一化技术AdaLN-SOLA、长跳跃连接以及高级定位技术RoPE（Rotary Position Embedding）。研究人员声称，EzAudio在客观和主观评估中都优于现有的开源模型，并且在多个指标上展现出了卓越的性能，如Frechet Distance（FD）、Kullback-Leibler散度（KL）和Inception Score（IS）。

随着AI音频生成市场的快速增长，EzAudio的发布恰逢其时。ElevenLabs等公司最近推出了iOS应用进行文本到语音转换，显示出消费者对AI音频工具的兴趣日益增长。同时，像微软和谷歌这样的科技巨头也在AI声音模拟技术上持续投入。

尽管AI在工作场所的广泛应用带来了一些担忧，例如德勤的一项研究发现，几乎一半的员工担心因AI而失业，但那些在工作中更频繁使用AI的人对工作安全感到更加担忧。

随着AI音频生成技术变得更加复杂，伦理和负责任使用的问题变得尤为重要。文本提示生成逼真音频的能力引发了关于潜在滥用的担忧，例如制造深度伪造音频或未经授权的语音克隆。

EzAudio团队公开了他们的代码、数据集和模型检查点，强调透明度，并鼓励该领域的进一步研究。这种开放的方法可能加速AI音频技术的进步，同时也允许更广泛地审查潜在的风险和好处。

研究人员预测，EzAudio可能在音效生成之外有更广泛的应用，包括声音和音乐制作。随着技术的成熟，它可能在娱乐、媒体、辅助服务和虚拟助手等多个行业中得到应用。

EzAudio标志着AI生成音频的一个关键时刻，提供了前所未有的质量和效率。它的潜在应用范围广泛，包括娱乐、辅助和虚拟助手。然而，这一突破也放大了围绕深度伪造和语音克隆的伦理问题。随着AI音频技术的快速发展，挑战在于如何利用其潜力，同时防范滥用。声音的未来已经到来——但我们准备好迎接挑战了吗？

来源：venturebeat

# 柒柒快讯