腾讯的 EzAudio AI 将文本转换为逼真的声音,引发创新和争论

柒柒快讯13小时前发布 AI-77
0
腾讯的 EzAudio AI 将文本转换为逼真的声音,引发创新和争论

腾讯约翰霍普金斯大学联合推出了一款名为EzAudio的文本到音频(T2A)生成模型,它能够通过文本提示高效地生成高质量的音效。EzAudio采用了不同于传统使用频谱图的方法,它在音频波形的潜在空间中操作,这使得它在保持高时间分辨率的同时,无需额外的神经声码器。

EzAudio-DiT(Diffusion Transformer)是该模型的架构名称,它结合了多项技术创新,包括一种新的自适应层归一化技术AdaLN-SOLA、长跳跃连接以及高级定位技术RoPE(Rotary Position Embedding)。研究人员声称,EzAudio在客观和主观评估中都优于现有的开源模型,并且在多个指标上展现出了卓越的性能,如Frechet Distance(FD)、Kullback-Leibler散度(KL)和Inception Score(IS)。

随着AI音频生成市场的快速增长,EzAudio的发布恰逢其时。ElevenLabs等公司最近推出了iOS应用进行文本到语音转换,显示出消费者对AI音频工具的兴趣日益增长。同时,像微软和谷歌这样的科技巨头也在AI声音模拟技术上持续投入。

尽管AI在工作场所的广泛应用带来了一些担忧,例如德勤的一项研究发现,几乎一半的员工担心因AI而失业,但那些在工作中更频繁使用AI的人对工作安全感到更加担忧。

随着AI音频生成技术变得更加复杂,伦理和负责任使用的问题变得尤为重要。文本提示生成逼真音频的能力引发了关于潜在滥用的担忧,例如制造深度伪造音频或未经授权的语音克隆。

EzAudio团队公开了他们的代码、数据集和模型检查点,强调透明度,并鼓励该领域的进一步研究。这种开放的方法可能加速AI音频技术的进步,同时也允许更广泛地审查潜在的风险和好处。

研究人员预测,EzAudio可能在音效生成之外有更广泛的应用,包括声音和音乐制作。随着技术的成熟,它可能在娱乐、媒体、辅助服务和虚拟助手等多个行业中得到应用。

EzAudio标志着AI生成音频的一个关键时刻,提供了前所未有的质量和效率。它的潜在应用范围广泛,包括娱乐、辅助和虚拟助手。然而,这一突破也放大了围绕深度伪造和语音克隆的伦理问题。随着AI音频技术的快速发展,挑战在于如何利用其潜力,同时防范滥用。声音的未来已经到来——但我们准备好迎接挑战了吗?

来源:venturebeat

© 版权声明

相关文章

暂无评论

暂无评论...