Sketch2Sound：能够根据声音模仿（如口头模仿）生成声音

2-4.应用工具音频3个月前更新 AI-77

0 50

Sketch2Sound简介

Sketch2Sound是一个音频生成模型，它能够通过理解和响应时间变化的控制信号（如响度、亮度和音高）以及文本提示，从声音模仿中合成高质量的声音效果。该模型建立在文本到音频潜在扩散变换器（DiT）之上，仅需少量微调步骤和线性层，即可实现对声音的精细控制。Sketch2Sound的独特之处在于，它允许声音艺术家以文本提示的语义灵活性和声音模仿的表达性来创造声音，同时在生成过程中提供对声音细节的控制，使得声音设计更加直观和富有表现力。

Sketch2Sound：能够根据声音模仿（如口头模仿）生成声音

Sketch2Sound主要功能

从声音模仿生成声音：Sketch2Sound能够根据声音模仿（如口头模仿）生成声音，提供一种自然的音频概念交流方式。
控制信号合成：通过响度、亮度（光谱中心）和音高这三个可解释的时间变化控制信号来合成声音。
文本提示结合：允许用户结合文本提示和声音模仿来创造声音，增加了声音设计的灵活性。
轻量级实现：能够在任何文本到音频潜在扩散变换器（DiT）上实现，只需40k步的微调和每个控制一个线性层。
灵活的时间特异性：通过在训练中应用随机中值滤波器，允许在保持声音模仿的大致轮廓的同时，调整声音的时间特异性。

Sketch2Sound技术原理

时间变化控制信号提取：
- 响度：通过在幅度频谱图上执行A加权求和并取RMS值来提取每帧的响度。
- 音高和周期性：使用CREPE模型的原始音高概率，去除低于0.1的概率值以避免泄露音色信息。
- 光谱中心：将线性频率空间的信号转换为类似MIDI的连续表示，通过除以127（大约12.5kHz）来预处理。
潜在扩散变换器（DiT）的微调：
- 使用大型预训练的文本到声音潜在扩散变换器，并对其进行微调以处理时间变化的控制信号。
线性层添加控制信号：
- 通过在扩散模型的潜在向量上添加一个可训练的线性投影层来实现对控制信号的简单条件处理。
中值滤波技术：
- 在训练期间对控制信号应用随机中值滤波器，以创建类似草图的控制信号，提高声音质量和文本提示的一致性。
推理时控制率调整：
- 在推理时，用户可以通过选择不同大小的中值滤波器来调整控制信号的时间分辨率，实现对声音模仿和音频质量之间的权衡。

Sketch2Sound应用场景

电影音效制作：Sketch2Sound可用于电影后期制作中，通过声音模仿和控制信号来生成与视觉同步的音效，提高音效的真实感和艺术性。
游戏声音设计：在游戏开发中，利用Sketch2Sound根据玩家行为或游戏环境生成动态音效，增强游戏的沉浸感和互动性。
音乐制作：音乐制作人可以使用Sketch2Sound来创造新的音乐元素或模拟特定乐器的声音，提供更多的创意空间。
虚拟现实（VR）体验：在VR应用中，Sketch2Sound可以根据用户的动作和虚拟环境生成相应的声音，提升用户的感官体验。
教育和培训：在教育领域，Sketch2Sound可以用来模拟自然声音或机械运作声，作为教学辅助工具，帮助学生更好地理解和学习。
声音艺术创作：声音艺术家可以利用Sketch2Sound探索声音和文本之间的新关系，创作出新颖的声音艺术作品。

Sketch2Sound项目入口

项目主页：https://hugofloresgarcia.art/sketch2sound/
arXiv研究论文：https://arxiv.org/pdf/2412.08550

# 2-4.应用工具音频 # 2.应用工具相关 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

rStar-Math：提高小型语言模型在数学推理任务上的性能

AI-77cn

50

Omages：将复杂的3D格式转换为更易于管理的2D格式

AI-77cn

20

Whispo：通过简单的按键操作快速将语音内容转化为文本

AI-77cn

40

Step-Video-T2V：阶跃星辰开源的文本到视频预训练模型

AI-77cn

90

Seedream 2.0：字节跳动推出的中英双语图像生成基础模型

AI-77cn

30

StoryWeaver：知识增强型故事角色定制模型

AI-77cn

30

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号