XMusic:腾讯推出的通用化且可控的符号音乐生成框架

XMusic简介

XMusic是由腾讯公司开发的一个通用化且可控的符号音乐生成框架。它能够通过多种灵活的提示,如图像、视频、文本、标签和哼唱,生成具有情感控制和高质量的符号音乐。XMusic的核心在于其两个组件:XProjector和XComposer。XProjector将多模态提示解析为符号音乐元素,而XComposer则基于这些元素生成音乐,并通过一个选择器评估音乐质量。此外,开发团队还构建了XMIDI,这是一个包含108,023个MIDI文件的大规模数据集,为模型训练提供了丰富的资源。XMusic在音乐质量和情感表达方面超越了现有技术,其成果在WAIC 2023上获得了高度认可。

XMusic:腾讯推出的通用化且可控的符号音乐生成框架

XMusic主要功能

  1. 多模态提示支持:XMusic能够接受多种类型的输入提示,包括图像、视频、文本、标签和哼唱。这些提示为音乐生成提供了丰富的语义信息,使得生成的音乐能够更好地符合用户的意图和情感需求。
  2. 情感可控的音乐生成:通过分析输入提示中的情感信息,XMusic可以生成具有特定情感色彩的音乐。例如,根据输入的快乐、悲伤或愤怒等情感标签,生成相应情感风格的音乐作品。
  3. 高质量音乐输出:XMusic利用先进的选择器(Selector)和多任务学习方案,对生成的音乐进行质量评估和筛选,确保输出的音乐具有高质量,包括旋律优美、节奏稳定和结构完整等特点。
  4. 灵活的音乐元素控制:用户可以通过标签等提示对音乐的类别、节奏、音符等元素进行精细控制,实现个性化的音乐创作。例如,指定音乐的类别为爵士或古典,或控制音乐的节奏快慢等。
  5. 大规模数据集支持:XMusic依托于XMIDI这一大规模符号音乐数据集进行训练,该数据集包含108,023个带有精确情感和类别标签的MIDI文件,为模型提供了丰富的学习资源,有助于提高音乐生成的质量和多样性。

XMusic技术原理

  1. XProjector(多模态提示解析器)
    • 多模态数据处理:XProjector能够处理不同类型的多模态数据,如图像、视频、文本等。对于图像和文本,通过情感分析模型提取其中的情感信息;对于视频,分析其情感、运动和场景转换等信息;对于哼唱,将其转录为MIDI序列并提取音符和节奏信息。
    • 投影空间映射:将解析出的多模态信息映射到符号音乐元素的投影空间中,包括情感(PE)、类别(PG)、节奏(PR)和音符(PN)等元素。这些元素作为控制信号,指导后续的音乐生成过程,实现了多模态提示与符号音乐之间的有效转换。
  2. XComposer(音乐生成器)
    • Generator(音乐生成模块)
      • 符号音乐表示:基于Compound Word架构,对MIDI文件和投影空间中的元素进行编码,生成代表符号音乐的令牌序列。引入了新的家族令牌,如“Tag”(情感和类别)、“Instrument”(乐器)等,以及在“Rhythm”家族令牌中加入“Density”(密度)和“Strength”(强度)令牌,丰富了音乐表示的细节和控制能力。
      • Transformer Decoder:采用Transformer解码器作为核心网络,根据给定的令牌序列预测下一个令牌,逐步生成完整的音乐作品。通过线性投影、位置编码等操作,将令牌序列转化为Transformer网络的输入特征,再利用自注意力机制等捕捉令牌之间的依赖关系,实现高质量的音乐生成。
    • Selector(音乐选择器)
      • 质量评估与筛选:利用Transformer编码器对生成的音乐进行编码,通过多任务学习方案同时进行质量评估、情感识别和类别识别任务。通过全局平均池化等操作提取音乐的全局特征,再经过全连接层等网络结构,输出音乐的质量评分、情感类别概率和类别概率等信息。根据质量评分和预设的阈值,从生成的音乐批次中选择质量最高的音乐作品,确保输出音乐的高质量。
      • 多任务学习优势:多任务学习方案使模型能够在不同任务之间进行知识迁移和共享,提高模型对音乐质量的评估能力。不同类型的音乐在质量评估标准上存在细微差异,通过结合情感和类别识别任务,网络能够更全面地理解音乐,从而更准确地筛选出高质量的音乐作品。
  3. XMIDI数据集
    • 数据收集与清洗:从互联网档案馆、GitHub、Reddit等在线来源爬取MIDI文件,并进行自动清洗、去重和手动清洗等操作,确保数据集的质量和可靠性。通过合并乐器轨道等方式解决数据不平衡问题,将128种旋律乐器归类为17种乐器类型,简化了数据的复杂性。
    • 数据标注:建立全面的情感和类别标注系统,聘请专业标注人员对每个MIDI文件进行准确标注。采用标准化、交叉验证、随机质量检查、定期培训标注人员和讨论争议案例等措施,确保标注的准确性和一致性。

XMusic应用场景

  1. 影视配乐制作:根据电影、电视剧的不同情节和情感氛围,如紧张刺激的动作场景、浪漫感人的爱情片段等,自动生成匹配的背景音乐,提高配乐效率,降低制作成本。
  2. 视频创作:为短视频、广告视频、Vlog等提供个性化背景音乐。创作者可以根据视频的主题、风格和情感走向,输入相应的提示,快速生成贴合视频氛围的音乐,增强视频的吸引力。
  3. 游戏音乐设计:根据不同游戏场景和关卡,如奇幻冒险、科幻战斗、休闲益智等,生成具有针对性的音乐。例如,在冒险游戏中,根据场景的变化实时生成紧张或舒缓的音乐,提升玩家的游戏体验。
  4. 音乐教育:作为辅助教学工具,帮助学生理解不同情感、类别和节奏的音乐特点。教师可以根据教学内容输入相关提示,生成示例音乐,让学生更直观地感受和学习音乐知识。
  5. 音乐创作灵感激发:为专业音乐创作者提供灵感。创作者可以输入一些创意关键词或哼唱旋律,XMusic生成的音乐可以作为创作的起点或参考,激发更多创作思路,拓展创作边界。
  6. 智能音乐推荐:结合用户的历史听歌记录、喜好标签等信息,生成符合用户个人情感和风格偏好的音乐。这些生成的音乐可以作为推荐内容,丰富用户的音乐体验,发现更多符合自己口味的音乐作品。

XMusic项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...