Fork me on GitHub

腾讯音乐在音质 AIGC 的应用与实践

以下文章来源于 https://zhuanlan.zhihu.com/p/685604891

导读 本次分享内容为腾讯音乐天琴实验室在音质 AIGC 方面的应用与实践。

主要包括以下几大部分:

  1. 背景介绍

  2. 音乐分离

  3. 音乐超分

  4. 臻品母带

  5. 问答环节

分享嘉宾|何礼 腾讯音乐 高级研究员

编辑整理|张少华

内容校对|李瑶

出品社区|DataFun


01背景介绍

QQ 音乐在 12.0 时,完善了音乐音质音效体系。



不仅在 SQ 和 HQ 上提高了标准,同时在音效方面提出了臻品 2.0,对标 Apple Music 的立体声空间音频。此外,还成为了国内首家引入杜比全景声的音乐流媒体平台。



AIGC 的应用主要聚焦在用户听歌"听得舒心"的场景。QQ 音乐多年来一直致力于音质的优化,包括算法、检测、标准制定、客户端的播放等各个方面。音乐 AIGC 的主要场景包括音乐分离、音乐超分和臻品母带。接下来分别进行介绍。

02音乐分离

音乐分离是音乐领域的一个主流的研究方向。



从早期 18 年的语音分离技术 Conv-TasNet、20 年的 PG 频域分离算法 Spleeter,到 21 年字节提出的 ResUNetDecouple+,用更深的网络进行人声分离,再到 22 年 Meta 提出的 Hybrid Demucs 成为 MDX2021 的冠军。2023 年QQ 音乐与 AI lab 合作推出了一个子带分离模型 BSRNN,其基本原理包括两个方面,首先是对整个信号的一个频域进行子带的切分,切分之后从时域帧间序列建模,再对频域子带进行序列建模。



参考文献:Luo Y, Yu J. Music source separation with band-split rnn[J]. arXiv preprint arXiv:2209.15174, 2022.

这里的核心思想是音乐信号除了在时间上存在着很强的相互关系,同时在频域上也存在着很强的关系,BSRNN 从音乐信号的本质考虑分离任务,相比于之前直接用更深的网络,或者从 CV 等其他领域去迁移到音频领域的方式,对音乐领域可能具有更强的适配性。



音乐分离技术的第一个应用场景是臻品全景声,其基本原理是参考杜比全景声的制作流程,将音乐分离出多个轨道信号,再利用全景声的空间混音技术,获得有空间感的臻品全景声。



另外一些应用场景包括,TME 聚星平台、TME Studio 和启明星,直接面向用户提供音乐分离服务,包括声伴分离,6 轨分离,大家可以到官网体验。



除了在 QQ 音乐上应用音乐分离,在全民 K 歌上也有很多应用场景,比如全民 K 歌临境音效,作为 VIP 用户的核心权益,用户可以 DIY 音效,在分离之后,用户可以根据自己的喜好去设置乐器的不同摆放方位,获得实时空间感的体验。此外,音乐分离还可以用于全民 K 歌五维打分模板的制作,以及全民 K 歌伴奏库,帮助实现伴奏分离,补充全民 K 歌伴奏库。



另外,音乐分离还应用在懒人听书,比如长音频消伴场景。因为有些长音频,会存在背景音乐或噪声,而用户可能只关注于内容本身,这时可以通过干声分离技术为用户提供纯净版的音频,也就是更优质的音质选项。音乐分离技术还应用到了 AIGC-X,通过干声分离将歌曲人声分离出来,然后通过模型去判断这个人声是否是 AI 生成的。另一应用场景是启明星音色试唱,通过声伴分离,干声音色转换,再与伴奏 mix,生成一个新的试听 Demo。


音乐分离还会用在低频公益,这是专门针对听障人士的歌曲增强与补偿。还会有一些ToB 的应用场景。



整体来讲,BSRNN 技术的基本原理是基于频域切分子带的思路,切分后对时域和频域进行序列建模,从而更加适用于音乐任务。分离业务包括三类,一类是作为一个子模块支持各个业务,另一类是 ToC 的应用,直接提供给用户,最后一类是一些 ToB 的商务合作。

03音乐超分

音乐超分主要应用在臻品音质 2.0,可以在端上对 CD 或者 MP3 的品质进行实时处理,能够达到 96kHz/24bit 的 Hi-Res 音质。



04臻品母带

接下来介绍行业首创的一个功能,臻品母带。



什么是母带?回顾歌曲的整个制作流程,歌曲创作的时候包括作曲、编曲,在录制和混音之后,形成最终的母带,通常在流媒体下发的时候,会编码成各种不同的码率进行流媒体播放。母带可以认为是最原始的一个音质品质,通常至少会有 192 kHz/24bit。SQ 品质,标准可能最高会达到 48kHz/24bit。

实际上从右下图不同品质的频响曲线可以看到,通过一些有损或无损编码,SQ 跟母带主要差异集中在一些高频的部分,低频部分实际上是一致的。对于有损编码,主要涉及到 MP3 这类的编码方式,通常为了极限的压缩空间,除了高频与母带有差异,它的低频可能会有一些丢失,因为它对体系要求会更高一些。因此这里的母带可能需要对低频进行修复,对高频进行还原。

QQ 音乐臻品母带功能,实现了统一进行低频修复和高频还原,实现了更佳的优化效果,同时大幅减少了推理耗时,降低了计算成本。



最新的臻品母带 2.0 版本于 2023 年 7 月上线之后,业务指标有了明显的增长。



总结一下这一部分的内容,首先,母带是一个歌曲制作完成后的最初版本,它的格式能达到 192kHz/24bit。端侧模型,与 1.0 相比,2.0 采用了统一的模型进行低频修复和高频还原,主客观指标和推理耗时显著优于 1.0。在业务上线之后,PU、UV、人均时长等指标,以及口碑都有着比较明显的提升。

以上就是本次分享的内容,谢谢大家。

05问答环节

Q:可以分离一段音频的不同人声吗?

A:不同人声可能有两种情况,一种是类似于合唱的情况,另一种是和声。合唱是 A 和 B 都会唱。和声的情况更常见,一般歌曲都有和声。QQ 音乐是可以将和声分离出来的。

以上就是本次分享的内容,谢谢大家。




本文地址:https://www.6aiq.com/article/1710119111536
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出