OpenAI让AI神作曲！莫扎特Lady Gaga玩混搭

AI1年前 (2023)发布 aixure

70 0 0

导读：智东西（公众号：zhidxcom）编 | 王小溪导语：OpenAI公司开发了一种音乐AI系统MuseNet，能用十种乐器生成歌曲，而且能融合不同种曲风。智东西4月26日消息，刚在《Dota 2》中大虐人类的Open AI，又开始跨界踏足音乐圈啦！今天，它在一篇博文中详细介绍了人…

智东西（公众号：zhidxcom）编 | 王小溪

导语：OpenAI公司开发了一种音乐AI系统MuseNet，能用十种乐器生成歌曲，而且能融合不同种曲风。

智东西4月26日消息，刚在《Dota 2》中大虐人类的Open AI，又开始跨界踏足音乐圈啦！今天，它在一篇博文中详细介绍了人工智能系统MuseNet，它用十种的乐器生成了四分钟的乐曲，而且曲子风格多样，能听出乡村风、和莫扎特、披头士乐队的曲风。

MuseNet没有像人们理解的那样对乐曲编程，而是通过学习预测数百个成千上万的MIDI文件中的tokens来发现和声、节奏和乐曲风格的模式。

关于MuseNet的更多信息可参见OpenAI的博文：

一、MuseNet如何生成乐曲？

MuseNet没有像人们理解的那样对乐曲编程，而是通过学习预测数百个成千上万的MIDI文件中的tokens来发现和声、节奏和乐曲风格的模式。tokens有两种类型，一种作用于作曲家，一种作用于乐器。

Payne解释说，这些token类型可以更好地控制MuseNet所生成的样本种类。在训练过程中，token被添加到每个音乐样本之前，以便MuseNet学习如何使用它们来做出音符预测。

MuseNet接受了来自各种不同来源的MIDI音乐标准格式的样本训练，包括ClassicalArchives、BitMidi和开源Maestro语料库。

MuseNet重新计算和优化了稀疏Transformer，训练了24个attention head的72层网络，内含共有4096个token，让生成音乐的时长可达到4分钟。

Transformer在顺序数据上进行训练：技术人员给定一组音符，要求MuseNet预测接下来的音符。他们尝试了几种不同的方法将MIDI文件编码为适合此任务的token。首先，采用了弦乐方法，将每次听到的音符组合视为单独的“和弦”，并为每个和弦分配一个token。其次，他们尝试通过仅关注音符的开头来缩小音乐模式，并尝试使用字节对编码方案进一步压缩。

技术人员还尝试了两种不同方法标记时间推移：第一，根据音频节奏缩放token（以便token代表一个音乐节拍或节拍的一小部分）；第二，标记以秒为单位的绝对时间token。

最终，他们采用了一种结合了表现力和简洁性的编码：将音高，音量和乐器信息组合成一个token。

在训练中，他们选择：

首先，调高、调低音调来调换样本；

然后，调高或调低各种样本的整体音量；

最后，稍微减慢或加快音频片段的速度。

二、MuseNet可以换大不同类型的曲风

正如OpenAI的技术人员Christine Payne在一篇博客文章中所解释的那样，MuseNet与所有的深度神经网络一样，包含了在相互连接的层中排列的神经元（数学函数，松散地模仿生物神经元）里，从输入数据中传输“信号”，并缓慢调整每个连接的突触。

但独特的是，MuseNet拥有注意力机制。注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标是从众多信息中选择出对当前任务目标更关键的信息。所以在MuseNet模型中，每个输出元素都连接每个输入元素，它们之间的突触是动态计算的。

MuseNet使用的是与GPT-2相同的通用无监督技术。GPT-2是OpenAI推出的一个大规模的无监督语言模型，它具有来自800万个网页的15亿数据集，其训练目标就是基于前面给定的文本，从而预测接下来的文字。

MuseNet有不同的模式：简单模式，用户可以从“作曲家”或“风格”中选择未经过调整的样本，然后开始生成。高级模式，它可以让用户直接与模型交互，创建出一个全新的作品。

在生成乐曲时，用户可以调整模型用选定的风格创建样本，这种风格可以从拉赫玛尼诺夫钢琴、乐队Journey的钢琴开始，也可以从贝司、吉他和鼓开始。

Payne 说：“由于MuseNet包含了许多不同的风格，我们可以用新颖的方式对它们进行融合，例如，给模型肖邦夜曲的前六个音符，要求它生成流行乐曲风格的钢琴、鼓、贝司和吉他曲，它也能做到。”

Payne也指出，MuseNet并不完美，因为它是通过从所有可能的音符和乐器中计算概率来生成每个音符，偶尔它会做出不和谐的选择。可以预见的是，如果曲风和乐器不搭，比如肖邦的低音和鼓，它很难将两者融合在一起。

MuseNet对作曲家的理解以及他们如何和风格相联系

三、全新Demo，让你自选音乐风格

MuseNet的博文上还提供一个Demo，供感兴趣者试用。

首先，选择你更感兴趣的音乐风格（从上到下依次是：肖邦、莫扎特、拉赫曼尼诺夫、Lady Gaga、乡村音乐和迪士尼音乐）。

接下来，选择开始的旋律，这里Demo为试用者提供了6种选项。

如果选择NONE，AI就会看心情随便给你来个开头，如果选择了其他的歌（莫扎特的《土耳其进行曲》，贝多芬的《第五交响曲》，Lady Gaga的《Poker Face》，贝多芬的《致爱丽丝》，阿黛尔的《Someone Like You》），AI就会按照你所选的歌的风格续写音乐。

最后，点击下面的，让AI生成一段音乐。

黑色背景上紫色横条的图样是曲谱，箭头左边的一块谱子是你所选择的开始的旋律，图上每一根小横条代表一个音符，点击后右边出现的一长串紫色就是AI生成的音乐，点击PLAY FROM START就可以开始播放啦~

如果你喜欢AI的创作，可以点击DOWNLOAD下载保存；如果想重玩一次，就选择RESET。当然啦，你还可以把AI的作品分享到推特。

如果你想听现场freestyle，还可以点击曲谱上方的SHOW ADVANCED SETTINGS，有更多的音乐风格、开头音乐和乐器供你选择，通过选择TOKENS来生成不同长度的音乐，然后，你就可以享受AI的现场版了。

不过，这个Demo暂时还不完美，假使你选择钢琴、吉他或鼓的音色，生成的音乐可能听起来音色都差不多。

OpenAI表示，这一Demo会展示到5月12号，之后会有一个迭代的版本。

结语：音乐AI正在加速发展

MuseNet生成的乐曲中不仅包含了多种乐器，而且能把不同的曲风融合在一起，带给人不一样的体验。

OpenAI并非唯一一家踏足音乐AI领域的公司。今年3月，谷歌发布了一种名为Google Doodle的算法，可以让用户模仿作曲家巴赫的风格创作旋律。去年年底，Google Brain的项目Magenta推出了一种算法Music Transformer，它能识别歌曲的重复旋律。可以看出，音乐AI正在快速发展，没准将来某家音乐AI会成为歌坛小天王呢！

博文链接：https://openai.com/blog/musenet/

文章来自：Venturebeat

# AI