首页 >> 正文

arc实验室+腾讯

来源：baiyundou.net 日期：2024-08-22

腾讯PCG ARC实验室投稿

量子位 | 公众号 QbitAI

能处理音乐的多模态大模型，终于出现了！

只见它准确分析出音乐的旋律、节奏，还有使用的乐器，甚至其中的意境也能解读。

【音乐效果请移步公众号】

而且它不仅会听，只要给它一段文字和图片，它就会在理解图片意境之后，结合文字要求来创作：

【音乐效果请移步公众号】

甚至是给静默的视频配上声音：

【音乐效果请移步公众号】

现有的音乐它也能编辑，比如从一段音乐中去除鼓的声音

【音乐效果请移步公众号】

以上的这些效果，都出自腾讯PCG ARC实验室新推出的基于多模态模型的音乐理解与生成框架M2UGen。

它可以进行音乐理解、音乐编辑以及多模态音乐生成（文本/图像/视频到音乐生成）。

研究团队在模型的五种能力上分别和现有模型进行了一一对比，并在多模态音乐生成的三个子任务上（文本/图像/视频到音乐生成）做了主观评测实验，发现M2UGen模型性能均优于现有模型。

此外，由于没有很多合适数据集用于模型训练，研究团队还研发了一套数据生成方法，制作了MUCaps、MUEdit、MUImage、MUVideo四个数据集并发布。

目前团队已将模型代码库在Github开源，并在Huggingface上开放了模型权重和训练所需数据集（需申请）。

那么，M2UGen究竟是怎样实现的呢？

模型共分四个模块

M2UGen模型分为四个模块区域，分别是多模态特征编码器、多模态理解适配器、桥接LLM以及音乐理解与生成模块。

下图展示了M2UGen模型的整体框架：

多模态特征编码器

为了实现多模态音乐理解与生成，模型需要处理多模态输入。

基于此，研究团队应用了一些现有的模态编码器，如音乐编码器MERT、图像编码器ViT和视频编码器ViViT。

ViT和ViViT是视觉领域常用的两个基于Transformer的编码器，在现有的一些LLM相关工作中经常涉及，因此开发者选用这两个分别作为图像和视频编码器。

对于音乐输入，前序工作MU-LLaMA证明了MERT模型显著优于其他比较的音频/音乐编码器，因此在M2UGen中研究团队选用MERT作为音乐输入的编码器。

多模态理解适配器

该模块的主要作用是将编码器输出的特征向量进行信息整合，输入到后续的LLM中和文本输入一起控制LLM的输出。

如下图所示，该模块主要由1D卷积层、线性映射层和一个稠密网络模块（Dense Network）组成。

最后的稠密网络模块如下图：

该模块由三个子模块组成，包含正则化层（Nomarlization）、线性层（Linear）、激活函数（SiLU）等组件。

该过程可由下式表示：

其中Xi表示第i个子模块之后的输出嵌入向量，Lj,i表示第i个子模块的第j层线性层，Ni表示第i个子模块内的正则化层，SiLU是激活函数。

该稠密网络设计延续自团队的前序工作MU-LLaMA。

在稠密网络之后，输出4096维的嵌入向量，提供给下游的LLM使用。

桥接LLM

为了将多模态上下文信息引入LLM，研究者将来自相邻上游多模态理解适配器的输出接入到LLM的指定层。

研究者采用了Meta研发的LLaMA 2模型作为底座LLM，如下图所示。

这里选用的模型版本是LLaMA 2 7B模型，包含N=32个隐层。

从该模型的顶层算起，每L层（L=6）引入一个模态信息，从上至下依次引入音乐、图像和视频模态信息，并使用零初始值注意力模块，底部的(N-3L-1)层则采用原始的注意力模块。

LLM的文本指令从底层，也即第一层输入。利用该技术，LLM被赋予了通过其他模态信息来引导LLM输出的能力。

音乐理解与生成模块

受NExT-GPT工作启发，本模型引入了特定的音频标记[AUD]，用来区分音乐问答和生成任务。

在模型训练阶段，对于以音乐作为输出（即音乐生成任务）的训练样本对（如文本指令-音乐对），这些音频标记会添加在LLM输出的末尾，用于指示下游的音乐输出。

在模型推理阶段，假如用户输入的指令和音乐生成有关，比如Generate a music using flute（用笛子生成一段音乐），则LLM的输出会包含音频标记，从而下游的音乐解码器会接收该指令并生成以笛子作为演奏乐器的音乐；

反之如果LLM的输出没有音频标记，则表明用户期望的是音乐理解任务，此时由LLM直接回应用户提问。

研究人员尝试了两种音乐解码器——AudioLDM 2和MusicGen，其中MusicGen的音乐生成表现相较AudioLDM 2更好。

提出新数据集，训练分三阶段

训练数据集

如本文研究贡献所述，本研究构造了四组数据集MUCaps、MUEdit、MUImage和MUVideo，数据样本示例如下图所示。

MUCaps数据集：

约1200小时来自AudioSet和一些网站的公开音乐；
利用MU-LLaMA模型对搜集的音乐文件生成音乐注解组成音乐-文本对。

MUEdit数据集：

从AudioSet构建音乐池（音乐池和MUCaps不同），并筛选出约60小时相似的音乐-音乐对；
筛选条件包括速度（tempo）、beats（节拍）等，从而得到大体相似，但有一定区别的音乐-音乐对（比如使用的乐器不同）；
将音乐-音乐对看作是源-目标对，将源音乐的注解文本输入给MPT-7B[14]模型得到人类端对话，目标音乐的注解文本输入给MPT-7B模型得到模型端对话，也即源音乐和目标音乐都得到对应指令用于模型训练。

MUImage/MUVideo数据集：

从AudioSet再另外采样一些图像/视频-音乐对（和MUCaps/MUEdit中的音乐均不同，最小化音乐重复），用BLIP/VideoMAE模型对图像/视频做图像/视频注解；
将图像/视频+音乐的注解文本输入到MPT-7B模型，分别得到人类端和模型端对话。

以上数据集构造脚本可参见：

https://github.com/shansongliu/M2UGen/tree/main/Datasets

而M2UGen模型的训练参考了NExT-GPT的训练方式，分为三个阶段，分别是编码端训练、解码端训练和编解码联合训练。

阶段1：编码端训练

该阶段冻结多模态编码器和LLM，只训练多模态理解适配器；

利用来自MUCaps/COCO/MUVideo的音乐/图像/视频-文本对做阶段1训练；

训练损失为交叉熵损失，即比较LLM的输出和目标注解文本。

阶段2：解码端训练

这一阶段不考虑编码测（模态编码器和适配器），冻结LLM，训练输出映射模块；

此阶段旨在训练LLM生成指示下游音乐解码器输出音乐的指令，或直接根据输入指令对输入的音乐做问答或注解；

需要对齐的是音乐解码器（AudioLDM 2/MusicGen）的文本编码器输出和M2UGen模型输出映射模块产生的条件嵌入向量，即对输出端进行对齐；

此阶段在训练时，通过添加特定的音频标记[AUD]来指示是否生成音乐。如果LLM的输出中包含[AUD]，则同时生成文本+音乐（音乐生成），如果不包含，则只生成文本（音乐问答）；

损失函数采用交叉熵和均方误差，其中交叉熵是比较LLM输出的音频标记和真值音频标记，均方误差是比较M2UGen模型输出映射模块产生的条件嵌入向量和音乐解码器的文本编码器的输出文本嵌入向量。

阶段3：编解码联合训练

该阶段冻结多模态编码器和LLM，训练多模态理解适配器和输出映射模块，以及LLM中的LoRA参数；

此阶段训练时训练数据有Alpaca（通用知识）、MusicQA、MUImage、MUVideo和MUEdit；

为了使模型可以同时生成音乐和文本， MUImage、MUVideo和MUEdit三个数据集在阶段3训练时LLM输出端添加了特定的音频标记（和阶段2训练类似）。

未来，研究团队的工作重点是进一步提升模型的细粒度音乐理解能力，并改善生成音乐与输入指令之间的相关性，也使音乐编辑能力更加精确。

论文地址：https://arxiv.org/pdf/2311.11255.pdf

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"95ef49ed4d8ae43eb","img_data":[{"flag":2,"img":[{"desc":"","height":"498","title":"","url":"https://p0.ssl.img.360kuai.com/t014d8bbae982000f10.jpg","width":"1080"},{"desc":"","height":"639","title":"","url":"https://p0.ssl.img.360kuai.com/t010ee06f3ddb0c1c26.jpg","width":"1080"},{"desc":"","height":422,"s_url":"https://p0.ssl.img.360kuai.com/t01df6d5d3f687a8dff_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t019dcb85756265a210.gif","width":510},{"desc":"","height":"401","title":"","url":"https://p0.ssl.img.360kuai.com/t01537bbec057e9863a.jpg","width":"1080"},{"desc":"","height":"670","title":"","url":"https://p0.ssl.img.360kuai.com/t01cbc3a2265132bd5d.jpg","width":"1080"},{"desc":"","height":"260","title":"","url":"https://p0.ssl.img.360kuai.com/t01ea5c4f3c2b8fc404.jpg","width":"1080"},{"desc":"","height":"1024","title":"","url":"https://p0.ssl.img.360kuai.com/t013ed4c5a5e74dd197.jpg","width":"788"},{"desc":"","height":"511","title":"","url":"https://p0.ssl.img.360kuai.com/t015cb5b350fbcef664.jpg","width":"978"},{"desc":"","height":"144","title":"","url":"https://p0.ssl.img.360kuai.com/t0164ae2278478f622a.jpg","width":"818"},{"desc":"","height":"948","title":"","url":"https://p0.ssl.img.360kuai.com/t01aaf1dc208fde3b15.jpg","width":"1064"},{"desc":"","height":"584","title":"","url":"https://p0.ssl.img.360kuai.com/t01a0fa18a661a08324.jpg","width":"1080"},{"desc":"","height":"407","title":"","url":"https://p0.ssl.img.360kuai.com/t010b48deb8e4fb4bb5.jpg","width":"1080"},{"desc":"","height":"362","title":"","url":"https://p0.ssl.img.360kuai.com/t019a4186b2398cbefa.jpg","width":"1080"},{"desc":"","height":"248","title":"","url":"https://p0.ssl.img.360kuai.com/t01984533762a24688e.jpg","width":"1080"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"pika","pub_time":1705911660000,"pure":"","rawurl":"http://zm.news.so.com/a27c830e027f78726609d1a841dac978","redirect":0,"rptid":"b59409e43a3f4f2c","rss_ext":[],"s":"t","src":"量子位","tag":[],"title":"大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

郝奇牲3092美国ames国家实验室的全称是什么?? -
程妍哗18188967018 ______ 就叫Ames Laboratory 美国不习惯中国这种冗长的官方名称.Ames Laboratory is a United States Department of Energy national laboratory located in Ames, Iowa.网站在这 http://www.ameslab.gov/

郝奇牲3092当POCl3碰上丙酮会怎样?
程妍哗18188967018 ______ 一个2.5 L的有聚氯乙烯涂层的废液桶爆炸了(Org.Proc.Res.Dev. 2000, 4, 6, 585-586... 废液桶碎片及废液飞溅的整个通风橱和实验室到处都是.不仅如此,爆炸的碎片还将...

郝奇牲3092腾讯目前的那三个拳皇的节奏是不是和街机一模一样的 -
程妍哗18188967018 ______ arc:高手很多,比街机节奏稍快,很不错的,高手多游聚:和街机速度基本一样,习惯街机节奏可以试试约战竞技场:刚出的,高手如云,含有擂台系统,很有意思.如果楼主没有4线以上就不了

郝奇牲3092QQ游戏里的那个新增街机游戏好多不懂 -
程妍哗18188967018 ______ 进游戏点设置,可以设置成键盘或者手柄摇杆什么的,但是你想玩街机何必在QQ呢,ARC和游聚街机平台,游戏比QQ多多了,QQ里就一个三国风云再起,形意拳,西游释厄传,再说有一点我很怀疑,QQ那么有钱,整个街机游戏连个服务器都不弄个好点的,卡的跟小霸王学习机似地,想玩街机就去ARC或者游聚吧,推荐选游聚,百度一搜就OK!对了,忘了告诉你,我说的那两个平台不但高手多,而且YY每天都有解说,最重要的一点,币是不收费的哦!

郝奇牲3092ArcGis10怎么将点赋值XY坐标字?ArcGis10怎么将点
程妍哗18188967018 ______ 面转线,再线转点,再由点赋值XY坐标字段,然后导出即可

郝奇牲3092金山清理专家在线系统诊断里面的残留信息,可以删除么?金山清理
程妍哗18188967018 ______ hidserv.dll 是音频后台服务,用来支持USB音效部件和USB多媒体键盘,好的程序... 你还能上网说明不影响,坚决删掉ARC 残留信息 System32DRIVERSarc. sys(启用...

郝奇牲3092谁看完了EVA啦?我想知道很多关于EVA的情况哦!
程妍哗18188967018 ______ EVA本身就是看不懂的东西,因为动画后期制作经费紧张再加上家长联合会的抗议导致TV版最后的结局无法按照坯子庵野在最初设计的那样,在动画之初把迷团放出去,...

郝奇牲3092年大众在品牌内部成立了运动与奢华品牌集团, 以下属于运动... - 上学吧
程妍哗18188967018 ______ 打开设置应用程序管理应用程序点全部找到UIM卡应用强行关闭..然后自动会好的..不行再去RE管理器进入system/app 找到stk.apk并安装

郝奇牲309213年社会养老保险金增长多少
程妍哗18188967018 ______ 2009年养老保险费缴费基数下限1360元

（编辑：自媒体）