首页 >>  正文

复数三种表示形式互相转换

来源:baiyundou.net   日期:2024-08-12

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

微软大模型新架构,正式向Transformer发起挑战!

论文标题明晃晃地写道:

Retentive Network(RetNet):大模型领域Transformer的继任者。

论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:

RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些特性使这一基础架构,成为大语言模型中Transformer的有力继承者。

而实验数据也显示,在语言建模任务上:

  • RetNet可以达到与Transformer相当的困惑度(perplexity)
  • 推理速度达8.4倍
  • 内存占用减少70%
  • 具有良好的扩展性

并且当模型大小大于一定规模时,RetNet表现会优于Transformer。

Transformer果真“后继有模”了?具体详情,一起来看。

解决“不可能三角”

Transformer在大语言模型中的重要性毋庸置疑。无论是OpenAI的GPT系列,还是谷歌的PaLM、Meta的LLaMA,都是基于Transformer打造。

但Transformer也并非完美无缺:其并行处理机制是以低效推理为代价的,每个步骤的复杂度为O(N);Transformer是内存密集型模型,序列越长,占用的内存越多。

在此之前,大家也不是没想过继续改进Transformer。但主要的几种研究方向都有些顾此失彼:

线性attention可以降低推理成本,但性能较差;

循环神经网络则无法进行并行训练。

也就是说,这些神经网络架构面前摆着一个“不可能三角”,三个角代表的分别是:并行训练、低成本推理和良好的扩展性能。

RetNet的研究人员想做的,就是化不可能为可能。

具体而言,RetNet在Transformer的基础上,使用多尺度保持(retention)机制替代了标准的自注意力机制

与标准自注意力机制相比,保持机制有几大特点:

引入位置相关的指数衰减项取代softmax,简化了计算,同时使前步的信息以衰减的形式保留下来。

引入复数空间表达位置信息,取代绝对或相对位置编码,容易转换为递归形式。

另外,保持机制使用多尺度的衰减率,增加了模型的表达能力,并利用GroupNorm的缩放不变性来提高retention层的数值精度。

△RetNet的双重表示

每个RetNet块包含两个模块:多尺度保持(MSR)模块和前馈网络(FFN)模块。

保持机制支持以三种形式表示序列:

  • 并行
  • 递归
  • 分块递归,即并行表示和递归表示的混合形式,将输入序列划分为块,在块内按照并行表示进行计算,在块间遵循递归表示。

其中,并行表示使RetNet可以像Transformer一样高效地利用GPU进行并行训练。

递归表示实现了O(1)的推理复杂度,降低了内存占用和延迟。

分块递归则可以更高效地处理长序列。

这样一来,RetNet就使得“不可能三角”成为可能。以下为RetNet与其他基础架构的对比结果:

在语言建模任务上的实验结果,进一步证明了RetNet的有效性。

结果显示,RetNet可以达到与Transformer相似的困惑度(PPL,评价语言模型好坏的指标,越小越好)

同时,在模型参数为70亿、输入序列长度为8k的情况下,RetNet的推理速度能达到Transformer的8.4倍,内存占用减少70%

在训练过程中,RetNet在内存节省和加速效果方面,也比标准Transformer+FlashAttention表现更好,分别达到25-50%7倍

值得一提的是,RetNet的推理成本与序列长度无关,推理延迟对批量大小不敏感,允许高吞吐量。

另外,当模型参数规模大于20亿时,RetNet的表现会优于Transformer。

研究团队

RetNet的研究团队,来自微软亚研院和清华大学。

共同一作为孙宇涛和董力。

孙宇涛,清华大学计算机系本科,现在在微软亚研院实习。

董力,微软亚研院研究员。他也是此前引发大量关注的“能记住10亿token的Transformer”的论文作者之一。

RetNet论文的通讯作者是韦福如。他是微软亚洲研究院全球研究合伙人,10亿token Transformer亦是来自他的研究团队。

论文地址:

https://arxiv.org/abs/2307.08621

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"95e6f9ad8df541d51","img_data":[{"flag":2,"img":[{"desc":"","height":"282","title":"","url":"https://p0.ssl.img.360kuai.com/t018fe7ec004824dd9c.jpg","width":"1080"},{"desc":"","height":"468","title":"","url":"https://p0.ssl.img.360kuai.com/t01d6fd06a90f547297.jpg","width":"1080"},{"desc":"","height":"636","title":"","url":"https://p0.ssl.img.360kuai.com/t017208c2f70c093c1d.jpg","width":"748"},{"desc":"","height":"498","title":"","url":"https://p0.ssl.img.360kuai.com/t01f6bfd203a4d3c9cb.jpg","width":"1080"},{"desc":"","height":"400","title":"","url":"https://p0.ssl.img.360kuai.com/t01e63999651c9663f3.jpg","width":"1080"},{"desc":"","height":"833","title":"","url":"https://p0.ssl.img.360kuai.com/t018913c22178151c82.jpg","width":"1080"},{"desc":"","height":"399","title":"","url":"https://p0.ssl.img.360kuai.com/t01dd1a516cd34956a1.jpg","width":"1080"},{"desc":"","height":"1230","title":"","url":"https://p0.ssl.img.360kuai.com/t01db659c2c00b430d4.jpg","width":"686"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"hbase","pub_time":1689656220000,"pure":"","rawurl":"http://zm.news.so.com/1b6b767934d1512ca5134c6b4c028c97","redirect":0,"rptid":"e5377fa63dfb3f19","rss_ext":[],"s":"t","src":"量子位","tag":[{"clk":"ktechnology_1:内存","k":"内存","u":""}],"title":"Transformer后继有模!MSRA提出大模型新架构:推理更快更高效

马馨朗5146英语复数形式的表达 -
支居祝18616225683 ______ 英语中名词可分为可数名词和不可数名词.可数名词在应用时有单数和复数形式.表示一个用单数,表示两个或两个以上用复数.复数名词的构成分为规则变化和不规则变化. 1.规则变化: 1) 一般在名词词尾加s, ① map—maps地图,bird—...

马馨朗5146电工中的相量与复数的相互转换是什么? -
支居祝18616225683 ______[答案] 相量形式上是复数,即用复数表示相量.相量只是表示正弦量,它实质上只反映了正弦量的两个要素:幅值和初相位.用以表示的电量(如电压或电流)上加一波浪线即表示相量.它用复数表示,该复数的模等于正弦量的幅值,复数的幅角等于正弦量的...

马馨朗5146第三人称复数特殊变化形式大全 -
支居祝18616225683 ______ 表格上的性质的第三人称单数形式不同的多个名词和动词,但它们构成不同的和相同的方式.比较如下: 构成方式相同 1.在词尾加-s读,这是无声的浊辅音和元音读[Z].如: 名词的复数形式:床(张),树(树), 动词单数第三说:帮助(...

马馨朗5146复数转为什么形式的? -
支居祝18616225683 ______ 你好 这是复数形式转为指数形式 a+bi=pe^iθ p= √(a^2+b^2) tanθ=b/a 这里θ=arctan2=63.44º=63.44*π/180=1.1071 很高兴为您解答,祝你学习进步!有不明白的可以追问! 如果有其他问题请另发或点击向我求助,答题不易,请谅解. 如果您认可我的回答,请点击下面的【采纳为满意回答】或者点评价给好评,谢谢!

马馨朗5146电工中的相量与复数的相互转换 -
支居祝18616225683 ______ 相量形式上是复数,即用复数表示相量.相量只是表示正弦量,它实质上只反映了正弦量的两个要素:幅值和初相位.用以表示的电量(如电压或电流)上加一波浪线即表示相量.它用复数表示,该复数的模等于正弦量的幅值,复数的幅角等于正弦量的初相位.

马馨朗5146二次函数的三种表达式怎么互相转化解释一下各种式子之间的转换,简短点,最后隔开 -
支居祝18616225683 ______[答案] 二次函数 I.定义与定义表达式 一般地,自变量x和因变量y之间存在如下关系: y=ax²+bx+c(a,b,c为常数,a≠0) 则称y为x的二次函数. 二次函数表达式的右边通常为二次三项式. II.二次函数的三种表达式 一般式:y=ax²+bx+c(a,b,c为常数,a≠0) 顶点式...

马馨朗5146二次函数的三种表达式怎么互相转化 -
支居祝18616225683 ______[答案] 二次函数 I.定义与定义表达式 一般地,自变量x和因变量y之间存在如下关系: y=ax²+bx+c(a,b,c为常数,a≠0) 则称y为x的二次函数. 二次函数表达式的右边通常为二次三项式. II.二次函数的三种表达式 一般式:y=ax²+bx+c(a,b,c为常数,a≠0) 顶点式...

马馨朗5146英语单复数的不规则变化? -
支居祝18616225683 ______ 一、可数名词都有单数和复数之分. A: 规则的可数名词的复数变化规则: 1.一般情况加 s : book-- books mouth---mouths house---houses girl---girls 2.以 s 、 sh 、 ch 、 x结尾的加 es : class--- classes box----boxes match----matches 3.辅音字母 ...

马馨朗5146二次函数的三种表达式是不是可以互相转换?
支居祝18616225683 ______ 是y=ax2+bx+c y=a(x+b/2a)+(4ac/4a) y=a(x-x1)(x-x2)直接化开就行

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024