首页 >>  正文

复数的三种形式转换

来源:baiyundou.net   日期:2024-08-12

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

微软大模型新架构,正式向Transformer发起挑战!

论文标题明晃晃地写道:

Retentive Network(RetNet):大模型领域Transformer的继任者。

论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:

RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些特性使这一基础架构,成为大语言模型中Transformer的有力继承者。

而实验数据也显示,在语言建模任务上:

  • RetNet可以达到与Transformer相当的困惑度(perplexity)
  • 推理速度达8.4倍
  • 内存占用减少70%
  • 具有良好的扩展性

并且当模型大小大于一定规模时,RetNet表现会优于Transformer。

Transformer果真“后继有模”了?具体详情,一起来看。

解决“不可能三角”

Transformer在大语言模型中的重要性毋庸置疑。无论是OpenAI的GPT系列,还是谷歌的PaLM、Meta的LLaMA,都是基于Transformer打造。

但Transformer也并非完美无缺:其并行处理机制是以低效推理为代价的,每个步骤的复杂度为O(N);Transformer是内存密集型模型,序列越长,占用的内存越多。

在此之前,大家也不是没想过继续改进Transformer。但主要的几种研究方向都有些顾此失彼:

线性attention可以降低推理成本,但性能较差;

循环神经网络则无法进行并行训练。

也就是说,这些神经网络架构面前摆着一个“不可能三角”,三个角代表的分别是:并行训练、低成本推理和良好的扩展性能。

RetNet的研究人员想做的,就是化不可能为可能。

具体而言,RetNet在Transformer的基础上,使用多尺度保持(retention)机制替代了标准的自注意力机制

与标准自注意力机制相比,保持机制有几大特点:

引入位置相关的指数衰减项取代softmax,简化了计算,同时使前步的信息以衰减的形式保留下来。

引入复数空间表达位置信息,取代绝对或相对位置编码,容易转换为递归形式。

另外,保持机制使用多尺度的衰减率,增加了模型的表达能力,并利用GroupNorm的缩放不变性来提高retention层的数值精度。

△RetNet的双重表示

每个RetNet块包含两个模块:多尺度保持(MSR)模块和前馈网络(FFN)模块。

保持机制支持以三种形式表示序列:

  • 并行
  • 递归
  • 分块递归,即并行表示和递归表示的混合形式,将输入序列划分为块,在块内按照并行表示进行计算,在块间遵循递归表示。

其中,并行表示使RetNet可以像Transformer一样高效地利用GPU进行并行训练。

递归表示实现了O(1)的推理复杂度,降低了内存占用和延迟。

分块递归则可以更高效地处理长序列。

这样一来,RetNet就使得“不可能三角”成为可能。以下为RetNet与其他基础架构的对比结果:

在语言建模任务上的实验结果,进一步证明了RetNet的有效性。

结果显示,RetNet可以达到与Transformer相似的困惑度(PPL,评价语言模型好坏的指标,越小越好)

同时,在模型参数为70亿、输入序列长度为8k的情况下,RetNet的推理速度能达到Transformer的8.4倍,内存占用减少70%

在训练过程中,RetNet在内存节省和加速效果方面,也比标准Transformer+FlashAttention表现更好,分别达到25-50%7倍

值得一提的是,RetNet的推理成本与序列长度无关,推理延迟对批量大小不敏感,允许高吞吐量。

另外,当模型参数规模大于20亿时,RetNet的表现会优于Transformer。

研究团队

RetNet的研究团队,来自微软亚研院和清华大学。

共同一作为孙宇涛和董力。

孙宇涛,清华大学计算机系本科,现在在微软亚研院实习。

董力,微软亚研院研究员。他也是此前引发大量关注的“能记住10亿token的Transformer”的论文作者之一。

RetNet论文的通讯作者是韦福如。他是微软亚洲研究院全球研究合伙人,10亿token Transformer亦是来自他的研究团队。

论文地址:

https://arxiv.org/abs/2307.08621

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"95e6f9ad8df541d51","img_data":[{"flag":2,"img":[{"desc":"","height":"282","title":"","url":"https://p0.ssl.img.360kuai.com/t018fe7ec004824dd9c.jpg","width":"1080"},{"desc":"","height":"468","title":"","url":"https://p0.ssl.img.360kuai.com/t01d6fd06a90f547297.jpg","width":"1080"},{"desc":"","height":"636","title":"","url":"https://p0.ssl.img.360kuai.com/t017208c2f70c093c1d.jpg","width":"748"},{"desc":"","height":"498","title":"","url":"https://p0.ssl.img.360kuai.com/t01f6bfd203a4d3c9cb.jpg","width":"1080"},{"desc":"","height":"400","title":"","url":"https://p0.ssl.img.360kuai.com/t01e63999651c9663f3.jpg","width":"1080"},{"desc":"","height":"833","title":"","url":"https://p0.ssl.img.360kuai.com/t018913c22178151c82.jpg","width":"1080"},{"desc":"","height":"399","title":"","url":"https://p0.ssl.img.360kuai.com/t01dd1a516cd34956a1.jpg","width":"1080"},{"desc":"","height":"1230","title":"","url":"https://p0.ssl.img.360kuai.com/t01db659c2c00b430d4.jpg","width":"686"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"hbase","pub_time":1689656220000,"pure":"","rawurl":"http://zm.news.so.com/1b6b767934d1512ca5134c6b4c028c97","redirect":0,"rptid":"e5377fa63dfb3f19","rss_ext":[],"s":"t","src":"量子位","tag":[{"clk":"ktechnology_1:内存","k":"内存","u":""}],"title":"Transformer后继有模!MSRA提出大模型新架构:推理更快更高效

容解屠3386英语单词的复数形式有几种像man结尾的词怎么变 -
山卫柳13672599204 ______[答案] 1. 直接加s. 2. 以s,sh,ch,x结尾的单词要加es. 3. 以辅音字母加上y结尾的单词,去掉y加上ies. 4.以o 结尾的名词,变复数时,大多数都是直接加s, 除了hero, negro,potato,tamato这四个加es. 5.以f或fe 结尾的名词变复数时,可以是加s,如:belief-...

容解屠3386英语语法:名词单数变复数的几种形式 -
山卫柳13672599204 ______ 1. 基本变化规则①一般在名词后加s,变成复数.如boy→boys, pen→pens等.②以s, x, sh, ch结尾的,在后面加es.如class→classes, fox→foxes, brush→brushes, watch→watches.但stomach的复数为stomachs. ③“以辅音字母+y”结尾的,y...

容解屠3386在英语单词中如何转换复数形式? -
山卫柳13672599204 ______ 1、以s,x sh ch结尾的加-es 2、以o结尾的,有生命的加-es 3、以“辅音字母+y"结尾的,把y变i加-es 4、以f,fe结尾的词,多数把f,fe变为v,再加-es(少数不变,直接加s) 5、一般情况直接加-s 6、特殊变化 man-men tooth-teeth woman-women mouse-mice child-children goose-geese foot-feet ox-oxen

容解屠3386可数名词,单数变复数的5种规则,每个规则举一个例.应该怎样举?帮我写出来好吗?谢谢! -
山卫柳13672599204 ______[答案] 一、绝大多数的可数名词的复数形式,是在该词末尾加上后辍-s. 读音变化:结尾是清辅音读[s],结尾是浊辅音或元音读[z]. 例:friend→friends; sport→sports; piece→pieces 二、凡是以s、z、x、ch、sh结尾的词,在该词末尾加上后辍-es构成复数. ...

容解屠3386英语复数形式 -
山卫柳13672599204 ______ 可以参考一下,复数的变化规则: 1. 绝大多数的可数名词的复数形式,是在该词末尾加上后辍-s. 2. 凡是以s、z、x、ch、sh结尾的词,在该词末尾加上后辍-es构成复数. 3. 以辅音字母+y结尾的名词,将y改变为i,再加-es. 4. 以-o结尾的名词,如...

容解屠3386名词变复数的多种形式 -
山卫柳13672599204 ______[答案] 大部分加s 以s结尾的单词加es 以y结尾的去y变i加es 还有些是单复数形式一样的或特殊变换(phenomena、phenomenon)

容解屠3386复数形式咋变 -
山卫柳13672599204 ______ 1.一般情况在词尾加-s 如:apple--apples 2.以s.x结尾加es,如:box--boxes 3.元音字母+y结尾的,去y变i加es,如:baby--babies 4.以“o"结尾的有的加es,“黑人喜欢吃土豆和马铃薯”,其他的基本加s

容解屠3386英语单词的复数形式是怎么变化的? -
山卫柳13672599204 ______ 一、可数名词都有单数和复数之分. A: 规则的可数名词的复数变化规则: 1.一般情况加 s : book-- books mouth---mouths house---houses girl---girls 2.以 s 、 sh 、 ch 、 x结尾的加 es : class--- classes box----boxes match----matches 3.辅音字母 ...

容解屠3386复数怎么转化为指数形式 -
山卫柳13672599204 ______ 能写成a+bi形式的数叫做复数,其中a和b都是实数,i是虚数单位,i^2=-1.在复数z=a+bi中,a=Re(z)称为实部,b=Im(z)称为虚部.当虚部等于零时,这个复数可以视为实数;当z的虚部不等于零时,实部等于零时,常称z为纯虚数.复数有多种...

容解屠3386复数转为什么形式的?0.333+j0.667=0.7454e^j1.1071 这是复数形式转为什么形式?怎么转的? -
山卫柳13672599204 ______[答案] 这是复数形式转为指数形式 a+bi=pe^iθ p= √(a^2+b^2) tanθ=b/a 这里θ=arctan2=63.44º=63.44*π/180=1.1071

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024