首页 >>  正文

28nm国产实验线

来源:baiyundou.net   日期:2024-09-29

仅仅在五、六年前,人工智能还只存在于人们的想象。雷峰网雷峰网

短短几年间AI快速扩张,AI算力和运算数据量每年都在以指数级增加,对算力的需求空前,但摩尔定律却已接近极限。

在能耗墙和存储墙的阻挡下,半导体愈来愈蹒跚的算力提升已经追不上狂奔的AI。

存算一体架构有机会让AI面临的问题迎刃而解。时代的浪潮下,一批探索存算一体的企业相继成立。

在这个领域中,国内外研究几乎站在同一起跑线上。

其中亿铸科技是将新型存储器ReRAM用于存算一体赛道的“先行者”。成立仅仅两年,亿铸科技就已能够设计出能效比超过主流计算卡十倍的基于ReRAM的存算一体AI大算力芯片。

在即将到来的存算一体爆发期,国产厂商们将要迎来的,是一场与国外巨头们堂堂正正的对决。

名为GPU的马,拉不动AI的车

自1956年约翰.麦卡锡在达特茅斯会议上提出人工智能的概念,AI已经发展了70年。

70年间,AI曾经爆发过三次浪潮。

在前两次浪潮中,AI由于种种原因,最终未能普及。

直到第三次浪潮中,深度学习技术的兴起,解决了AI普适性与可维护性的问题,这一赛道才真正迎来曙光,造就了现代意义上的基于深度学习的“人工智能”。

随着深度学习的广泛应用,对算力的需求日益增加,这让能够提供大规模算力的GPU在AI领域变得越来越重要。

然而GPU毕竟不是专为人工智能而生,随着人工智能发展走入深水区,GPU的问题逐渐浮现,尤其是AI发展中的“存储墙”、“能耗墙”问题,GPU无法突破。

无论是CPU还是GPU,采用的都是存算分离的冯诺依曼架构。

在冯诺依曼架构下,80%-90%的功耗发生在数据传输上,99%的时间消耗在存储器读写过程中,导致了“存储墙”和“功耗墙”问题。

冯诺依曼架构的芯片在工作时,计算单元要先从内存中读取数据,计算完成后再存回内存,才能最终输出。

但在过去几十年中,存储器与处理器的发展严重失衡,自上世纪八十年代以来,存储器读取速率的提升远远跟不上处理器性能的增长。

这导致了计算畸形的漏斗结构:无论处理器所在的漏斗“入口”一端处理了多少数据,也只能通过存储器狭窄的“出口”输出,严重影响了数据处理的效率。

曾在AI芯片公司Wave Computing工作过的熊大鹏博士对此深有感悟。

2014年左右,熊大鹏正在从事GPGPU领域的研究,在工作中他深感能耗墙与功耗墙的限制下,人工智能难以持续发展。

熊大鹏认为,打破内存与计算隔阂的存算一体架构是人工智能未来的一个可能解。

不同于冯诺依曼架构,存储单元与计算单元一体的结构让数据不必在两者之间反复“搬运”,从而让“能耗墙”与“功耗墙”问题迎刃而解。

谈起对存算一体技术的初印象,熊大鹏说到:“2017年我第一次接触到存算一体技术,当时就震惊于怎么会有这么好的东西能够恰好解决AI芯片面临的问题。”

在初识存算一体后,熊大鹏兴趣盎然,立刻开始了着手从产业界到学界学习和调研,对存算一体建立了系统的认识。

当时,把存算一体运用到AI中还只是一种理论,熊大鹏还没有找到将他在存算一体领域的雄心落实的机会。

熊大鹏得以实现抱负的契机是与ReRAM的偶遇,这也是他在2020年创立存算一体AI芯片公司亿铸科技的关键。

存算一体的「天时」、「地利」与「人和」

2018年,熊大鹏在工作中接触到了ReRAM的领军企业Crossbar。当时正在苦苦寻找存算一体技术在AI芯片领域落地方案的他,刚一接触ReRAM,就近乎直觉地认为ReRAM有解决存算一体落地问题的能力。

存算一体的存储介质选择一般有三种方案:Flash等传统存储介质;相对成熟的易失性存储器SRAM;以及ReRAM等新型存储器。

熊大鹏说,不同的存储介质有不同的特点,也有各自最适配的应用领域,而在他看好的AI大算力芯片场景下,ReRAM则是最合适的选择。

在他看来,NAND Flash读写延时较大,性能相对落后,并且工艺节点在40nm左右,难以随先进工艺继续迭代,无法满足AI大算力芯片的计算需求。

SRAM存储器在大算力场景下则存在单位密度受限、漏电流和工程落地难度和成本较高等问题。

而ReRAM虽然在应用于模拟存算一体时也存在着精度和数模转换等难题,但在熊大鹏看来,亿铸科技选择的基于ReRAM的全数字化存算一体技术,能较好解决精度和数模转换等难题,无疑更适合应用在AI大算力芯片的场景中。

ReRAM是一种新型非易失存储器,其基本存储单元被称为忆阻器,是一种可编程电阻,其特点是在断电之后电阻值依然能够长期保持。

忆阻器可编程的性质让其非常适合在ReRAM存储单元上加上计算功能,而断电后保持数据不丢失的特性也让它能够成为可靠的存储器,这都让ReRAM与存算一体架构的要求不谋而合。

在与一家全球ReRAM新型存储技术领军企业中的老朋友们,还有斯坦福大学、德克萨斯大学奥斯汀分校、上海交通大学、复旦大学、中国科学技术大学等高校的知名科学家们经过几个月的讨论后,熊大鹏对使用ReRAM存算一体技术解决AI大算力芯片问题有了初步想法,随即开始组建团队。

用ReRAM和全数字化存算一体技术做AI芯片是一条全新的道路,前人留下的脚印甚少,过河没有石头可摸。

一开始熊大鹏也考虑过从技术更成熟的SRAM开始,再过渡到ReRAM。

最终是团队的支持给了熊大鹏信心。团队组建的过程中,熊大鹏找到了过去在Wave Computing共事过的Debu博士。

Debu博士是IEEE Fellow、曾就职于斯坦福大学,当时在Cadence担任首席科学家兼AI部门CTO,也在研究基于SRAM的存算一体IP Core,并且已经成家。如果接受熊大鹏的邀约,在家庭和事业两方面都面临着困难。

但Debu在了解到熊大鹏决定入局基于ReRAM的全数字化存算一体芯片后,顿觉这是一项面向未来的大事业,解决了他在Cadence研究过的基于SRAM 存算一体未能解决的技术瓶颈,克服种种困难最终还是决定加入到亿铸科技创业的行列中。

Debu不远千里来投,让熊大鹏感受到了有识之士对这个赛道的信心,而许多之前曾与熊大鹏有过深入交流的包括工艺器件、电路设计、架构方案和软件生态等各方专家学者的加入,则给了熊大鹏技术攻关的底气。

“不论是ReRAM还是MRAM都是比较前沿的领域,单凭企业自身很难成功,离不开新型存储器领域领先的合作伙伴企业和一流研究团队的支持。”熊大鹏说。

有了这些的支持,熊大鹏终于下定决心,决定直接从ReRAM开始。

“我们的创业团队是‘三老’团队,”熊大鹏略带调侃地说,“老同事,老同学,老朋友。”

原本就对AI芯片十分熟悉的熊大鹏和对基于SRAM存算一体拥有开发经验的Debu让亿铸科技开局已占地利,而众多老友的加入让亿铸科技又添人和。而在熊大鹏看来,存算一体的天时也正在当下。

决战近在咫尺,中国芯这次正面「亮剑」

对于国产存算一体芯片的企业们来说,前路依然漫漫,但代表着决战的鼓声已经悄然迫近。

创业者的身份外,熊大鹏还是一名在芯片领域纵横多年的投资人。

作为投资人,熊大鹏见证了许多新兴技术的成长。过往的经验告诉他,属于存算一体的时代距离现在并不遥远。

在熊大鹏看来,存算一体产业从已经实现了从端侧小算力到云端大算力的全场景覆盖,整个产业链的配套正在成熟。

同时,潜在客户对存算一体的认知也越来越清晰,从“没听说”到“有了解”再到如今已经对产品“有期待”。

在国家对能耗越来越严格的管控趋势下,数据中心对高能效比的大算力产品的需求也在高涨。而存算一体芯片超高能效的特性正好可以满足市场需求。

种种因素相叠加,熊大鹏做出判断:“2024年到2025年,存算一体的产品会全面开花。”

距离存算一体的全面爆发,还有三年时间。对于国产存算一体厂商来讲,这正是属于他们的“天时”。

亿铸科技仅正式运营两月后,就获得了由联想之星、中科创星和汇芯投资联合领投的过亿元天使轮融资。在推动ReRAM落地的关键技术上,亿铸科技也已经取得了突破。

如果用模拟或混合方式构建芯片,忆阻器在受到工艺和环境的影响时,会出现精度漂移和数模/模数转换能耗问题。这也是ReRAM落地存算一体的关键阻碍。

为了突破这一难关,亿铸科技选择攻关全数字化存算一体技术。

基于全数字化方式构造芯片,无需模数和数模信号转换器,不会受到信噪比的影响,精度可以达到32bit甚至更高,既不会产生精度损失,也不会面临模拟计算带来的诸如IR-DROP等问题。

基于全数字化方式,亿铸科技将开发业界首颗基于ReRAM的全数字化存算一体AI大算力芯片,采用chiplet技术,单模组将突破1000TOPS算力,超出GPU 250TOPS算力的四倍多。

熊大鹏表示,亿铸科技的产品落地正在快速推进,第一代芯片将于2023年落地,并在同年投片第二代芯片。

虽然一切顺利,但无论对亿铸科技还是对存算一体芯片来说,这都远远不是终点。

熊大鹏认为,在技术上实现存算一体和在商业上取得成功是两种概念。在他看来,存算一体芯片要想大规模被应用,首先要建立起自己的生态。

熊大鹏告诉我们,在大算力应用场景下,存算一体的竞争力在于构建生态系统。

仅仅“参与”到现有的生态中,这远远不够,只有跳出传统架构的局限,一开始就以存算一体作为思路构建整体系统才能真正发挥存算一体的竞争力。

亿铸科技的目标除了将存算一体架构在AI大算力领域商用落地之外,还期望和其他存算一体赛道上的伙伴们共建生态。

而在美国对我国半导体领域持续打压的背景下,存算一体芯片还承载着着冲破藩篱的使命。

前段时间,美国出台了对我国的先进制程和高性能计算设计工具EDA等的出口限制政策,这无疑将对我国AI研究的未来带来更大挑战。

熊大鹏认为,在先进工艺短期内无法实现全国产化的大前提下,国内半导体必须具备在性能表现相同的条件下发展与先进制程解耦的技术。

存算一体就是一种突破先进制程对性能限制的有效路径:亿铸科技基于成熟的28nm CMOS工艺和国内既有产业配套设计的存算一体AI大算力芯片已经可以实现7nm CMOS先进制程AI芯片10倍以上能效比和性能。

并且,在存算一体赛道上,国产芯片厂商们并非单方面的追赶。

在熊大鹏看来,与传统赛道相比,在存算一体芯片领域,国外“巨头们”并没有在这条新开辟的道路上领先太多。

“总的来说,国内外在存算一体领域差距不大,而且在某些方面,我们做的更快更好。国内做存算一体的基本都是初创公司,初创公司可以大干快上地投入,无惧国外巨头们的竞争,而这些巨头们却未必有拥抱革命性技术来革自己命的决心,效率也不一定比我们高。”熊大鹏总结道。

对于这场即将降临的决战的最终结果,熊大鹏显得信心十足:“到了存算一体全面开花的那天,我们一定能够战胜他们。”

存算一体赛道上,第一批国产挑战者已经起跑,相信在存算一体未来几年内将到来的“未来之战”中,国产芯片公司一定能够跑出存算领域的“领航者”。如果想和作者更深度讨论存算一体芯片的话题,可以添加作者微信Soldier7887(注明来意),下一篇文章我们将讲一讲基于SRAM的存算一体AI大算力芯片,欢迎从业者与作者讨论。

","force_purephv":"0","gnid":"94f50c2aa3b477978","img_data":[{"flag":2,"img":[]}],"original":0,"pat":"art_src_1,fts0,sts0","powerby":"hbase","pub_time":1664440167000,"pure":"","rawurl":"http://zm.news.so.com/f58aff60169ce0a1ff6a02955ecd3b8e","redirect":0,"rptid":"96a7e70febc740c1","s":"t","src":"雷峰网","tag":[{"clk":"ktechnology_1:芯片","k":"芯片","u":""},{"clk":"ktechnology_1:gpu","k":"gpu","u":""}],"title":"仅需28nm工艺,提升AI芯片十倍能效,国产存算一体「超速前进」

裘紫戚3446搭载瑞芯微rk3188的平板什么时候发表 -
离炭追15592378201 ______ 瑞芯微RK3188的CPU这个月才发布的,连具体的参数都没有公布,等到平板厂商设计板子到出货,要2到3个月时间吧,首发的牌子可能是爱立顺,价格不会太贵,10寸屏应该在1500左右,主要看其他的配置了.28纳米,性能不错,要买的话,耐心等待吧.届时双核平板也会掉价的.

裘紫戚3446手机四核处理器英伟达(tegra3) 高通 德仪 三星 国产mtk哪个强点? 从玩游戏和上网以及3d处理的角度上说. -
离炭追15592378201 ______ 德州仪器已经退出手机芯片市场, 不会有4核产品量产了. 高通的手机芯片从高到低通吃, MTK目前主要吃中低端. 2012年全球手机芯片市占率第一名高通 31%, 第二名三星 21%, 第3名MTK (惨, 没找到具体数据). 2012年在中国手机芯片市...

裘紫戚3446骁龙652对比骁龙msm8976 哪个好 -
离炭追15592378201 ______ 测试文章 骁龙650/652在工艺上依旧比骁龙615等前辈先进.简单来说,台积电(TSMC)针对移动处理器而定制的28nm工艺又被细分为LP、HPM和HPL三种.骁龙615等前辈所采用的具体是28nm LP(Low Power,低功耗)工艺,而LP则是台积...

裘紫戚3446现在的CPU纳米制程达到了什么样的水准?
离炭追15592378201 ______ LGA2011接口的Intel i7 39X0K系列可能会在正式发布时采用的是28nm甚至22nm制程技术(工程样本仍为32nm) 用来取代i7 980X和990X 另外据说国产龙芯已经有28nm的制程技术(龙芯3C)不过目前没有后续报道的,而且龙芯是MIPS指令集的嵌入式处理器,不支持X86-64指令集,所以也就没法运行X86程序了(wndows的大部分都是X86或者X86-64的)

裘紫戚3446Avalon3在哪买?Avalon3芯片采用40nm制程工艺,国内好多都是28nm. -
离炭追15592378201 ______ 阿瓦隆原装Avalon3矿机目前还没有投入市场,不过Avalon三代芯片已经可以直接购买.你可以去比特范网站(原比特币爱好者)进行购买或订购.老狐狸目前负责Avalon整体矿机的销售、客服以及技术支持.当然,也销售Avalon三代芯片和一些阿瓦隆山寨矿机.28nm制程工艺的芯片确实要比40nm制程工艺的芯片要先进,但这只是在单颗芯片上来说的,矿机的好坏要看矿机的整体效能以及成本.28nm制程工艺虽然先进,但28nm的矿机的整体性能未必就比40nm矿机好,而且价格可能会更高.算力只能决定你挖矿的速度,芯片的先进与否只能决定你技术的进步性,但却不能决定你的收益.矿机的整体性能才是决定一个矿机好坏的唯一标准.

裘紫戚3446小米2手机是28nm工艺 28nm和32nm 还有40nm比是好还是差 为什么 能否举个简单的例子介绍一下
离炭追15592378201 ______ 您好数字越小代表工艺越先进,能耗更低.欢迎在小米企业平台提问:http://zhidao.baidu.com/c/xiaomi

裘紫戚3446有哪款手机适合玩安卓大型3d游戏 -
离炭追15592378201 ______ 建议楼主选择Find 5,它的处理器来自于高通骁龙S4 Pro系列--APQ8064.APQ8064采用当前最新的28nm工艺制造(高通也是首家使用28nm芯片的厂商),集成最新的Adreno 320 GPU,整合四个Krait架构CPU核心,每核主频最高达1.5GHz.要玩3D游戏还是不二之选,我同事就有一部,力荐这款手机.

裘紫戚3446显卡的制造工艺28纳米好还是40纳米好 -
离炭追15592378201 ______ 肯定是28纳米的工艺是更先进的.意味着这款显卡功耗发热更低. 但是也是要看具体型号的.40纳米的最高端性能上肯定是比28纳米的低端产品强很多.

裘紫戚3446哪款比较好?想换手机?想换手机,哪款比较好?请大家推荐个手机啊!
离炭追15592378201 ______ 个人比较推荐5S 外在改变小内在大 优点: 1.A764位双核1.3赫兹处理器,M7协助处理器,运行速度比iphone5翻倍,是目前运行速度最流畅的手机,不必担心卡顿,死...

裘紫戚3446同样是GTX1050ti,精影14nm工艺 4G 888元/铭瑄28nm工艺 4G 878元.到底哪个好?1 -
离炭追15592378201 ______ 显然是看到广告宣传有问题. 所有的GTX1050TI都是14nm 28nm铭瑄你要注意广告是否是1050ti,有的是战1050ti,或胜1050ti(关联词)

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024