首页 >>  正文

迭代模型的缺点

来源:baiyundou.net   日期:2024-09-29

       杨净发自凹非寺
       量子位|公众号QbitAI
       文心一言上线内测一个月后,首份迭代数据曝光:
       一个月共迭代4次;
       模型推理效率提升10倍,最近一次带来的推理提升达到123%;
       推理性能提升50%,模型算力利用率提升1倍。
       简单归纳就是说,迭代很快、不仅成本降下来了,顺便还把性能提升了?!


       要知道过去一个月内,全球网友们的热情被这场技术风暴所点燃,人们玩得不亦乐乎,ChatGPT也overload了好几次。
       作为国内率先发布的文心一言,是如何保持住高效迭代的?
       在这份成绩单中,找到了答案。
       文心一言首月数据曝光
       曝光的数据不多,但全都是
       关键技术指标
       ——
       大模型
       训练与推理
       方面的数据,直接影响后续产品体验效果的好坏。
       首先,迭代方面
       。百度飞桨支撑的大模型推理服务在4月19日再次迭代,搭载了支持动态插入的分布式推理引擎。据消息称,这还是业内首创。
       截止目前,已迭代至3.5版本,一个月共迭代4次。
       具体到推理方面
       ,QPS(每秒查询推理响应速度)提升10倍,模型推理性能提升50%,模型算力利用率提升1倍。
       QPS(每秒查询推理响应速度)提升10倍
       ,也就代表着是大模型推理效率的提升,推理成本降低为原来的10分之一。换言之,在同等成本情况下可以为更多用户提供服务。
       模型推理性能提升50%
       。大模型需要在用户反馈中持续不断的学习,推理作为大模型应用的关键,其性能的提升直接影响到产品侧的效果。
       而
       算力利用率提升1倍
       ,同样也是降本增效的体现。
       事实上,不管是迭代速度,还是从模型成本、性能以及效率等多方面的提升,而这背后文心一言之所以能够高效迭代,飞桨的重要性不容忽视。
       更确切地来说,
       「飞桨+文心一言」联合优化。
       大模型不仅需要单纯的「暴力美学」的支撑,同时还需要深度学习框架作为底层来支持高效、稳定的分布式训练。
       此次数据就可以看到,飞桨即向上与模型「文心一言」,又向下与芯片算力都实现了协同优化,实现整体的效能提升。
       而具体到推理过程,飞桨能为文心一言“定制”了一个精密生产流程,结合大模型算力、数据、参数量等特点来设计工艺,从而提升了推理效率和性能,帮助模型学习得越快越好。
       大模型技术行业挑战
       这些迭代数据的背后,带出了大模型技术的新行业挑战值得探讨。
       随着更多产业玩家的推进,我们已经明显感知到
       大模型投入大成本高
       。如果没有足够的资金和计算资源,就连开发训练这一阶段都难以进行。
       据最新消息,OpenAI每天需要支付70万美元来维持ChatGPT基础设施运行。在此之前微软也已经从中投入了数十亿美元。
       诚如每每有行业大佬选择大模型创业,都有网友调侃:这点钱不够烧的。


       其次,
       大模型优化难迭代要求高,需要自上而下的全局优化
       。
       但事实上这牵涉到每个环节自上而下很强的经验积累。
       诚如OpenAI有业内人士消息称,它将整个公司最优秀的算法研究员,拿去做数据规划和处理。
       现在在百度文心一言,也得到再一次印证:
       大模型的突破和迭代,并非靠简单三驾马车(算力算法数据)来驱动,而是一整套从底层芯片框架到模型训练推理等流程的系统工程化难题。
       与此同时在这份数据中,也透露出了百度的经验解法:
       全局技术栈,端到端优化。
       早在文心一言启动邀测时,李彦宏就已经披露,百度将目前已有的AI技术栈自上而下分成了四个方面:应用层、模型层、框架层与芯片层。


       四层架构之间端到端优化,进而来实现降本增效。此次飞桨与文心一言的联合优化,正好就是这套解法最直观的展现。
       飞桨之于文心一言,一方面其开源分布式架构,可以支持模型大规模GPU并行训练,以提升模型的性能和效率。另一方面,连接了芯片层与模型层,将整套流程设计得更加精密和适配。
       甚至业内人士这样形象化地形容:
       大模型就像汽车的发动机,要压榨出发动机瞬时最大爆发力(QPS)以及最优的性能表现。
       深度学习就像是发动机的动力源“变速箱“,可以让发动机整体部件组合更精密、动力更强。
       更关键在于,如果这几层技术栈都是自主自研,那么协同合作就会更高效,效率提升也会更加明显。
       这些又意味着什么?
       最后,在这些行业挑战和百度经验解法之中,也透露出了大模型发展的几大趋势。
       首先,
       大模型想要跑得快跑得稳,必须端到端优化。
       OpenAI的成功一方面可以归结于自身的人才技术以及长期投入,另一方面微软从框架到算力的支持,也在其中做出了关键贡献,这才有了持续惊艳全球的ChatGPT。
       只是当时这种端到端优化的范式没有被太多强调关注。而此次曝光的文心一言数据,则是更广泛地证明了端到端优化的优势。
       以往大家所关注到的是大模型训练中算力、算法以及数据的必要性。但底层比如深度学习框架,对大模型训练推理的重要作用也应该被大家所广泛感知。
       其次,
       端到端优化的趋势,也正在改变大模型赛道游戏规则。
       ChatGPT风暴席卷而来,巨头们纷纷进场,大佬们前后脚创业,大模型人才被哄抢,每周都有上千个AI应用涌现……每个躬身入局的机构都在金钱、时间等方面进行抢夺与追赶。在大模型的创业浪潮中,有人把入场券门槛认为5000万美元,窗口期大概在半年到一年。
       但现在这种端到端优化趋势,正在让创业窗口期越来越短。
       原因无他,
       大模型雪球效应已经开始展现
       。
       以百度为代表的大模型玩家,正在形成“架构-大模型-应用-数据”飞轮加速闭环。一方面,推理成本降低,加速大模型产业落地,甚至可能比上一波浪潮更快;另一方面,大模型迭代速度越来越快,产品应用具有长期持续性,商业壁垒更容易建立,对下游生态玩家而言,这自然是刚需和利好。
       但与之相关,大模型创业甚至产品发布的窗口期也正在被压缩,留给大模型创业玩家的涌现的时间也不多了——
       他们不光要准备金钱、时间等这些外在资源储备,还需要考虑自身产品能否还具有竞争力。另外创业的必要性也正在减弱:就动辄大几千万甚至上亿的入场券来说,既没有必要重复造轮子,也没有端到端核心积累优势。
       大模型创业的机遇,会开始朝着生态和应用创新倾斜
       。
       但也正因如此,反而更加彰显了大模型自主的重要性,因为太基础、太底层、太需要把生态放在放心安心的国产层面了。
       大模型趋势再明晰不过,千行百业的落地价值也已经预见,入局是必然,但之前是否需要按照地缘区域或国界划分“造轮子”却没有共识——有些论点里,依然相信科学技术的进展会普惠到全世界。
       然而随着地球另一边,OpenAI越来越Close,API输出的区别对待,中国需要自己的大模型底座,正在成为共识。


       有意思的是,这在芯片、深度学习框架、底层架构平台的打造过程中,已经有过一轮讨论,有过一轮经验教训,并且还被类比为了汽车产业中的“发动机”,最后明确“发动机”必须要自主,这样产业才真正安全。
       然而到了大模型竞速中,对于“变速箱”的认知,之前因为对大模型认知不完备,存在不同声音,但此役过后,应该无人再有异议了。
       毕竟百度已经在打造、迭代的过程中,展现出了这种四层自研技术栈的端到端协同的必要性和重要性。
       不过也正是这种必要性和重要性,进一步明示了大模型打造的残酷的游戏规则:
       凡有的,还要加倍给他,叫他多余;没有的,连他所有的也要夺过来。
       这背后既是端到端全栈带动的壁垒,更是数据、应用驱动飞轮之下越滚越大的雪球。
       随着雪球向前,大模型产业落地的速度自然会加快,同时留给其他大模型玩家涌现的时间也越来越紧缺。
       这种趋势已经开始,这种趋势还会持续。
       —完—
       量子位QbitAI·头条号签约
       关注我们,第一时间获知前沿科技动态

","gnid":"9262b9ee850f4d0a4","img_data":[{"flag":2,"img":[{"desc":"","height":"792","title":"","url":"https://p0.ssl.img.360kuai.com/t01febcb01d2b723897.jpg","width":"640"},{"desc":"","height":"47","title":"","url":"https://p0.ssl.img.360kuai.com/t010769d2a970349e4b.jpg","width":"640"},{"desc":"","height":"351","title":"","url":"https://p0.ssl.img.360kuai.com/t0192a1a976cf9108b1.jpg","width":"640"},{"desc":"","height":"325","title":"","url":"https://p0.ssl.img.360kuai.com/t01c86e087157b2b91a.jpg","width":"640"}]}],"original":0,"pat":"jmc,art_src_0,fts0,sts0","powerby":"pika","pub_time":1712769379000,"pure":"","rawurl":"http://zm.news.so.com/06f17643eb21c922fb4a1f583949008d","redirect":0,"rptid":"46b6aa512f688e42","rss_ext":[],"s":"t","src":"站长电影","tag":[],"title":"文心一言迭代数据曝光,QPS提升10倍,留给LLM玩家的时间不多了

范乖美4311什么是迭代开发 -
焦仇夜13193456226 ______ 迭代式开发也被称作迭代增量式开发或迭代进化式开发,是 一种与传统的瀑布式开发相反的软件开发过程,它弥补了传 统开发方式中的一些弱点,具有更高的成功率和生产率.  在迭代式开发方法中,整个开发工作被组织为一系列的短小 的、固定长度(如3周)的小项目,被称为一系列的迭代. 每一次迭代都包括了定义、需求分析、设计、实现与测试. 采用这种方法,开发工作可以在需求被完整地确定之前启动, 并在一次迭代中完成系统的一部分功能或业务逻辑的开发工 作.再通过客户的反馈来细化需求,并开始新一轮的迭代.

范乖美4311瀑布模型的主要开发过程和优缺点有哪些? -
焦仇夜13193456226 ______ 开发过程有6个阶段:系统需求分析、软件需求分析、系统设计、软件编码、系统测试和软件维护.

范乖美4311电子商务信息系统的主要开发方法有哪些 -
焦仇夜13193456226 ______ 电子商务系统目前使用的开发方法有以下两种: 1、瀑布模型(生命周期方法学) 结构分析、结构设计,结构程序设计(简称SA—SD—SP方法)用瀑布模型来模拟.各阶段的工作自顶向下从抽象到具体顺序进行.瀑布模型意味着在生命周期...

范乖美4311什么是V - 模式开发?与瀑布式开发个有什么优缺点? -
焦仇夜13193456226 ______ 瀑布式开发是将项目划分为多个有限阶段并按顺序逐步完成各阶段的软件开发方法.瀑布式开发能够简化项目控制,并减少开发阶段不必要的跨团队交流.无需频繁修改计划,项目评估与管理也不再繁琐.V 型开发流程以瀑布模型中各开发生命周期阶段的相互关系为基础,可视为瀑布模型的延伸. 益进根据具体项目情况也会采用 V 型开发流程.V 型开发流程结构优良,环环相扣,每个阶段都能根据前一阶段的详细记录实施.例如,将测试设计之类的测试活动安排在编码阶段之前,可为项目节省大量宝贵时间.

范乖美4311软件开发的瀑布模型的优点和缺点 -
焦仇夜13193456226 ______ 瀑布模型的优点 1、瀑布模型有以2113下优点: 1)为项目提供了按5261阶段划分的检查点. 2)当前一阶段完成后,您只需要去关注后续阶段. 3)可在迭代模4102型中应用瀑布模型. 缺点 1)在项目各个阶段之间极1653少有反馈. 2)只有在项目生命周期的后期才能看内到结果. 3)通过过多的强制完成日期和里程碑来跟踪各个项目阶容段.

范乖美4311软件开发模式有哪些? -
焦仇夜13193456226 ______ 软件开发模式有哪些?快速原型模型:(需要迅速造一个可以运行的软件原型,以便理解和澄清问题)快速原型模型允许在需求分析阶段对软件的需求进行初步的非完全的分析和定义,快速设计开发出软件系统的原型(展示待开发软件的全部或...

范乖美4311迭代是什么意思? 是不是和繁殖的意思有点相近? -
焦仇夜13193456226 ______ 计算机 一般特指编程用词汇 重复做某件事或者重复做某几件事 跟繁衍无关

范乖美4311英语达人们进来翻译一段 中翻英 -
焦仇夜13193456226 ______ The advantage of waterfall model is it supplies phased test points for the item and the disadvantage is there is less feed back among the phases of the item.The advantage of RUP is accelerating the process of the total development.Since the ...

范乖美4311简述瀑布模型的优缺点和适用范围 - 上学吧普法考试
焦仇夜13193456226 ______ 瀑布模型(WaterfallModel)是一个项目开发架构,开发过程是通过设计一系列阶段顺序的,从系统需求分析开始直到产品发布和维护,每个阶段都会产生循环反馈,因此,如果有信息未被覆盖或者发现了问题,那么最好“返回”上一个阶段并进行适当的修改,项目开发进程从一个阶段“流动”到下一个阶段,这也是瀑布模型名称的由来

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024