首页 >> 正文

gpu+benchmark

来源：baiyundou.net 日期：2024-07-15

允中发自凹非寺

量子位 | 公众号 QbitAI

北京时间11月10日，全球权威AI训练性能基准测试MLPerf Training v2.1结果正式公布[1]。百度使用飞桨框架提交的8机64卡配置下的BERT模型训练性能，位列同等GPU配置下世界第一。端到端训练时间和训练吞吐两个指标均超越NVIDIA高度优化的NGC PyTorch框架。

MLPerf是全球影响力最广的AI性能基准测试之一[2]，飞桨本次夺魁，进一步体现了飞桨框架在分布式训练性能上的领先优势。

飞桨在MLPerf Training中的表现成绩

在今年6月30日发布的v2.0榜单里[3]，百度飞桨在8卡NVIDIA GPU（400W功耗，80G显存）配置下，BERT模型训练性能排名第一，比其他提交结果快5%~11%不等，展示了飞桨领先的单机多卡并行训练性能优势。

在v2.0优异性能的基础上，飞桨在v2.1中提交的多机性能结果，进一步印证了分布式训练的极致性能表现。图1展示了v2.1中8机64卡NVIDIA GPU（400W功耗，80G显存）配置下BERT模型的所有训练性能数据（共4组），百度飞桨的端到端训练收敛时间比其它提交结果快1%~20%不等；图2展示了图1各组提交数据的吞吐对比，百度飞桨的训练吞吐比其他提交结果快2%~12%不等。

△图1：MLPerf Training v2.1 BERT模型，端到端训练收敛时间排名（8机64卡GPU）[1]

△图2：MLPerf Training v2.1 BERT模型，所有提交结果吞吐比较（8机64卡GPU）[1]

飞桨分布式训练核心技术解析及在MLPerf中的应用

飞桨在MLPerf基准测试中取得的优异成绩，得益于飞桨框架在分布式训练核心技术上的持续探索和创新：

高加速比的混合并行技术

针对大规模稠密参数模型高效训练问题，飞桨在业内首创4D混合并行训练策略。MLPerf BERT模型训练任务基于飞桨的混合并行策略，在单机8卡场景实现了超线性加速，在8机64卡相对于单机的扩展效率达到了94%。

端到端自适应分布式训练技术

针对分布式训练调优困难的问题，飞桨提出了端到端自适应分布式训练架构。对于MLPerf BERT模型训练任务，根据集群通信拓扑特点并结合NCCL SHARP协议，使用全局通信与分层次通信结合的方式降低整体通信耗时，有效提升模型训练性能。

高效的异构设备负载均衡技术

针对分布式训练经常出现的负载不均、数据加载速度瓶颈等问题，飞桨提出了异构设备混合负载均衡的方案，根据不同设备的算力特点，高效地进行负载均衡设计。MLPerf BERT模型训练任务通过使用GPU高带宽通信，解决模型训练启动时的数据加载慢问题；通过CPU异构设备通信，实现模型训练过程与数据负载均衡间的重叠，提高模型训练效率。

针对分布式训练经常出现的负载不均、数据加载速度瓶颈等问题，飞桨提出了异构设备混合负载均衡的方案，根据不同设备的算力特点，高效地进行负载均衡设计。

MLPerf BERT模型训练任务通过使用GPU高带宽通信，解决模型训练启动时的数据加载慢问题；通过CPU异构设备通信，实现模型训练过程与数据负载均衡间的重叠，提高模型训练效率。

源自产业实践飞桨分布式技术助力大模型落地

作为产业级深度学习平台，飞桨的分布式训练技术在实践中不断创新，并结合应用反馈持续优化。结合计算机视觉、自然语言处理、科学计算等领域的应用，飞桨研发了异构硬件下的低存储和高性能训练技术，相继发布了业界首个通用异构参数服务器架构、4D混合并行训练策略、端到端自适应分布式训练架构等多项领先技术成果。

飞桨大规模分布式训练技术，支持了百度大模型领域技术快速迭代持续领先。例如，百度发布了全球首个知识增强千亿大模型“鹏城-百度·文心”、全球首个百亿参数中英文对话预训练生成模型PLATO-XL、全球规模最大中文跨模态生成模型ERNIE-VILG、业界规模最大的多任务统一视觉大模型VIMER-UFO。

此外，飞桨分布式技术还在国产硬件集群上将AlphaFold2千万级别蛋白initial training阶段从7天压缩到2.6天。目前，文心已发布20多个大模型，覆盖自然语言处理、计算机视觉、跨模态、生物计算等领域，赋能工业、能源、城市、金融等千行百业。

结语

继在MLPerf Training v2.0获得了BERT模型单机训练性能世界第一后，飞桨在MLPerf Training v2.1的8机64卡配置下分布式训练性能再度折桂。成绩的背后，不仅是飞桨分布式框架的持续创新突破，也伴随着硬件生态的蓬勃发展。

飞桨硬件生态伙伴体系历经“共聚”、“共研”、“共创”三大阶段，目前已携手超过30家硬件厂商深度融合优化。飞桨与NVIDIA、Intel、瑞芯微、Arm等多家伙伴厂商合作，结合自有软硬件基础开发栈特色，针对不同应用场景和产品，在共同推出飞桨生态发行版、建设开源开放模型库、开发课程与培训内容等方面开展合作。

比如，NVIDIA与飞桨合作推出了NGC飞桨镜像，自2022年5月26日上线以来每月更新，持续不断地将NVIDIA CUDA最新软件栈与飞桨框架深度集成。NVIDIA与百度飞桨联合打造了深度学习优化与部署课程，预计12月中旬在百度飞桨人工智能学习与实训社区（AI Studio）及NVIDIA 深度学习培训中心 (DLI) 同步上线。

未来，飞桨将继续在软硬协同性能优化和大规模分布式训练技术等方向持续创新，为广大用户提供广泛适配、性能优异的产业级深度学习平台。

参考文献：

[1] MLPerf Training v2.1 Results

https://mlcommons.org/en/training-normal-21/

[2] THE NEXT PLATFORM

https://www.nextplatform.com/2021/08/10/why-the-mlperf-benchmark-is-good-for-ai-and-good-for-you/

[3] MLPerf Training v2.0 Results

https://mlcommons.org/en/training-normal-20/

[4] 飞桨框架v2.3发布高可复用算子库PHI！重构开发范式，降本增效

https://www.paddlepaddle.org.cn/support/news?action=detail&id=2994

[5] 飞桨框架v2.3一键开启全自动性能优化，媲美专家级优化效果

https://www.paddlepaddle.org.cn/support/news?action=detail&id=3079

— 完 —

量子位 QbitAI · 头条号签约

","force_purephv":"0","gnid":"97e628da31db9c7b8","img_data":[{"flag":2,"img":[{"desc":"","height":"392","title":"","url":"https://p0.ssl.img.360kuai.com/t018c856e3bc66afe10.jpg","width":"701"},{"desc":"","height":"612","title":"","url":"https://p0.ssl.img.360kuai.com/t01b3ce965cf07d172b.jpg","width":"1080"}]}],"original":0,"pat":"pdc,art_src_3,fts0,sts0","powerby":"hbase","pub_time":1668142500000,"pure":"","rawurl":"http://zm.news.so.com/b6a086e051266b6f37ae27d918870e02","redirect":0,"rptid":"89d866ebeb6aceb2","s":"t","src":"量子位","tag":[{"clk":"ktechnology_1:rain","k":"rain","u":""},{"clk":"ktechnology_1:gpu","k":"gpu","u":""}],"title":"MLPerf排名榜刷新：相同GPU配置训练BERT，飞桨拿下世界第一

平广轮2914EWSA中利用GPU+CPU快速利用字典PJ密码会损坏电脑吗 -
申雪奇18929256545 ______ 软件一般不会损坏到硬件,只有尽可能生成一个高效字典,才能提高成功率.推荐使用木头字典生成器

平广轮2914高通骁龙888好还是天玑9000+好? -
申雪奇18929256545 ______ 天玑9000+和骁龙8+各有优势,具蔽纯体选择取决于您的需求.1. CPU性能:天玑9000+的CPU性能更强一些,而骁龙8+的GPU性能更强.2. 能效比:天玑9000+的能效比要优于骁龙8+,可以在更低的功耗下提供更好的性能.3. 工艺技术:骁...

平广轮2914高通adreno225和64位苹果 a8+m8协处理器哪一个好 -
申雪奇18929256545 ______ adreno225属于GPU型号,而A8+M8属于CPU,两者作用不同,无法对比. 1. GPU中文名称图形处理器,也就是显卡,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器. 2. cpu中文名称处理器,是整台手机的控制中枢系统,也是逻辑部分的控制中心.微处理器通过运行存储器内的软件及调用存储器内的数据库,达到控制目的. 3. GPU和CPU的作用不同,所以无法直接对比.

平广轮2914骁龙8+4g处理器怎么样 -
申雪奇18929256545 ______ 骁龙8+4g处理器怎么样1. 概述骁龙8+4g处理器是高通公司最新推出的一款处理器,于2021年3月发布.该处理器采用8个Kryo 680内核和4个Kryo 660内核,性能强大,能够运行多个任务.骁龙8+4g处理器还配备了Adreno 660 GPU,支持5G网...

平广轮2914GPU是什么意思 -
申雪奇18929256545 ______ GPU英文全称Graphic Processing Unit,中文翻译为“图形处理器”.GPU是相对于CPU的一个概念,由于在现代的计算机中(特别是家用系统,游戏的发烧友)图形的处理变得越来越重要,需要一个专门的图形的核心处理器. GPU的作用 ...

平广轮2914英伟达的GPU架构都有哪些 -
申雪奇18929256545 ______ 费米,开普勒,特斯拉,还有麦克斯韦

平广轮2914tensorflow gpu版本运行时怎么知道有没有调用gpu以及cuda加速 -
申雪奇18929256545 ______ 安装GPU版本的tensorflow就可以了pipinstall--upgrade还需要安装GPU加速包,下载CUDA和cuDNN的安装包了,注意版本号分别是CUDA8.0和cuDNN5.1.如果都安装成功,运行程序时会自动使用GPU计算

平广轮2914显卡芯片NVIDIA GeForce GT 745M+Intel GMA HD 4600 怎么样 -
申雪奇18929256545 ______ GeForce GT 745M独立显卡属于性能级移动显卡定位,它应用了开普勒显卡架构设计,并支持NVIDIA GPU Boost 2.0和NVIDIA Optimus技术.其将流处理器为384个,核心频率较对位的GT 650M有所提高,就相当于是他的超频版,玩游戏的话现在市面上的主流游戏都没有鸭梨的.

平广轮2914AMD推出APU,其具体编程对于应用来说,与CPU+GPU的组合有何不同? -
申雪奇18929256545 ______ AMD推出APU,其具体编程对于应用来说,与CPU+GPU的组合有这些方面的不同编程上主要是要注意内存架构的不同,apu的内存总线和dgpu+cpu不同,双方可以共享内存地址空间,也就是说在cpu和gpu之间可以传递指针.这样节省了数据传输的开销.此外,共享内存空间可以实现gpu和cpu的同步,简单的做法是做一个全局spin lock.有了用户空间的同步,又能做很多有用的事情.

平广轮2914暴风影音里如何开启GPU硬解码? -
申雪奇18929256545 ______ 开启gpu硬解码需要你的显卡支持某项编码的硬解码才行,打开暴风,在窗口内右键选高级选项,点选高清,勾选开机高清硬件加速,下面现实的是你的硬件支持的高清编码格式,也就是你的显卡能硬解码的视频格式,勾选智能选择就好了.

（编辑：自媒体）