首页 >>  正文

腾讯云服务官网

来源:baiyundou.net   日期:2024-08-22

智东西

编译 | Glu

编辑 | 李水青

智东西6月27日消息,昨天下午,腾讯云在北京举办了一场面向AI大模型的高性能网络沟通会,在现场首次完整披露了其自研的星脉高性能计算网络。据称,星脉网络具备3.2Tbps业界最高互联带宽,能提升40%的GPU利用率,节省30%~60%的模型训练成本,还让AI大模型通信性能提升10倍。

同时,基于腾讯云新一代算力集群HCC,星脉网络可支持10万卡的超大计算规模。

AI新时代,大模型成为AI领域最火热的话题,各大科技公司纷纷入局,腾讯公司也不例外,继6月19日公布其行业大模型研发进展后,腾讯云副总裁王亚晨、腾讯云数据中心网络总监李翔于今日与智东西等媒体官宣了“星脉网络”实现全新升级,并分享了腾讯云网络研究的发展历程。

王亚晨称:“星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”

演讲嘉宾:腾讯云副总裁王亚晨

演讲嘉宾:腾讯云数据中心网络总监李翔

一、AI大模型3大网络需求:大带宽、高利用率、无损网络

目前,AI大模型的训练参数已飙升至万亿级别,如此庞大的训练任务无法由单个服务器完成,而需要大量GPU服务器组成算力集群,相互协作完成任务。

这些服务器通过机间网络相连接,不断交换数据。因此,高性能网络具有至关重要的地位,它有利于让算力集群更加快速、准确地完成大规模的训练任务。

大集群不等于大算力,相反,GPU集群规模的扩大还会引发额外的通信开销。因为传统网络架构下,数据传输时会通过多层协议栈,需要反复停下来检查、分拣、打包,导致通信效率低下。

也就是说,网络层级越多,致GPU集群通信性能将越低。现在爆火的生成式AI大模型需要运用千亿、万亿参数规模进行训练,这个训练过程中通信占比最大可达50%,而传统低速网络的带宽无法支撑。

在这个问题的解决上,业界通常会引入RDMA技术(GPU之间直接通信),这是一种高性能、低延迟的网络通信技术,能够允许计算节点之间直接进行数据传输,减少中间环节。

但光靠RDMA技术还远远不够,传统网络协议也将制约GPU集群的运行效率。传统网络协议也很容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。

王亚晨幽默地将传统网络协议喻为“交通管理系统”:“这让所有人都在一条大马路上行走,自然会导致交通堵塞。”

二、3.2Tbps带宽,支持10万卡集群组网

基于以上问题,腾讯云在交换机、通信协议、通信库以及运营系统等软硬件方面进行升级,推出了自研的大模型专属高性能网络“星脉”。

“带宽”决定了能够同时传输的数据,“拓扑”是节点设备间的连接方式,决定了组网规模的大小。在这两项硬指标上,腾讯云称星脉皆达到了业界最高水平。

在硬件方面,星脉网络自研白盒交换机,这是一种软硬件解耦的开放网络设备,采用四层解耦体系,包括接入、转发、路由、管控系统;腾讯云还自研了网络操作系统,包括网络OS与网管平台,构建了互联底座,实现自动化部署和配置。

在软件方面,腾讯云自研的TiTa网络协议,能够实时监测并调整网络拥塞,TiTa网络协议能够提升40%的带宽负载,还能提供低延时无损网络,实现高负载下的0丢包,使集群通信效率达90%以上。

王亚晨将其与传统网络协议对比,称:“这是让有不同需求的人走不同的路,就不会导致堵塞了。”

此外,腾讯云还为星脉网络设计了高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。

王亚晨将其比喻为“导航系统”,优化后的集合通信就像有了导航一样,可以快速找到最优路径。

为确保星脉网络的高可用,腾讯云自研端到端全栈网络运营系统。它可以让大模型训练系统的整体部署时间从19天缩减至4.5天,保证基础配置100%准确;通过端网立体化监控与智能定位系统,它可以进行离线故障诊断、在线故障实时告警,让整体故障的排查时间由天级降低至分钟级;此外,它具有秒级的故障自愈能力,端侧会主动发起路径选择,能够极速恢复网络故障。

三、3代演进,17年耕耘,网络硬软件全自研

根据腾讯云官方数据,目前,腾讯云在全球26个地理区域运营70个可用区,同时在70多个国家和地区部署了超过2800个CDN加速节点,全网带宽资源储备超过200T。

而在星脉网络技术升级的背后,是腾讯数据中心网络历经3代技术演进、17年耕耘的成果。

第一代是互联网驱动时期。数据中心网络流量主要由用户访问数据中心服务器的南北向流量构成,网络架构以接入、汇聚、出口为主。这一阶段主要使用了商用网络设备,搭建标准化数据中心网络,支撑QQ在线人数增长超过1亿,服务器规模增长超10万。

第二代是云服务驱动时期。随着大数据和云计算的兴起,服务器之间的东西向流量逐渐增多,云租户对网络产生了虚拟化和隔离的要求。数据中心网络架构逐渐演变为同时承载南北向和东西向流量的云网络架构,腾讯云构建了全自研网络设备与管理系统,打造超大规模数据中心网络,服务器规模近200万台。

第三代是大规模算力驱动时期。随着AI大模型的出现,腾讯云在国内率先推出高性能计算网络,采用东西向、南北向流量的分离架构。构建了独立的超大带宽、符合AI训练流量特征的网络架构,并配合自研软硬件设施,实现整套系统的自主可控,满足超强算力对网络性能的新需求。

日前,腾讯云发布的新一代HCC高性能计算集群,正是基于星脉高性能网络打造,可以实现3.2T超高互联带宽,算力性能较前代提升3倍,为AI大模型训练构筑可靠的高性能网络底座。

结语:面向AI大模型,腾讯星脉网络打助攻

参数达到千亿、万亿级别的AI大模型尤其看重网络性能,它需要大带宽、高利用率、无损的网络来帮助它高效地完成训练任务。以此为契机,腾讯云基于过往17年的网络布局经验与技术成果,研发了助攻AI大模型的星脉网络。星脉网络具备3.2Tbps带宽,可支持10万卡集群组网,能让AI大模型通信性提升10倍。

自OpenAI于去年推出ChatGPT后,各方势力纷纷入局AI大模型,千模大战一触即发。腾讯公司上周了公布其行业大模型的研究进度,腾讯云不“卷”参数,而聚焦到具体产业端,关注AI大模型的落地。此外,他们积极构建高性能网络以助攻AI大模型。此次沟通会中,王亚晨还透露腾讯云正在积极探索下一代高性能网络,致力于构建更强算力的计算集群。

","gnid":"93d17d7d1770526b9","img_data":[{"flag":2,"img":[{"desc":"","height":"340","title":"","url":"https://p0.ssl.img.360kuai.com/t01911a91337f62e3a9.jpg","width":"800"},{"desc":"","height":"520","title":"","url":"https://p0.ssl.img.360kuai.com/t01f80a3780db32e863.jpg","width":"800"},{"desc":"","height":"520","title":"","url":"https://p0.ssl.img.360kuai.com/t013a71abb0d9793559.jpg","width":"800"},{"desc":"","height":"440","title":"","url":"https://p0.ssl.img.360kuai.com/t013f0d0410b63b0b06.jpg","width":"800"},{"desc":"","height":"440","title":"","url":"https://p0.ssl.img.360kuai.com/t015f637d199f11a7d5.jpg","width":"800"}]}],"original":0,"pat":"art_src_3,sexf,sex4,sexc,fts0,sts0","powerby":"hbase","pub_time":1687827780000,"pure":"","rawurl":"http://zm.news.so.com/3b412af0905c2d9edc5a1ee57c6cd530","redirect":0,"rptid":"d2cf0b8270ca5a2c","rss_ext":[],"s":"t","src":"智东西","tag":[{"clk":"ktechnology_1:腾讯云","k":"腾讯云","u":""},{"clk":"ktechnology_1:gpu","k":"gpu","u":""}],"title":"助攻AI大模型,腾讯云星脉高性能计算网络首次完整披露

桂底喻2897腾讯云视频云服务怎么样 -
余穆芝18769236331 ______ 腾讯云视频云服务,也就是直播云服务,非常不错,对直播特别有优势,经朋友介绍找了小溪边开通了多台腾讯云视频云服务套餐,做了好多年了,规模是最大的经销商,口碑蛮好的,非常值得推荐,稳定性很好,虽然不是最便宜的,当然也是最靠谱的了,我在这家用了3年了,小溪边都是兢兢业业,非常迅速的提供服务.

桂底喻2897腾讯云好还是新网好? -
余穆芝18769236331 ______ 新网的不了解,腾讯云全国著名大代理商蓝色航线,注册资本1000万,做了很多年了,超级优惠,同时享受腾讯云官网折扣,折上折,是最便宜的.

桂底喻2897腾讯云服务器怎么样?如何购买? -
余穆芝18769236331 ______ 腾讯云还是很不错的,找了小溪边开通腾讯云,挺不错的,小溪边都是兢兢业业,非常迅速的提供服务

桂底喻2897阿里云和腾讯云服务器区别在哪?相互优势都是什么? -
余穆芝18769236331 ______ 腾讯云相比阿里云没什么优势.阿里云比腾讯云完善些,功能更多可用性更强.但腾讯云不是单纯卖云服务的,它是捆绑销售的,凡是要接入腾讯的生态(比如微信、QQ空间等)必须得用腾讯云服务器,靠着这个强制条款腾讯迅速发展壮大.腾讯云也在慢慢完善,大多数应用场景也都能满足,但就是对很多新技术的支持总是比阿里云慢一些,高级的配置定制也少一些.服务器结构不是很复杂的话用阿里云和腾讯云都差不多,要是想接入腾讯生态的话恐怕是没得选的只能用腾讯云,还有就是阿里云各种服务的费用比腾讯云要稍微低一些.阿里云沟通也比腾讯方便,路边随处可见代理,思朴科技.

桂底喻2897手机云服务被锁又忘记密码怎么办 -
余穆芝18769236331 ______ 你好,简要回复. 1,找回账号.手机云服务,多数都是绑定该手机号码作为注册资料一个的服务.主要功能就是及时本机上面的手机资料,以免出现因为手机丢失,损坏等原因而造成资料丢失.了解该账号注册用的原始资料,直接在电脑上进...

桂底喻2897yunoppocom云服务登录 -
余穆芝18769236331 ______ 云服务登录网址为http://cloud.heytap.com,您也可直接点击云服务网址链接跳转到云服务官网登录页面.

桂底喻2897腾讯“云”是腾讯旗下的吗?
余穆芝18769236331 ______ 是,凡是有腾讯二字的都是腾讯的

桂底喻2897如何利用腾讯云的相关服务 -
余穆芝18769236331 ______ 腾讯云主要为开发者及企业提供云服务、云数据、云运营等整体一站式服务方案,具体包括云服务器、云存储、云数据库和弹性web引擎等基础云服务,看楼主要选哪一块合理使用便可,腾讯云安全稳定,好多人都在用.

桂底喻2897怎样安全使用云服务? -
余穆芝18769236331 ______ 近年来,移动互联网快速发展,易于同步与分享的云存储服务走进人们的生活,各大互联网服务商和移动设备厂商纷纷推出云存储服务以增强用户粘性,随之而来的是用户信息安全面临新的挑战,重大敏感信息泄露事件时有发生,近日美国多位...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024