【中国移动大动作!GSE中试将开展,为智算网络探索更多可能性!】
大模型需要大算力,大算力需要大集群,大集群需要大网络!
业界对此没有疑问,但选择什么样的机间互联技术,却有着不同的技术实现路径。
是先入为主的InfiniBand,还是当前呼声很高的UEC;其实,我们有更多的选择。在近日举行的“中国移动算力网络大会”上,中国移动副总经理高同庆宣布,对标国际主流的IB和UEC方案,形成中国自主的技术体系--全调度以太网(GSE),今年将开展GSE中试,加速GSE关键技术和产业成熟,为标准开放的新型智算互联贡献中国方案。
有了IB和UEC,我们为什么还需要GSE?GSE将会给产业界带来价值?从理念到技术再到产品和应用的落地,GSE还需要迈过哪些门槛?
我们为什么需要GSE
在回答这个问题之前,先让看看算力形态的变化。业界现在将算力分为通算、超算与智算,其中智算作为AI能力的主要载体,到2025年可能会占据新增算力的85%左右。也就是说智算将逐渐成为AI市场主流,作为智算的载体,智算中心的重要性就不言而喻了。
智算中心与传统数据中心存在很大不同,不仅体现在卡型、性能、功耗、算力密度等方面,主要由GPU服务器联网构成的智算中心需要完全不同的网络架构。当大模型训练时,并行计算节点越多,通信效率越重要,智算网络性能成为集群算力提升的关键。总结下来,智算中心网络要求很特殊,需要高带宽、零丢包、超低时延、高可用性,月级零故障。
简言之,我们需要新的网络架构。客观来看,英伟达主导的InfiniBand因其自身特性,是当前市场主流选择,但InfiniBand在产业开发性、部署成本方面非常不友好。还有很重要的一点,在云谲波诡的地缘政治环境下,产品与解决方案的可持续获得性也是个问题。
InfiniBand不行,我们可以选另外一条技术演进路径,从底层革新传统以太网机制,同时又最大限度的利用以太网产业的开放性和成熟性。乱拳打死老师傅,这的确是个好主意!
从以太网这条技术路径来看,主要有两个流派。一种是采用大量的私有协议,自己做深度优化,性能的确是很强,国内有些云服务商走的是这条路;一种是用开源社区思路,“众人拾柴火焰高”,比如国内主导的GSE,是美国主导的UEC,都是这个思路。
但需要强调的是,UEC和GSE的先后关系。很多人先入为主的认为,我国在智算领域落后于美国,GSE是在拾UEC牙慧!但事实刚好与之相反。在2023年5月份,中国移动联合10余家中国企业率先发布全调度以太网技术架构(GSE)白皮书,这标志着GSE技术的确立。几个月之后,包括英特尔、AMD、HPE、Arista、Broadcom、思科、Meta和微软等主导成立的超级以太网联盟(UEC)才成立。
GSE能够给行业带来什么?我觉得最重要的有两点:
第一,给了智算中心服务器互联更多选择。在云谲波诡的地缘政治环境下,可选择性、可获取性比性能、成本本身更为重要。况且,GSE也在快速的走向成熟,形成标准开放的技术体系!
第二,给了中国AI产业路径更多选择。在先进算力芯片受限的前提下,我们只能通过别的方式来弥补,“以网强算”是个必然路径。但网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”。我们单纯的从这个公式来看:集群有效算力={GPU单卡算力*总卡数*线性加速比*有效运行时],前面这几个变量我们都受限,更需要做好GSE这篇文章。
GSE应该怎么去落地?
首先,我们要有自信。AI特别是AGI就是未来的方向,在这点上,是没有任何疑问的。在AGI落地的技术路径上,“以网强算”是个必然选择。
我们有全球最好的网络基础设施,有全球最好的移动通信网络基础设施,有全球技术最为领先的400G光传送网。当然,我们也完全可以有最优的智算中心网络,或者智算中心机间互联技术生态。在挑战或者取代IB的这条道路上,UEC可以做到的,GSE为什么不能做到呢?
其次,产业链形成合力。孙凝晖院士说的好,国内智能计算生态孱弱,更为严重的是国内企业之间山头林立,其实在机间互联技术选择上也一样。比如在今年的云网智联大会上,就有类似的声音出来,认为GSE是中国移动主导的,是个个体行为,UEC才是主流。
从全球来看,特别是从用户的CAPEX来看,UEC的确是远远超过GSE;但国内企业在UEC中到底有没有,有多少话语权,这都是疑问。对于GSE而言,的确是中国移动倡导成立的,但GSE发展离不开开放性,GSE推进计划现在已经有40多家成员,既要最大限度兼容以太网生态,更要最大限度包容产业生态。
还是要小步快跑。智算中心的发展和演进,和传统的CT行业是不同的,标准是个很有意思的问题,是在发展中不断地凝聚共识、优化技术路径;小步快跑才能形成可持续的社区繁荣生态。从GSE的发展历程来看,也的确在朝着这个方向前行。特别是在上个月,《新型智算中心以太网物理层安全(PHYSec)架构白皮书》的发布,说明了GSE产业链的努力。
最后,当然也是最重要的,要用“诚意”和“信心”去培育、催熟产业链。所以,在今年的中国移动算力网络大会上,当高总宣布要开展GSE“中试”时,产业链还是很受鼓舞的。可能有些读者对于“中试”不是很清楚,翻译过来的意思就是“现网试商用”!这也凸显了中国移动在推动民族智算和AI产业发展中的央企担当。当然,我们也相信中国移动具备这样的能力,无论是从传送网100G到400G的跃迁,还是从移动网从3G到5G的嬗变,或亦是承载网从PTN到SPN的沿革,中国移动都已经证明了自己。GSE,我们相信同样如此!C114通信网 岳明
大模型需要大算力,大算力需要大集群,大集群需要大网络!
业界对此没有疑问,但选择什么样的机间互联技术,却有着不同的技术实现路径。
是先入为主的InfiniBand,还是当前呼声很高的UEC;其实,我们有更多的选择。在近日举行的“中国移动算力网络大会”上,中国移动副总经理高同庆宣布,对标国际主流的IB和UEC方案,形成中国自主的技术体系--全调度以太网(GSE),今年将开展GSE中试,加速GSE关键技术和产业成熟,为标准开放的新型智算互联贡献中国方案。
有了IB和UEC,我们为什么还需要GSE?GSE将会给产业界带来价值?从理念到技术再到产品和应用的落地,GSE还需要迈过哪些门槛?
我们为什么需要GSE
在回答这个问题之前,先让看看算力形态的变化。业界现在将算力分为通算、超算与智算,其中智算作为AI能力的主要载体,到2025年可能会占据新增算力的85%左右。也就是说智算将逐渐成为AI市场主流,作为智算的载体,智算中心的重要性就不言而喻了。
智算中心与传统数据中心存在很大不同,不仅体现在卡型、性能、功耗、算力密度等方面,主要由GPU服务器联网构成的智算中心需要完全不同的网络架构。当大模型训练时,并行计算节点越多,通信效率越重要,智算网络性能成为集群算力提升的关键。总结下来,智算中心网络要求很特殊,需要高带宽、零丢包、超低时延、高可用性,月级零故障。
简言之,我们需要新的网络架构。客观来看,英伟达主导的InfiniBand因其自身特性,是当前市场主流选择,但InfiniBand在产业开发性、部署成本方面非常不友好。还有很重要的一点,在云谲波诡的地缘政治环境下,产品与解决方案的可持续获得性也是个问题。
InfiniBand不行,我们可以选另外一条技术演进路径,从底层革新传统以太网机制,同时又最大限度的利用以太网产业的开放性和成熟性。乱拳打死老师傅,这的确是个好主意!
从以太网这条技术路径来看,主要有两个流派。一种是采用大量的私有协议,自己做深度优化,性能的确是很强,国内有些云服务商走的是这条路;一种是用开源社区思路,“众人拾柴火焰高”,比如国内主导的GSE,是美国主导的UEC,都是这个思路。
但需要强调的是,UEC和GSE的先后关系。很多人先入为主的认为,我国在智算领域落后于美国,GSE是在拾UEC牙慧!但事实刚好与之相反。在2023年5月份,中国移动联合10余家中国企业率先发布全调度以太网技术架构(GSE)白皮书,这标志着GSE技术的确立。几个月之后,包括英特尔、AMD、HPE、Arista、Broadcom、思科、Meta和微软等主导成立的超级以太网联盟(UEC)才成立。
GSE能够给行业带来什么?我觉得最重要的有两点:
第一,给了智算中心服务器互联更多选择。在云谲波诡的地缘政治环境下,可选择性、可获取性比性能、成本本身更为重要。况且,GSE也在快速的走向成熟,形成标准开放的技术体系!
第二,给了中国AI产业路径更多选择。在先进算力芯片受限的前提下,我们只能通过别的方式来弥补,“以网强算”是个必然路径。但网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”。我们单纯的从这个公式来看:集群有效算力={GPU单卡算力*总卡数*线性加速比*有效运行时],前面这几个变量我们都受限,更需要做好GSE这篇文章。
GSE应该怎么去落地?
首先,我们要有自信。AI特别是AGI就是未来的方向,在这点上,是没有任何疑问的。在AGI落地的技术路径上,“以网强算”是个必然选择。
我们有全球最好的网络基础设施,有全球最好的移动通信网络基础设施,有全球技术最为领先的400G光传送网。当然,我们也完全可以有最优的智算中心网络,或者智算中心机间互联技术生态。在挑战或者取代IB的这条道路上,UEC可以做到的,GSE为什么不能做到呢?
其次,产业链形成合力。孙凝晖院士说的好,国内智能计算生态孱弱,更为严重的是国内企业之间山头林立,其实在机间互联技术选择上也一样。比如在今年的云网智联大会上,就有类似的声音出来,认为GSE是中国移动主导的,是个个体行为,UEC才是主流。
从全球来看,特别是从用户的CAPEX来看,UEC的确是远远超过GSE;但国内企业在UEC中到底有没有,有多少话语权,这都是疑问。对于GSE而言,的确是中国移动倡导成立的,但GSE发展离不开开放性,GSE推进计划现在已经有40多家成员,既要最大限度兼容以太网生态,更要最大限度包容产业生态。
还是要小步快跑。智算中心的发展和演进,和传统的CT行业是不同的,标准是个很有意思的问题,是在发展中不断地凝聚共识、优化技术路径;小步快跑才能形成可持续的社区繁荣生态。从GSE的发展历程来看,也的确在朝着这个方向前行。特别是在上个月,《新型智算中心以太网物理层安全(PHYSec)架构白皮书》的发布,说明了GSE产业链的努力。
最后,当然也是最重要的,要用“诚意”和“信心”去培育、催熟产业链。所以,在今年的中国移动算力网络大会上,当高总宣布要开展GSE“中试”时,产业链还是很受鼓舞的。可能有些读者对于“中试”不是很清楚,翻译过来的意思就是“现网试商用”!这也凸显了中国移动在推动民族智算和AI产业发展中的央企担当。当然,我们也相信中国移动具备这样的能力,无论是从传送网100G到400G的跃迁,还是从移动网从3G到5G的嬗变,或亦是承载网从PTN到SPN的沿革,中国移动都已经证明了自己。GSE,我们相信同样如此!C114通信网 岳明
长话短说:我是女同。。。bookmark那篇梦女是因为我当时在写人类学学科下的杏行为和杏取向研究的研究论文,主题是大陆同人女的团结和冲突。为了这篇论文,我阅读了很多很多不同类别的同人文来收集田野调查数据,包括梦女。在这篇微博里图里附上了当时的问卷问题(隐去了具体数据)、论文第一页和这篇论文的评语和分数(因为涉及到了很多已经无法联系的受访人,所以这篇论文不能完全放出给大家看)
我写这个课题,是因为我是一个切身在同人文化中找到了归属的杏少数,我在同人文化中得到了温暖和社群力量,我爱同人女社群和同人女的友友们,所以我不仅在其中创作,还为了我们写了这篇论文,记录和留存我们经历的一切。不知道有些背后嘴人泼脏水天天就知道吵架的人,你从同人文化里得到了什么呢?
当时收集数据,阅读的有梦女文,有互攻文,all文,泥塑文,三角文,有车没车,有批没批,异杏恋写的同杏恋写的,只要是同人女写的我都读了一些,包括肖战的那篇下坠,我为了写明白227事件读得滚瓜烂熟都快会背了。。。读到感觉作者写得很认真的就会点喜欢,读到可能对我研究社群比较有用的就书签。当时还请了很多不同属性和性取向的洁癖杂食梦女的大家帮我写调查问卷被接受采访,关注我久一点的人应该都记得这个事情。。。。。
最后汇报一下,论文成绩是24.5/25分,课程整体成绩是97/100分。。。
我写这个课题,是因为我是一个切身在同人文化中找到了归属的杏少数,我在同人文化中得到了温暖和社群力量,我爱同人女社群和同人女的友友们,所以我不仅在其中创作,还为了我们写了这篇论文,记录和留存我们经历的一切。不知道有些背后嘴人泼脏水天天就知道吵架的人,你从同人文化里得到了什么呢?
当时收集数据,阅读的有梦女文,有互攻文,all文,泥塑文,三角文,有车没车,有批没批,异杏恋写的同杏恋写的,只要是同人女写的我都读了一些,包括肖战的那篇下坠,我为了写明白227事件读得滚瓜烂熟都快会背了。。。读到感觉作者写得很认真的就会点喜欢,读到可能对我研究社群比较有用的就书签。当时还请了很多不同属性和性取向的洁癖杂食梦女的大家帮我写调查问卷被接受采访,关注我久一点的人应该都记得这个事情。。。。。
最后汇报一下,论文成绩是24.5/25分,课程整体成绩是97/100分。。。
稼轩词趣426——一鱼两吃
江神子/江城子别吴子似,末章寄潘德久
看君人物汉西都。过吾庐。笑谈初。便说公卿,元自要通儒。一自梅花开了後,长怕说,赋归欤。而今别恨满江湖。怎消除。算何如。杖屦当时,闻早放教疏。今代故交新贵後,浑不寄,数行书。
稼轩此篇,可谓一鱼两吃,一首词送了两个人。潘某何人,不详。似可理解为吴某故交,潘某新贵。
上片,言吴某为主,夸其才华卓著“通儒”是也,名满西都。
下片,言潘某新交,书信往来较少,还要多多指教。#随笔[超话]##诗词[超话]##睡前读书[超话]##读书[超话]##大家读书吧[超话]##读书超话社区[超话]# https://t.cn/z8UPKAD
江神子/江城子别吴子似,末章寄潘德久
看君人物汉西都。过吾庐。笑谈初。便说公卿,元自要通儒。一自梅花开了後,长怕说,赋归欤。而今别恨满江湖。怎消除。算何如。杖屦当时,闻早放教疏。今代故交新贵後,浑不寄,数行书。
稼轩此篇,可谓一鱼两吃,一首词送了两个人。潘某何人,不详。似可理解为吴某故交,潘某新贵。
上片,言吴某为主,夸其才华卓著“通儒”是也,名满西都。
下片,言潘某新交,书信往来较少,还要多多指教。#随笔[超话]##诗词[超话]##睡前读书[超话]##读书[超话]##大家读书吧[超话]##读书超话社区[超话]# https://t.cn/z8UPKAD
✋热门推荐