设计、建造RSC这类项目,并不只消考虑性能参数,而是要用当今最好的方案在尽可能大的范围内实现这些性能。
与外界伙伴协作
所有这些基础设施必须非常可靠耐用,因为Meta公司估计有些实验可以运行数周,并需要成千上万的GPU。而且使用RSC的整个体验必须对研究人员友好,以便研究团队可以轻松地探索广泛的人工智能模型。
这一目标实现的很大一部分,是Meta与长期合作伙伴的协力结果,他们也都在2017年帮助设计了Meta的第一代AI基础设施。
SGH旗下的企鹅计算公司是Meta的架构和管理服务合作伙伴,它与Meta的运营团队合作,进行硬件集成以部署集群,并帮助建立控制平面的主要部分。
Pure Storage为Meta提供了强大的、可扩展的存储解决方案。
英伟达为Meta提供了以尖端系统、GPU和InfiniBand结构为特色的AI计算技术,以及用于集群的NCCL等软件栈组件。
但在RSC的发展过程中还出现了其他意想不到的挑战--即新冠大流行。
新冠让RSC初始时成为完全的远程项目,项目团队得用大约一年半的时间里将其从一个简单的共享文件变成了一个正常运作的工作集群。
新冠和全行业的晶圆供应短缺还带来了供应链问题,使得从芯片、光学组件到GPU,甚至建材都难以获得--所有这些都必须按照新的安全规程进行运输。
为了有效地建立这个集群,Meta的项目团队不得不从头开始设计,创造了许多全新的Meta独有流程,并在此过程中重新思考以前的先例。
比如Meta必须围绕其数据中心设计编写新的规则--包括其冷却、电源、机架布局、布线和网络(包括一个全新的控制界面),以及其他重要的考量因素。
Meta必须确保公司内的所有团队,从建筑到硬件到软件和人工智能,都与合作伙伴步调一致地工作。
为超算开发的AIRStore
除了核心系统本身,AI超级计算机还需要一个强大的存储解决方案:一个能够从一个超字节规模的存储系统提供TB级带宽的解决方案。
为了满足人工智能训练日益增长的带宽和容量需求,Meta从头开始开发了一个存储服务--人工智能研究商店(AIRStore)。
为了优化人工智能模型,AIRStore采用了一个新的数据准备阶段,对用于训练的数据集进行预处理。一旦准备工作完成,准备好的数据集可用于多次训练,直至过期。
AIRStore还优化了数据传输,使Meta数据中心间主干网的跨区域流量降至最低。
几十年来高性能计算一直都在解决规模上的问题,然而安全和隐私的控制也尤为重要。
为了满足隐私和安全要求,数据从存储系统到GPU的整个链路都是端到端加密的,直到训练前才会被解密。而且在导入RSC之前,数据都必须经过隐私审查程序,以保证被正确地匿名化。
此外,RSC与互联网也是隔离,没有直接的入站或出站连接,流量只能来自Meta的生产数据中心。
Meta的RSC可以说是第一次在这样的规模下去解决性能、可靠性、安全性和隐私问题。
最后,一旦完全启用,Meta的RSC超级电脑将是英伟达DGX A100系统的最大规模客制化安装项目。
新智元 新智元
与外界伙伴协作
所有这些基础设施必须非常可靠耐用,因为Meta公司估计有些实验可以运行数周,并需要成千上万的GPU。而且使用RSC的整个体验必须对研究人员友好,以便研究团队可以轻松地探索广泛的人工智能模型。
这一目标实现的很大一部分,是Meta与长期合作伙伴的协力结果,他们也都在2017年帮助设计了Meta的第一代AI基础设施。
SGH旗下的企鹅计算公司是Meta的架构和管理服务合作伙伴,它与Meta的运营团队合作,进行硬件集成以部署集群,并帮助建立控制平面的主要部分。
Pure Storage为Meta提供了强大的、可扩展的存储解决方案。
英伟达为Meta提供了以尖端系统、GPU和InfiniBand结构为特色的AI计算技术,以及用于集群的NCCL等软件栈组件。
但在RSC的发展过程中还出现了其他意想不到的挑战--即新冠大流行。
新冠让RSC初始时成为完全的远程项目,项目团队得用大约一年半的时间里将其从一个简单的共享文件变成了一个正常运作的工作集群。
新冠和全行业的晶圆供应短缺还带来了供应链问题,使得从芯片、光学组件到GPU,甚至建材都难以获得--所有这些都必须按照新的安全规程进行运输。
为了有效地建立这个集群,Meta的项目团队不得不从头开始设计,创造了许多全新的Meta独有流程,并在此过程中重新思考以前的先例。
比如Meta必须围绕其数据中心设计编写新的规则--包括其冷却、电源、机架布局、布线和网络(包括一个全新的控制界面),以及其他重要的考量因素。
Meta必须确保公司内的所有团队,从建筑到硬件到软件和人工智能,都与合作伙伴步调一致地工作。
为超算开发的AIRStore
除了核心系统本身,AI超级计算机还需要一个强大的存储解决方案:一个能够从一个超字节规模的存储系统提供TB级带宽的解决方案。
为了满足人工智能训练日益增长的带宽和容量需求,Meta从头开始开发了一个存储服务--人工智能研究商店(AIRStore)。
为了优化人工智能模型,AIRStore采用了一个新的数据准备阶段,对用于训练的数据集进行预处理。一旦准备工作完成,准备好的数据集可用于多次训练,直至过期。
AIRStore还优化了数据传输,使Meta数据中心间主干网的跨区域流量降至最低。
几十年来高性能计算一直都在解决规模上的问题,然而安全和隐私的控制也尤为重要。
为了满足隐私和安全要求,数据从存储系统到GPU的整个链路都是端到端加密的,直到训练前才会被解密。而且在导入RSC之前,数据都必须经过隐私审查程序,以保证被正确地匿名化。
此外,RSC与互联网也是隔离,没有直接的入站或出站连接,流量只能来自Meta的生产数据中心。
Meta的RSC可以说是第一次在这样的规模下去解决性能、可靠性、安全性和隐私问题。
最后,一旦完全启用,Meta的RSC超级电脑将是英伟达DGX A100系统的最大规模客制化安装项目。
新智元 新智元
早上起晚了xxy等了我一个半小时 眼角点了颗痣问他有没有看出来 他说没有 我骂了他一顿被我老妈听到 老妈把我臭骂一顿
sgh真是 一己之力拉低所有人智商[鲜花]
穿了条新裙子去zk家准备用落日灯拍照 结果玩忘了时间大马路上随便整点
他家猫雀氏漂亮 希望老板以后赚钱养我们
分享一些vx发不出来的绝美live
希望开学后能去东北玩 毕业前能去川渝顺便坐车去新疆旅行 (海南随便[鲜花]zk没空陪我们)
sgh真是 一己之力拉低所有人智商[鲜花]
穿了条新裙子去zk家准备用落日灯拍照 结果玩忘了时间大马路上随便整点
他家猫雀氏漂亮 希望老板以后赚钱养我们
分享一些vx发不出来的绝美live
希望开学后能去东北玩 毕业前能去川渝顺便坐车去新疆旅行 (海南随便[鲜花]zk没空陪我们)
20年来用过的手机:
1:松下G450 2:摩托T189 3:诺基亚8250
4:康佳R6188 5:中兴V662 6:三星SGH-X488
7:摩托 v3i 8:CECT-P3711 9:三星SGH-C178 10:黑莓7290 11:诺基亚6300 12:诺基亚5800 13:HTC desire z 14:iphone4 15:三星Note2 16:vivox3l,17:iphone6,18:三星s7
19:华为nova,20:xplay6,21:三星s9,
22:三星note9,23:三星s10,24:mate30pro,
25:三星z flip,26:x50ro+
27:mate40rs 28:find n(已定)
好像有点多[嘻嘻]
1:松下G450 2:摩托T189 3:诺基亚8250
4:康佳R6188 5:中兴V662 6:三星SGH-X488
7:摩托 v3i 8:CECT-P3711 9:三星SGH-C178 10:黑莓7290 11:诺基亚6300 12:诺基亚5800 13:HTC desire z 14:iphone4 15:三星Note2 16:vivox3l,17:iphone6,18:三星s7
19:华为nova,20:xplay6,21:三星s9,
22:三星note9,23:三星s10,24:mate30pro,
25:三星z flip,26:x50ro+
27:mate40rs 28:find n(已定)
好像有点多[嘻嘻]
✋热门推荐