机器之心发布
机器之心编辑部
字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel,比 Megatron 和 DeepSpeed 更快
背景

近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆炸式增长。而大模型训练给现有的训练系统带来的主要挑战为显存压力,计算压力和通信压力。


火山引擎大模型训练框架 veGiantModel

针对这个需求,字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。其特点包括:

  • 同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略,同时支持自动化和定制化的并行策略;

  • 基于 ByteCCL 高性能异步通讯库,训练任务吞吐相比其他开源框架有 1.2x-3.5x 的提升;

  • 提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;

  • 可在 GPU上高效地支持数十亿至上千亿参数量的大模型;

  • 对带宽要求低,在私有化部署无 RDMA 强依赖。


其中,ByteCCL 为字节跳动自研的 BytePS 的升级版,针对 A100/V100 等各种机型拓扑做了分层规约优化,并支持了 allgather、alltoall 等更全面的通讯原语。

veGiantModel 性能表现

硬件配置

为了展示 VeGiantModel 的性能,veGiantModel 团队使用了自建机房的物理机,分别在 A100 和 V100 机型上做了测试,实验配置分别如下:

  • V100 测试:每个机器 8 张 Tesla V100 32G 型号 GPU,网络带宽 100G
  • A100 测试:每个机器 8 张 Ampere A100 40G 型号 GPU,网络带宽 800G
模型和对照组选择

veGiantModel 选择了 GPT-13B 模型进行评估,seq length 是 256, global batch size 是 1536。GPT 为目前市面上最为流行的 transformer based 语言模型。性能对照组选择了开源社区最流行的 Megatron 和 DeepSpeed。

测试结果

  • 模型:GPT-13B
  • Megatron:v2.4,tensor-model-parallel-size 设置为 4, pipeline-model-parallel-size 设置为 4
  • DeepSpeed:v0.4.2,使用 DeepSpeedExamples 开源社区中默认的 zero3 的配置
  • 运行环境
    • V100/TCP :100Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla V100 32G  GPU
    • V100/RDMA:100Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla V100 32G  GPU
    • A100/TCP:800Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla A100 40G  GPU
    • A100/RDMA:800Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla A100 40G  GPU
  • 统计值:Throughtput (samples/s)



从上述数据可以看出:

  1. veGiantModel 性能更优:无论是在高带宽还是低带宽的场下,veGiantModel 在 V100 和 A100 上均胜出 Megatron 和 DeepSpeed,最高可达 6.9 倍提升。
  2. veGiantModel 对网络带宽要求低:veGiantModel 在带宽变化对吞吐的影响相对最小 (<10%),而 DeepSpeed(ZeRO) 是对带宽要求最高的,最高可达将近 5 倍的差距。

原因解析

veGiantModel 为什么比 Megatron 和 DeepSpeed 更快?原因如下:

  • ByteCCL (BytePS) 高性能异步通讯库。
  • 支持定制化的并行策略,可以将性能优化推到极致。
  • 在支持数据并行、算子切分、流水线并行 3 种分布式并行策略时,veGiantModel 会综合考虑到跨机的带宽,自动调整 toplogy 的 placement。

传送门

veGiantModel 现已在 GitHub 上开源,地址如下:



© THE END 

转载请联系本公众号获得授权


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 通信5G、以中兴、华为产业链,电器设备尤其是电机行业这一块那边国对我国的依赖,家电海外市场的收入比要高,那边国服软对以上这几条线逻辑层面是利好,毕竟这一块的企业
  • 但是神仙太太就这样全部都送给我了( ˃̣̣̥o˂̣̣̥ ) 别人求都求不到的就这样送我了呜呜呜我太快乐了。遇见你是我最大的幸运, 感恩最美的遇见, 让我可以如此
  • 所以,如果想成为男人的长期选择对象,在日常生活你就一定要有自己的矜持,不能够太过于随便。所以男人即使和这样的女人恋爱,也不会为她投入过多的感情。
  • 伊利诺大学总校长麒麟恩 (Tim Killeen)表示州内所有州立大学今年注册的学生人数达到9万343名,创下连续第八年的新纪录,不过,大学部学生减少了177人
  • 很多人都误以为这样的盛况独属于南方,却不曾想它位于西安,成千上万名游客慕名而至,如痴如醉】[带着微博去旅行] @滚地豆豆 【 广东梅州千佛塔寺,云雾缭绕】[带着
  • 但是,人无远虑、必有近忧,从全球能源安全和低碳环保发展的角度,即使石油可采储量不断增加,我们同样要考虑在石油开采达到某个「枯竭点」之前,有什么新能源可以替代石油
  • lucky穿白裙长高不少,当姐姐好兴奋戚薇的婚姻生活非常地幸福,自从跟老公与陈炫结婚之后,两个人就一直非常地恩爱,很少有绯闻传出,生的女儿lucky更是机灵可爱
  • 独怪俨然而人也者,以十年把臂之交,数世蒙恩之主,转思下井复投石焉;又不然则药石相投,悍然不顾,且怒而仇焉者,不且出斯蛇下哉。又以首触笥,蛇人悟其意,开笥出小青。
  • 等你来解锁~【国内官方销售渠道】1.第五人格天猫旗舰店:2.游戏内玩偶之家3.京东游戏印象旗舰店:4.天猫游戏印象旗舰店:5.网易游戏周边商城:单单有奖:【可签
  • 6、 其实以前你不懂得相守与相随,直到跟你渡过伤感的世纪,失望与泪水,见尽了,云涌风起,还怎让我么舍得不放下你!7、 山下花闹枝欢,青葱映眼,淫雨织帘。#酸菜肥
  • #省考申论#[愉快]忍不住要晒一波烨宝宝们的打卡ԅ(¯ㅂ¯ԅ)​[让我看看][让我看看]加油吧孩子们,“岸”就在你看得见的前方,努力向前走吧,负重而行你才能体会
  • #追风行者自驾民俗非遗一日游# 追风行者自驾章丘文旅小镇一日游,来到非物质文化遗产,龙山文化章丘黑陶博物馆[耶][耶],由传承人张老师亲自[得意][得意][得意
  • 百無一用是深情。對陷在悲傷的人不要說無用的廢話。聽她說就行。18歲初戀,19歲結婚,20歲成了寡婦生下遺腹子。人生剛開始卻經歷了一生。 ————————————
  • ...【南阳唯爱国际婚纱影城】 2017国粹年~顾客美图榜婚纱市 集 鸭河小三亚主题风格客片欣赏摄影 啊苏老师 欧阳老师 [奋斗][奋斗][奋斗][奋斗
  • 04奕欢,爸爸的爱是群星,永不会被扑灭,除非你闭上眼,不愿再见。”看着这个对之前发生的事情没有丝毫记忆的男人,江无岐只好把事情重复了一遍告诉他,却被告知出门右拐
  • 我写爱惨了你,本质上是爱你给我的欢愉、柔软、沉沦和想象的欲望,一旦你不符合我的标准,我便毫不犹豫地丢下你的画像,决绝地别过头去,不再给你一点把柄。在这之前总归你
  • 不想撞南墙了 想撞进先生的胸膛 有的人好到什么程度呢 我愿意永远做他满天星辰中微不足道的那一颗 从前的日色变得慢 车 马 邮件都慢 一生只够爱一个人 你的目光
  • 五是在每个考点安排2部警用大功率摩托车,高架路大队每日安排2组快骑警力,配备备用头盔,作为机动力量,在重点考点、路段加强巡防管控,遇有考生求助等紧急情况时,积极
  • #孔令辉[超话]# 晒个拍子,孔令辉悉尼奥运会夺冠用拍同款,AN柄孔纯木。AN柄为葫芦型柄,是欧洲运动员常用的柄型,国内横拍选手使用的多为FL柄(收腰型)另外还
  • 4/Castilla y Leon的丹魄,已经开始蹦迪了忘记了酒的notes… 5/十年茶色波特,Met : 溶心巧克力蛋糕(fondant moelleux)