1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量

(1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会根据具体数据格式对应的 InputFormat 进行解析,一般是将若干个Block合并成一个输入分片,称为 InputSplit,其中要注意InputSplit不能跨越文件 File。

(2)spark 会为这些分片生成具体的 task,InputSplit 与 Task 是一 一对应的关系,随后这些具体的 Task 每个都会被分配到集群上的某个节点的某个 Executor 去执行,每个 task 执行的结果就生成了RDD的一个 partiton。

每个 worker 节点可以起一个或多个 Executor。
每个 Executor 由若干 core 组成,每个 Executor 的每个 core 一次只能执行一个 Task。
每个 Task 执行的结果就是生成了目标 RDD 的一个 partiton。
注意: 这里的 core 是虚拟的 core 而不是机器的物理 CPU 核,可以理解为就是 Executor 的一个工作线程。

Task被执行的并发度 = Executor数目 * 每个Executor核数(=core总个数)

2、RDD 中 partition 的数目:
  对于数据读入阶段,例如 sc.textFile,输入文件被划分为多少 InputSplit 就会需要多少初始 Task。

  在 Map 阶段 partition 数目保持不变。

  在 Reduce 阶段,RDD 的聚合会触发 shuffle 操作,聚合后的 RDD 的 partition 数目跟具体操作有关,例如 repartition 操作会聚合成指定分区数,还有一些算子是可配置的。

  RDD 在计算的时候,每个分区都会起一个 task,所以 rdd 的分区数目决定了总的 task 数目。

  申请的计算节点(Executor)数目和每个计算节点核数,决定了你同一时刻可以并行执行的 task。

例如:

  RDD有100个分区,那么计算的时候就会生成100个task,你的资源配置为10个计算节点,每个2个核,同一时刻可以并行的task数目为20,计算这个RDD就需要5个轮次。

  如果计算资源不变,你有101个task的话,就需要6个轮次,在最后一轮中,只有一个task在执行,其余核都在空转。

  如果资源不变,你的RDD只有2个分区,那么同一时刻只有2个task运行,其余18个核空转,造成资源浪费。

#清检分享##大数据赋能新时代法律监督#【数字监督模型揪出“隐形网约房”】“隐形网约房”指那些已经取得营业执照,却未到公安机关办理登记手续接受公安机关监管的网约房,房源信息和入住人员信息都无法被监测,可能被不法分子利用,不利于预防、打击违法犯罪行为。怎样才能让“隐形网约房”显形?浙江省杭州市临平区检察院成立数字办案组,搭建了网约房业态治理检察监督模型,通过数据碰撞,排查出辖区内共有1000余家网约房,其中100余家是未办理行业纳管手续的“隐形网约房”。https://t.cn/A6SXDW41

【今日数据前瞻:EDG vs TES】

今天将决出LPL夏季赛决赛的最后一个名额,EDG也将再次面对前几天憾负的对手TES。两队的赛季整体数据非常接近,都是场均时长和血腥程度排名偏低,但前期数据非常强悍的队伍,因此本轮系列赛很可能会非常焦灼。除了下路的发挥将对比赛产生关键作用外,两队中路的博弈也格外重要,knight的场均参团率和分均伤害都处于领先,而老将Scout往往在越关键的比赛中越能展现出火热的状态,谁能带领队伍进入决赛,强强对决一触即发。

#EDG对战TES##2022LPL夏季赛季后赛#


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 我的手机是西门子的,那天我发现我妈妈拿出一只手机说是西门子,给我 买的,我就奇怪这么小气的我父母会买手机给我 。这个手机我妈说是她给我买的,但是实际上我妈在初中
  • 以为夏天都很萎靡却发现原来近几年六月都在出游19年的今天出发去多洛米蒂徒步这几年本来也不哀叹,因为并不觉得是疫情让生活走到这步,但翻社交网络让人意识到从私人史角
  • 在充电线面前,我的自由距离是以长度来衡量的成长是一个模仿和拒绝模仿的过程愿老去之后,嘴角有个上扬的青春#闺蜜##闺蜜头像##关注2021西安两会# #我和十四运
  • #索达吉堪布[超话]# 所谓的修行,噶当派大德说过,要像河流的相续一样从不间断,华智仁波切在《大圆满前行》中也说:“应当专注修法,活到老,修到老。”所以,从现在
  • #腾讯人工客服[超话]#我的qb今天被盗刷了,刷了200,我都不认识这个人,那个人在河北沧州登录,就像知道我有200qb一样,一上号就用了,我甚至不知道他怎么登
  • 6⃣和风化妆刷包-15.9元起,该链接每款下单减1元采用烫金帆布材质制作,这两年都很火的和风款,放在桌上就是满满的诗意,别家都要30元左右,厂家直销真的没有二家
  • 校长白刚勋介绍,青岛三十九中作为新课程实施国家级示范校,在课程开发、教师队伍建设及人才培养方式的探索,积累了丰富经验,取得了丰硕成果,尤其海洋教育和项目式教学享
  • #微博健康护肤月##护肤知识充电站##皮肤难题帮帮忙# 【全层抗衰攻略】抗衰老是我们为之奋斗的目标,但是衰老是从内到外的衰老,皮肤也是!终于实现素颜出门了555
  • 请全体市民务必于6月29日0时至6月30日12时完成一次核酸检测,如未在规定时间完成的,将对“门铃码”(场所码)赋红色警示,限制进入各类市场主体和公共场所,造成
  • 不忧过去,不惧来日,开心一刻,也是地久天长。不忧过去,不惧来日,开心一刻,也是地久天长。
  • 给小家伙洗净喂饱,现在是只干净柔软,健康活泼,不凶不闹不拆家,给撸给抱给亲亲,非常有猫德的模范小猫啦。和其他大猫都能相处的很好,爱玩逗猫棒,但对生人会比较警惕,
  • 3.红出圈的一个小花,她现在是完全不缺资源了,就连片酬也都跟着翻了几番,有之前跟她合作过的导演打感情牌,希望能给个友谊价再合作,结果小花的团队谈都没谈就拒绝了,
  • 两个男孩子给我送来了礼物,明明我只是中场过客没能带着他们战到最后,真是受之不武。一束糖果花,他被留下打扫卫生的,让我去拿:要一直开心。
  • 普通的啤酒,好比高温杀菌后,从超市买到的果汁。【温馨提示】收到后请立刻放入冷藏,冷藏后饮用口感更加,不得冷冻或加热。
  • 真正有所谓的大格局,大事件的时候,你的朋友都不用你问,会主动告诉你,也会袒露自己的想法给你听。可最不巧的是,女主角慕晓偏偏成为了他的同桌,每天和学校的人气男神近
  • 良心银行——不忘初心普惠金融榆林信合始终不忘初心、牢记使命,积极推行普惠金融,新增贷款加权平均利率从2018年的8.65%下降到2021年6.84%,通过主动减
  • 您可以选择在中国有合法资 质的澳洲房产中介公司,从咨询房屋、看房、成交、律师签约、贷款、交房、出租都是一站式服 务,更有一些本身就具有移民和留学资质,更加方便了
  • 2019.06.16~2022.06.16原来,你们已经重逢三年了#翔霖[超话]##阳光信用[超话]#0609[抱一抱]#每日一善# 知了越噪越显得宁静此生倒数
  • 环西第18赛段Jelle Wallays(比利时乐透)赢得了冲刺,之后他突击同伴Sven Erik Bystrom(阿联酋航空)第二,彼得·萨根(Bora-​​
  • 有空就去國外休息一下,由一個地方飛去一個地方,再飛去一個地方才回來工作,不要勉強自己[愛你][愛你]希望你無憂無慮地生活[米奇比心][米奇比心]話說五年了考慮一