大芯片面临的共同挑战(上)
原创 Chaobowx 软硬件融合
最近一直思考:何谓“大芯片”?大芯片的标准是什么?CPU、GPU、AI、DPU以及HPU等各种超大规模的大芯片,其底层逻辑到底是什么?
于是有了这篇文章的思考,抛砖引玉,与大家讨论。
1 什么是大芯片?
1.1 依据操作系统标准来划分
这样,我们对大芯片就可以有一个最直观的标准:
需要支持操作系统和虚拟化(虚拟化包括虚机、容器、函数等不同层次虚拟化);
需要支持虚拟化资源切分;
需要支持系统、资源和性能隔离;
需要支持软件跨硬件平台,包括硬件接口抽象和热迁移等。
大芯片,需要把很多传统软件层次的能力在硬件层次进行支持。如可编程性、扩展性、适应性、软件跨平台和高可用等。
1.2 各类引擎/处理器的作用
上图是在计算机(服务器)上运行的系统的功能层次划分,大体上分为两个层次:
支撑应用的基础设施层,比如网络、存储、虚拟化、文件系统、数据库等;
应用层。应用层也可以再划分。很多应用性能敏感,需要通过硬件加速。因此,可以把应用再划分为两部分:
应用可加速部分,相比基础设施,应用可加速部分的更新变化会更大,因此需要一些相对灵活弹性的加速平台,如GPU、FPGA等,而ASIC等则不是很合适。
应用不可加速部分,应用多种多样,应用本身还会经常性的优化更新,因此只适合CPU这样的足够通用灵活的运行平台。
CPU
如果整个系统对性能的要求不高,CPU可以胜任。那么最好的做法就是,不管是基础设施层还是应用层可加速部分和不可加速部分,统统都放在CPU中完成。
然而,由于基于CPU的摩尔定律失效,CPU逐渐无法胜任系统的所有计算任务,引发了连锁反应。所以才有了上面图中的三个分类,以及针对性的各种硬件加速平台。
不管如何优化改进,CPU作为最核心的处理引擎(可能是独立CPU芯片,也可能是嵌入式CPU Core),依然扮演着最核心的作用。
未来,CPU主要负责应用层不可加速部分的计算以及整个系统的控制和管理。虽然CPU最终不是计算的主力,但它依然是管理和控制的核心。
GPU
GPU比较适合应用层的弹性加速,一方面因为GPGPU的通用计算能力,在场景覆盖和性能提升方面很好的达到了平衡。再加上CUDA等开发框架/生态的加持,使得GPU成为应用层可加速部分当之无愧的主力运行平台。
DPU
DPU定位基础设施层的(加速)处理,如虚拟化、网络、存储、安全以及IaaS服务融入等。DPU需要很多ASIC/DSA层次的加速引擎,以及嵌入式CPU的协同,来更好的做好基础设施层的工作,以此来更好的支撑CPU和GPU的上层工作。
DPU可以说是整个系统中的“老黄牛”,做的是最辛苦最艰难的事情,但其价值体现却低于CPU和GPU。目前DPU面临的困境主要体现在:
做的事情非常复杂。受性能需求的约束,需要把业务逻辑变成电路,DPU的开发其难度和工作量(相比CPU和GPU)非常的高。
其价值又相对较低。DPU通常定位成CPU的助手,负责卸载CPU的一些繁重的相对价值含量低的工作。因此,其价值定位低于CPU和GPU。
被动协同。DPU需要协同CPU和GPU的工作,但这些协同通常是被动的。DPU具体落地需要CPU和GPU的“参与”,这使得DPU具有非常大的落地门槛。
客户需求差异性和业务迭代,需要DPU尽可能的贴近用户需求,把用户的深层次需求融入到芯片。但这样做,会导致场景碎片化,DPU能覆盖的场景偏小。而大芯片的研发成本又非常的高,场景覆盖不足以撑起一颗芯片的商业化落地。
AI芯片
AI芯片,也称为AI-DSA,和GPU处于同一位置,一般来说,在小小的服务器物理空间里,加速卡通常只有一种类型,也即AI和GPU是互斥的关系,大家共同竞争同一个物理卡槽。
CPU+xPU的异构计算通常分为三类:
CPU+GPU、CPU+FPGA和CPU+DSA。
如果对通用性要求高,对覆盖场景要求高,则通常选择GPU。比如AI训练场景,虽然GPU并不是效率最高的平台,但目前AI训练算法更新迭代很快,比较适合GPU这样的平台,而不是AI-DSA。
如果对性能要求高,并且算法相对确定,则比较适合DSA架构,比如一些编解码的VPU。以及AI推理场景。
FPGA则介于两者之间。
AI-DSA虽然用途很广,并且性能敏感,但云、边缘以及自动驾驶等超级终端场景,是更加综合性的场景,AI是计算加速的领域之一,因此,独立的AI芯片其落地规模必然是远少于GPU这种更加灵活弹性的计算平台的,也更少于CPU和DPU的落地场景规模。
HPU
HPU是超异构处理器(Hyper-heterogeneous Processing Unit),把CPU、GPU和DPU的功能再集成在一起,是一个功能综合的融合芯片:
Chiplet封装技术的成熟,使得多种架构混合的超异构计算成为可能,为超异构处理器HPU提供了很好的工艺和封装基础。
包括企业服务器、边缘服务器以及存储服务器等诸多场景,占到整个服务器规模的90%左右,这类服务器场景相对轻量的计算,集成的单芯片足够。
而云计算的业务服务器,是绝对重量的场景,需要CPU、GPU和DPU三类独立芯片组成大系统。这类场景只占服务器规模的10%左右。
超异构计算需要创新的架构:需要明确的是,HPU不能是简单的CPU、GPU和DPU三者集成,而是要重新优化整个系统的数据交互,让交互更加充分并且高效(更高的带宽,更低的延迟等)。
原创 Chaobowx 软硬件融合
最近一直思考:何谓“大芯片”?大芯片的标准是什么?CPU、GPU、AI、DPU以及HPU等各种超大规模的大芯片,其底层逻辑到底是什么?
于是有了这篇文章的思考,抛砖引玉,与大家讨论。
1 什么是大芯片?
1.1 依据操作系统标准来划分
这样,我们对大芯片就可以有一个最直观的标准:
需要支持操作系统和虚拟化(虚拟化包括虚机、容器、函数等不同层次虚拟化);
需要支持虚拟化资源切分;
需要支持系统、资源和性能隔离;
需要支持软件跨硬件平台,包括硬件接口抽象和热迁移等。
大芯片,需要把很多传统软件层次的能力在硬件层次进行支持。如可编程性、扩展性、适应性、软件跨平台和高可用等。
1.2 各类引擎/处理器的作用
上图是在计算机(服务器)上运行的系统的功能层次划分,大体上分为两个层次:
支撑应用的基础设施层,比如网络、存储、虚拟化、文件系统、数据库等;
应用层。应用层也可以再划分。很多应用性能敏感,需要通过硬件加速。因此,可以把应用再划分为两部分:
应用可加速部分,相比基础设施,应用可加速部分的更新变化会更大,因此需要一些相对灵活弹性的加速平台,如GPU、FPGA等,而ASIC等则不是很合适。
应用不可加速部分,应用多种多样,应用本身还会经常性的优化更新,因此只适合CPU这样的足够通用灵活的运行平台。
CPU
如果整个系统对性能的要求不高,CPU可以胜任。那么最好的做法就是,不管是基础设施层还是应用层可加速部分和不可加速部分,统统都放在CPU中完成。
然而,由于基于CPU的摩尔定律失效,CPU逐渐无法胜任系统的所有计算任务,引发了连锁反应。所以才有了上面图中的三个分类,以及针对性的各种硬件加速平台。
不管如何优化改进,CPU作为最核心的处理引擎(可能是独立CPU芯片,也可能是嵌入式CPU Core),依然扮演着最核心的作用。
未来,CPU主要负责应用层不可加速部分的计算以及整个系统的控制和管理。虽然CPU最终不是计算的主力,但它依然是管理和控制的核心。
GPU
GPU比较适合应用层的弹性加速,一方面因为GPGPU的通用计算能力,在场景覆盖和性能提升方面很好的达到了平衡。再加上CUDA等开发框架/生态的加持,使得GPU成为应用层可加速部分当之无愧的主力运行平台。
DPU
DPU定位基础设施层的(加速)处理,如虚拟化、网络、存储、安全以及IaaS服务融入等。DPU需要很多ASIC/DSA层次的加速引擎,以及嵌入式CPU的协同,来更好的做好基础设施层的工作,以此来更好的支撑CPU和GPU的上层工作。
DPU可以说是整个系统中的“老黄牛”,做的是最辛苦最艰难的事情,但其价值体现却低于CPU和GPU。目前DPU面临的困境主要体现在:
做的事情非常复杂。受性能需求的约束,需要把业务逻辑变成电路,DPU的开发其难度和工作量(相比CPU和GPU)非常的高。
其价值又相对较低。DPU通常定位成CPU的助手,负责卸载CPU的一些繁重的相对价值含量低的工作。因此,其价值定位低于CPU和GPU。
被动协同。DPU需要协同CPU和GPU的工作,但这些协同通常是被动的。DPU具体落地需要CPU和GPU的“参与”,这使得DPU具有非常大的落地门槛。
客户需求差异性和业务迭代,需要DPU尽可能的贴近用户需求,把用户的深层次需求融入到芯片。但这样做,会导致场景碎片化,DPU能覆盖的场景偏小。而大芯片的研发成本又非常的高,场景覆盖不足以撑起一颗芯片的商业化落地。
AI芯片
AI芯片,也称为AI-DSA,和GPU处于同一位置,一般来说,在小小的服务器物理空间里,加速卡通常只有一种类型,也即AI和GPU是互斥的关系,大家共同竞争同一个物理卡槽。
CPU+xPU的异构计算通常分为三类:
CPU+GPU、CPU+FPGA和CPU+DSA。
如果对通用性要求高,对覆盖场景要求高,则通常选择GPU。比如AI训练场景,虽然GPU并不是效率最高的平台,但目前AI训练算法更新迭代很快,比较适合GPU这样的平台,而不是AI-DSA。
如果对性能要求高,并且算法相对确定,则比较适合DSA架构,比如一些编解码的VPU。以及AI推理场景。
FPGA则介于两者之间。
AI-DSA虽然用途很广,并且性能敏感,但云、边缘以及自动驾驶等超级终端场景,是更加综合性的场景,AI是计算加速的领域之一,因此,独立的AI芯片其落地规模必然是远少于GPU这种更加灵活弹性的计算平台的,也更少于CPU和DPU的落地场景规模。
HPU
HPU是超异构处理器(Hyper-heterogeneous Processing Unit),把CPU、GPU和DPU的功能再集成在一起,是一个功能综合的融合芯片:
Chiplet封装技术的成熟,使得多种架构混合的超异构计算成为可能,为超异构处理器HPU提供了很好的工艺和封装基础。
包括企业服务器、边缘服务器以及存储服务器等诸多场景,占到整个服务器规模的90%左右,这类服务器场景相对轻量的计算,集成的单芯片足够。
而云计算的业务服务器,是绝对重量的场景,需要CPU、GPU和DPU三类独立芯片组成大系统。这类场景只占服务器规模的10%左右。
超异构计算需要创新的架构:需要明确的是,HPU不能是简单的CPU、GPU和DPU三者集成,而是要重新优化整个系统的数据交互,让交互更加充分并且高效(更高的带宽,更低的延迟等)。
2238
【投稿】因为昨天这个场景太有感觉,我来造谣昨天直播选妃果part
宫锁/心玉,假设是现世出事故了晚才能穿过来,那回去的时候也是在女儿国里遇险,而乃/琳用尽一切办法,都没办法再让心上人再次睁开眼睛
少女刚出现在女儿国的时候,是那样的可爱活泼,如今自己却只能流着泪贴上她渐渐失温的唇
“你不是说你们那个世界这样做了,就能醒来吗…”但是向/晚再也不会因为人工呼吸的玩笑而害羞炸毛,仿佛是上天为了让她们有最后的告别,向/晚最后一次睁开眼,嘴角带着浅笑望向琳湛蓝的眼,随后消失在她的怀里
上次写/画魔法寡妇的老师们在哪里!抛砖引玉一下
【投稿】因为昨天这个场景太有感觉,我来造谣昨天直播选妃果part
宫锁/心玉,假设是现世出事故了晚才能穿过来,那回去的时候也是在女儿国里遇险,而乃/琳用尽一切办法,都没办法再让心上人再次睁开眼睛
少女刚出现在女儿国的时候,是那样的可爱活泼,如今自己却只能流着泪贴上她渐渐失温的唇
“你不是说你们那个世界这样做了,就能醒来吗…”但是向/晚再也不会因为人工呼吸的玩笑而害羞炸毛,仿佛是上天为了让她们有最后的告别,向/晚最后一次睁开眼,嘴角带着浅笑望向琳湛蓝的眼,随后消失在她的怀里
上次写/画魔法寡妇的老师们在哪里!抛砖引玉一下
苏州下属县市已毁奇观
苏州府与其下属诸县有着高度文化同源性,已毁县域奇观也是苏州文化的重要组成部分,这期略作整理,抛砖引玉。
昆山市
p1 玉峰山与城墙
今昆山城墙复建拱辰门,与旧时形制不同。
p2 玉峰山上双塔对峙—凌霄塔
曾为元塔,今为雷达站。
p3 玉峰山上双塔对峙—妙峰塔
曾为宋塔,今复建一塔,与旧时略有不同。
太仓市
p4 王锡爵家族四代一品坊
p5 王锡爵家族四代一品坊
曾为清代石坊,今王锡爵故居前复建一坊,气质远不及旧照。
p6 水关桥
尚存,因水位等因素不复见当年雄姿。
p7 穿山
穿山既有真山嶙峋气势,又有假山的灵秀精巧,曾是太仓的重要人文景观,上世纪建造需要开山取石,今仅余山基。
p8 茜泾广孝寺塔
曾为宋塔,太仓最古之塔。
p9 太仓文庙
今仅余泮池、龟趺、古树数棵。
吴江区
p10 垂虹桥
p11 垂虹桥与华严塔
p12 华严塔
垂虹桥为七十二孔拱桥,孔洞数多于宝带桥,素以“江南第一桥”闻名遐迩。华严塔为宋代方塔,端丽韶秀。长桥卧波,冀角翚飞,本该是吴江的一张名片,如今却桥断塔毁。
p13 松陵水乡旧景
今吴江县城已无多旧迹。
p14 南城门
吴江城墙早已湮灭历史。
常熟市
p15 虞山城墙与辛峰亭
p16 虞山城墙(今)
今城墙多在原遗址上复建。
p17 辛峰亭
尚存,惜今虞山植被旺盛,辛峰亭已无当年雄踞山巅的气势。
p18 方塔、城墙与常熟县城
虽与旧时有显著不同,但常熟县城已是五县市中保存最完整的了。
苏州府与其下属诸县有着高度文化同源性,已毁县域奇观也是苏州文化的重要组成部分,这期略作整理,抛砖引玉。
昆山市
p1 玉峰山与城墙
今昆山城墙复建拱辰门,与旧时形制不同。
p2 玉峰山上双塔对峙—凌霄塔
曾为元塔,今为雷达站。
p3 玉峰山上双塔对峙—妙峰塔
曾为宋塔,今复建一塔,与旧时略有不同。
太仓市
p4 王锡爵家族四代一品坊
p5 王锡爵家族四代一品坊
曾为清代石坊,今王锡爵故居前复建一坊,气质远不及旧照。
p6 水关桥
尚存,因水位等因素不复见当年雄姿。
p7 穿山
穿山既有真山嶙峋气势,又有假山的灵秀精巧,曾是太仓的重要人文景观,上世纪建造需要开山取石,今仅余山基。
p8 茜泾广孝寺塔
曾为宋塔,太仓最古之塔。
p9 太仓文庙
今仅余泮池、龟趺、古树数棵。
吴江区
p10 垂虹桥
p11 垂虹桥与华严塔
p12 华严塔
垂虹桥为七十二孔拱桥,孔洞数多于宝带桥,素以“江南第一桥”闻名遐迩。华严塔为宋代方塔,端丽韶秀。长桥卧波,冀角翚飞,本该是吴江的一张名片,如今却桥断塔毁。
p13 松陵水乡旧景
今吴江县城已无多旧迹。
p14 南城门
吴江城墙早已湮灭历史。
常熟市
p15 虞山城墙与辛峰亭
p16 虞山城墙(今)
今城墙多在原遗址上复建。
p17 辛峰亭
尚存,惜今虞山植被旺盛,辛峰亭已无当年雄踞山巅的气势。
p18 方塔、城墙与常熟县城
虽与旧时有显著不同,但常熟县城已是五县市中保存最完整的了。
✋热门推荐