大芯片面临的共同挑战(上)
原创 Chaobowx 软硬件融合
最近一直思考:何谓“大芯片”?大芯片的标准是什么?CPU、GPU、AI、DPU以及HPU等各种超大规模的大芯片,其底层逻辑到底是什么?
于是有了这篇文章的思考,抛砖引玉,与大家讨论。
1 什么是大芯片?
1.1 依据操作系统标准来划分
这样,我们对大芯片就可以有一个最直观的标准:
需要支持操作系统和虚拟化(虚拟化包括虚机、容器、函数等不同层次虚拟化);
需要支持虚拟化资源切分;
需要支持系统、资源和性能隔离;
需要支持软件跨硬件平台,包括硬件接口抽象和热迁移等。
大芯片,需要把很多传统软件层次的能力在硬件层次进行支持。如可编程性、扩展性、适应性、软件跨平台和高可用等。
1.2 各类引擎/处理器的作用
上图是在计算机(服务器)上运行的系统的功能层次划分,大体上分为两个层次:
支撑应用的基础设施层,比如网络、存储、虚拟化、文件系统、数据库等;
应用层。应用层也可以再划分。很多应用性能敏感,需要通过硬件加速。因此,可以把应用再划分为两部分:
应用可加速部分,相比基础设施,应用可加速部分的更新变化会更大,因此需要一些相对灵活弹性的加速平台,如GPU、FPGA等,而ASIC等则不是很合适。
应用不可加速部分,应用多种多样,应用本身还会经常性的优化更新,因此只适合CPU这样的足够通用灵活的运行平台。
CPU
如果整个系统对性能的要求不高,CPU可以胜任。那么最好的做法就是,不管是基础设施层还是应用层可加速部分和不可加速部分,统统都放在CPU中完成。
然而,由于基于CPU的摩尔定律失效,CPU逐渐无法胜任系统的所有计算任务,引发了连锁反应。所以才有了上面图中的三个分类,以及针对性的各种硬件加速平台。
不管如何优化改进,CPU作为最核心的处理引擎(可能是独立CPU芯片,也可能是嵌入式CPU Core),依然扮演着最核心的作用。
未来,CPU主要负责应用层不可加速部分的计算以及整个系统的控制和管理。虽然CPU最终不是计算的主力,但它依然是管理和控制的核心。
GPU
GPU比较适合应用层的弹性加速,一方面因为GPGPU的通用计算能力,在场景覆盖和性能提升方面很好的达到了平衡。再加上CUDA等开发框架/生态的加持,使得GPU成为应用层可加速部分当之无愧的主力运行平台。
DPU
DPU定位基础设施层的(加速)处理,如虚拟化、网络、存储、安全以及IaaS服务融入等。DPU需要很多ASIC/DSA层次的加速引擎,以及嵌入式CPU的协同,来更好的做好基础设施层的工作,以此来更好的支撑CPU和GPU的上层工作。
DPU可以说是整个系统中的“老黄牛”,做的是最辛苦最艰难的事情,但其价值体现却低于CPU和GPU。目前DPU面临的困境主要体现在:
做的事情非常复杂。受性能需求的约束,需要把业务逻辑变成电路,DPU的开发其难度和工作量(相比CPU和GPU)非常的高。
其价值又相对较低。DPU通常定位成CPU的助手,负责卸载CPU的一些繁重的相对价值含量低的工作。因此,其价值定位低于CPU和GPU。
被动协同。DPU需要协同CPU和GPU的工作,但这些协同通常是被动的。DPU具体落地需要CPU和GPU的“参与”,这使得DPU具有非常大的落地门槛。
客户需求差异性和业务迭代,需要DPU尽可能的贴近用户需求,把用户的深层次需求融入到芯片。但这样做,会导致场景碎片化,DPU能覆盖的场景偏小。而大芯片的研发成本又非常的高,场景覆盖不足以撑起一颗芯片的商业化落地。
AI芯片
AI芯片,也称为AI-DSA,和GPU处于同一位置,一般来说,在小小的服务器物理空间里,加速卡通常只有一种类型,也即AI和GPU是互斥的关系,大家共同竞争同一个物理卡槽。
CPU+xPU的异构计算通常分为三类:
CPU+GPU、CPU+FPGA和CPU+DSA。
如果对通用性要求高,对覆盖场景要求高,则通常选择GPU。比如AI训练场景,虽然GPU并不是效率最高的平台,但目前AI训练算法更新迭代很快,比较适合GPU这样的平台,而不是AI-DSA。
如果对性能要求高,并且算法相对确定,则比较适合DSA架构,比如一些编解码的VPU。以及AI推理场景。
FPGA则介于两者之间。
AI-DSA虽然用途很广,并且性能敏感,但云、边缘以及自动驾驶等超级终端场景,是更加综合性的场景,AI是计算加速的领域之一,因此,独立的AI芯片其落地规模必然是远少于GPU这种更加灵活弹性的计算平台的,也更少于CPU和DPU的落地场景规模。
HPU
HPU是超异构处理器(Hyper-heterogeneous Processing Unit),把CPU、GPU和DPU的功能再集成在一起,是一个功能综合的融合芯片:
Chiplet封装技术的成熟,使得多种架构混合的超异构计算成为可能,为超异构处理器HPU提供了很好的工艺和封装基础。
包括企业服务器、边缘服务器以及存储服务器等诸多场景,占到整个服务器规模的90%左右,这类服务器场景相对轻量的计算,集成的单芯片足够。
而云计算的业务服务器,是绝对重量的场景,需要CPU、GPU和DPU三类独立芯片组成大系统。这类场景只占服务器规模的10%左右。
超异构计算需要创新的架构:需要明确的是,HPU不能是简单的CPU、GPU和DPU三者集成,而是要重新优化整个系统的数据交互,让交互更加充分并且高效(更高的带宽,更低的延迟等)。
原创 Chaobowx 软硬件融合
最近一直思考:何谓“大芯片”?大芯片的标准是什么?CPU、GPU、AI、DPU以及HPU等各种超大规模的大芯片,其底层逻辑到底是什么?
于是有了这篇文章的思考,抛砖引玉,与大家讨论。
1 什么是大芯片?
1.1 依据操作系统标准来划分
这样,我们对大芯片就可以有一个最直观的标准:
需要支持操作系统和虚拟化(虚拟化包括虚机、容器、函数等不同层次虚拟化);
需要支持虚拟化资源切分;
需要支持系统、资源和性能隔离;
需要支持软件跨硬件平台,包括硬件接口抽象和热迁移等。
大芯片,需要把很多传统软件层次的能力在硬件层次进行支持。如可编程性、扩展性、适应性、软件跨平台和高可用等。
1.2 各类引擎/处理器的作用
上图是在计算机(服务器)上运行的系统的功能层次划分,大体上分为两个层次:
支撑应用的基础设施层,比如网络、存储、虚拟化、文件系统、数据库等;
应用层。应用层也可以再划分。很多应用性能敏感,需要通过硬件加速。因此,可以把应用再划分为两部分:
应用可加速部分,相比基础设施,应用可加速部分的更新变化会更大,因此需要一些相对灵活弹性的加速平台,如GPU、FPGA等,而ASIC等则不是很合适。
应用不可加速部分,应用多种多样,应用本身还会经常性的优化更新,因此只适合CPU这样的足够通用灵活的运行平台。
CPU
如果整个系统对性能的要求不高,CPU可以胜任。那么最好的做法就是,不管是基础设施层还是应用层可加速部分和不可加速部分,统统都放在CPU中完成。
然而,由于基于CPU的摩尔定律失效,CPU逐渐无法胜任系统的所有计算任务,引发了连锁反应。所以才有了上面图中的三个分类,以及针对性的各种硬件加速平台。
不管如何优化改进,CPU作为最核心的处理引擎(可能是独立CPU芯片,也可能是嵌入式CPU Core),依然扮演着最核心的作用。
未来,CPU主要负责应用层不可加速部分的计算以及整个系统的控制和管理。虽然CPU最终不是计算的主力,但它依然是管理和控制的核心。
GPU
GPU比较适合应用层的弹性加速,一方面因为GPGPU的通用计算能力,在场景覆盖和性能提升方面很好的达到了平衡。再加上CUDA等开发框架/生态的加持,使得GPU成为应用层可加速部分当之无愧的主力运行平台。
DPU
DPU定位基础设施层的(加速)处理,如虚拟化、网络、存储、安全以及IaaS服务融入等。DPU需要很多ASIC/DSA层次的加速引擎,以及嵌入式CPU的协同,来更好的做好基础设施层的工作,以此来更好的支撑CPU和GPU的上层工作。
DPU可以说是整个系统中的“老黄牛”,做的是最辛苦最艰难的事情,但其价值体现却低于CPU和GPU。目前DPU面临的困境主要体现在:
做的事情非常复杂。受性能需求的约束,需要把业务逻辑变成电路,DPU的开发其难度和工作量(相比CPU和GPU)非常的高。
其价值又相对较低。DPU通常定位成CPU的助手,负责卸载CPU的一些繁重的相对价值含量低的工作。因此,其价值定位低于CPU和GPU。
被动协同。DPU需要协同CPU和GPU的工作,但这些协同通常是被动的。DPU具体落地需要CPU和GPU的“参与”,这使得DPU具有非常大的落地门槛。
客户需求差异性和业务迭代,需要DPU尽可能的贴近用户需求,把用户的深层次需求融入到芯片。但这样做,会导致场景碎片化,DPU能覆盖的场景偏小。而大芯片的研发成本又非常的高,场景覆盖不足以撑起一颗芯片的商业化落地。
AI芯片
AI芯片,也称为AI-DSA,和GPU处于同一位置,一般来说,在小小的服务器物理空间里,加速卡通常只有一种类型,也即AI和GPU是互斥的关系,大家共同竞争同一个物理卡槽。
CPU+xPU的异构计算通常分为三类:
CPU+GPU、CPU+FPGA和CPU+DSA。
如果对通用性要求高,对覆盖场景要求高,则通常选择GPU。比如AI训练场景,虽然GPU并不是效率最高的平台,但目前AI训练算法更新迭代很快,比较适合GPU这样的平台,而不是AI-DSA。
如果对性能要求高,并且算法相对确定,则比较适合DSA架构,比如一些编解码的VPU。以及AI推理场景。
FPGA则介于两者之间。
AI-DSA虽然用途很广,并且性能敏感,但云、边缘以及自动驾驶等超级终端场景,是更加综合性的场景,AI是计算加速的领域之一,因此,独立的AI芯片其落地规模必然是远少于GPU这种更加灵活弹性的计算平台的,也更少于CPU和DPU的落地场景规模。
HPU
HPU是超异构处理器(Hyper-heterogeneous Processing Unit),把CPU、GPU和DPU的功能再集成在一起,是一个功能综合的融合芯片:
Chiplet封装技术的成熟,使得多种架构混合的超异构计算成为可能,为超异构处理器HPU提供了很好的工艺和封装基础。
包括企业服务器、边缘服务器以及存储服务器等诸多场景,占到整个服务器规模的90%左右,这类服务器场景相对轻量的计算,集成的单芯片足够。
而云计算的业务服务器,是绝对重量的场景,需要CPU、GPU和DPU三类独立芯片组成大系统。这类场景只占服务器规模的10%左右。
超异构计算需要创新的架构:需要明确的是,HPU不能是简单的CPU、GPU和DPU三者集成,而是要重新优化整个系统的数据交互,让交互更加充分并且高效(更高的带宽,更低的延迟等)。
【“土豪”情缘】《鹧鸪天•闲游》万丈高峰入画屏,闲游拜谢岳灵情。山描草稿丹青事,径展野坡亘古经。追利禄,逐功名,何如峭岭伴云行。清风明月嚣尘远,石上崖前梦老松。~~四大名玉之一独山玉雕刻大师、工艺美术大师董学中作品《闲游》,重量:2950g,尺寸:23*22*11cm,有正规鉴定证书和收藏证书,支持国检复检。作品中山峦叠嶂、苍松遒劲,悬崖松柏、浑然天成,使人不禁忘我地陶醉在这壮丽的山水风景之中,惬意于“松倚云天淡淡烟”的山水之间,处处显露着浓浓的文化气韵,极适合摆放于客厅,书房,办公场所等场所,给人以儒雅、古朴之感。与师友们分享,一手货源,大师直供,三保:保真保友情价保按要求定制!(可垂询结缘)
#穿堂惊掠琵琶声[超话]##高台树色[超话]#完结撒花[打call]
果然,相思害人,浮想联翩。
“你这算是……恃才傲物?”
“不,是为爱痴狂。”
“承蒙沈先生抬爱。”
“不客气,孟先生当得。”
一个人有多重的才华,骨子里就会刻上多大重量的谦卑。
沈识檐想,等孟新堂老了,一定是个迷人到了极致的老头儿,有谦卑,有风骨,有功勋,还有沁着墨香的浪漫。
他忽然就觉得,与有荣焉。
过年嘛,就要听爱的人话家常。
吉祥与爱,刻出绵亘的希望。
“新的一年,平安顺遂。”
就像他第一次见他,就觉得他是个永世的少年。
“Yesterday ] saw a lion kiss a deer.”
“昨天,我看到一只狮子吻了一只鹿。”
“我可以吻你,只要我爱你。”
“确定,就像你刚才说的,狮子还是鹿,不重要。”
也是当真正知道了情爱、性的这一晚,沈识檐才明白,他的爱情,不过是自己找到了自己。
你从风尘萧瑟中走来,我在秋意正深处等你。
“想买束花给你
可路口的花店没开
我又实在想念”
“上帝一定是看到有人的爱意太深,无法表达,才创造了性。”
“立于己,行于侧。愿,相得益彰。”
果然,相思害人,浮想联翩。
“你这算是……恃才傲物?”
“不,是为爱痴狂。”
“承蒙沈先生抬爱。”
“不客气,孟先生当得。”
一个人有多重的才华,骨子里就会刻上多大重量的谦卑。
沈识檐想,等孟新堂老了,一定是个迷人到了极致的老头儿,有谦卑,有风骨,有功勋,还有沁着墨香的浪漫。
他忽然就觉得,与有荣焉。
过年嘛,就要听爱的人话家常。
吉祥与爱,刻出绵亘的希望。
“新的一年,平安顺遂。”
就像他第一次见他,就觉得他是个永世的少年。
“Yesterday ] saw a lion kiss a deer.”
“昨天,我看到一只狮子吻了一只鹿。”
“我可以吻你,只要我爱你。”
“确定,就像你刚才说的,狮子还是鹿,不重要。”
也是当真正知道了情爱、性的这一晚,沈识檐才明白,他的爱情,不过是自己找到了自己。
你从风尘萧瑟中走来,我在秋意正深处等你。
“想买束花给你
可路口的花店没开
我又实在想念”
“上帝一定是看到有人的爱意太深,无法表达,才创造了性。”
“立于己,行于侧。愿,相得益彰。”
✋热门推荐