AI-DSA虽然用途很广，并且性能敏感，但云、边缘以及自动驾驶等超级终端场景，是更加

首页发布

大芯片面临的共同挑战（上）

原创 Chaobowx 软硬件融合

最近一直思考：何谓“大芯片”？大芯片的标准是什么？CPU、GPU、AI、DPU以及HPU等各种超大规模的大芯片，其底层逻辑到底是什么？
于是有了这篇文章的思考，抛砖引玉，与大家讨论。

1 什么是大芯片？

1.1 依据操作系统标准来划分

这样，我们对大芯片就可以有一个最直观的标准：

需要支持操作系统和虚拟化（虚拟化包括虚机、容器、函数等不同层次虚拟化）；

需要支持虚拟化资源切分；

需要支持系统、资源和性能隔离；

需要支持软件跨硬件平台，包括硬件接口抽象和热迁移等。

大芯片，需要把很多传统软件层次的能力在硬件层次进行支持。如可编程性、扩展性、适应性、软件跨平台和高可用等。

1.2 各类引擎/处理器的作用

上图是在计算机（服务器）上运行的系统的功能层次划分，大体上分为两个层次：

支撑应用的基础设施层，比如网络、存储、虚拟化、文件系统、数据库等；

应用层。应用层也可以再划分。很多应用性能敏感，需要通过硬件加速。因此，可以把应用再划分为两部分：

应用可加速部分，相比基础设施，应用可加速部分的更新变化会更大，因此需要一些相对灵活弹性的加速平台，如GPU、FPGA等，而ASIC等则不是很合适。

应用不可加速部分，应用多种多样，应用本身还会经常性的优化更新，因此只适合CPU这样的足够通用灵活的运行平台。

CPU
如果整个系统对性能的要求不高，CPU可以胜任。那么最好的做法就是，不管是基础设施层还是应用层可加速部分和不可加速部分，统统都放在CPU中完成。

然而，由于基于CPU的摩尔定律失效，CPU逐渐无法胜任系统的所有计算任务，引发了连锁反应。所以才有了上面图中的三个分类，以及针对性的各种硬件加速平台。

不管如何优化改进，CPU作为最核心的处理引擎（可能是独立CPU芯片，也可能是嵌入式CPU Core），依然扮演着最核心的作用。

未来，CPU主要负责应用层不可加速部分的计算以及整个系统的控制和管理。虽然CPU最终不是计算的主力，但它依然是管理和控制的核心。

GPU
GPU比较适合应用层的弹性加速，一方面因为GPGPU的通用计算能力，在场景覆盖和性能提升方面很好的达到了平衡。再加上CUDA等开发框架/生态的加持，使得GPU成为应用层可加速部分当之无愧的主力运行平台。

DPU
DPU定位基础设施层的（加速）处理，如虚拟化、网络、存储、安全以及IaaS服务融入等。DPU需要很多ASIC/DSA层次的加速引擎，以及嵌入式CPU的协同，来更好的做好基础设施层的工作，以此来更好的支撑CPU和GPU的上层工作。

DPU可以说是整个系统中的“老黄牛”，做的是最辛苦最艰难的事情，但其价值体现却低于CPU和GPU。目前DPU面临的困境主要体现在：

做的事情非常复杂。受性能需求的约束，需要把业务逻辑变成电路，DPU的开发其难度和工作量（相比CPU和GPU）非常的高。

其价值又相对较低。DPU通常定位成CPU的助手，负责卸载CPU的一些繁重的相对价值含量低的工作。因此，其价值定位低于CPU和GPU。

被动协同。DPU需要协同CPU和GPU的工作，但这些协同通常是被动的。DPU具体落地需要CPU和GPU的“参与”，这使得DPU具有非常大的落地门槛。

客户需求差异性和业务迭代，需要DPU尽可能的贴近用户需求，把用户的深层次需求融入到芯片。但这样做，会导致场景碎片化，DPU能覆盖的场景偏小。而大芯片的研发成本又非常的高，场景覆盖不足以撑起一颗芯片的商业化落地。

AI芯片

AI芯片，也称为AI-DSA，和GPU处于同一位置，一般来说，在小小的服务器物理空间里，加速卡通常只有一种类型，也即AI和GPU是互斥的关系，大家共同竞争同一个物理卡槽。

CPU+xPU的异构计算通常分为三类：

CPU+GPU、CPU+FPGA和CPU+DSA。

如果对通用性要求高，对覆盖场景要求高，则通常选择GPU。比如AI训练场景，虽然GPU并不是效率最高的平台，但目前AI训练算法更新迭代很快，比较适合GPU这样的平台，而不是AI-DSA。

如果对性能要求高，并且算法相对确定，则比较适合DSA架构，比如一些编解码的VPU。以及AI推理场景。

FPGA则介于两者之间。

AI-DSA虽然用途很广，并且性能敏感，但云、边缘以及自动驾驶等超级终端场景，是更加综合性的场景，AI是计算加速的领域之一，因此，独立的AI芯片其落地规模必然是远少于GPU这种更加灵活弹性的计算平台的，也更少于CPU和DPU的落地场景规模。

HPU

HPU是超异构处理器（Hyper-heterogeneous Processing Unit），把CPU、GPU和DPU的功能再集成在一起，是一个功能综合的融合芯片：

Chiplet封装技术的成熟，使得多种架构混合的超异构计算成为可能，为超异构处理器HPU提供了很好的工艺和封装基础。

包括企业服务器、边缘服务器以及存储服务器等诸多场景，占到整个服务器规模的90%左右，这类服务器场景相对轻量的计算，集成的单芯片足够。

而云计算的业务服务器，是绝对重量的场景，需要CPU、GPU和DPU三类独立芯片组成大系统。这类场景只占服务器规模的10%左右。

超异构计算需要创新的架构：需要明确的是，HPU不能是简单的CPU、GPU和DPU三者集成，而是要重新优化整个系统的数据交互，让交互更加充分并且高效（更高的带宽，更低的延迟等）。

【“土豪”情缘】《鹧鸪天•闲游》万丈高峰入画屏，闲游拜谢岳灵情。山描草稿丹青事，径展野坡亘古经。追利禄，逐功名，何如峭岭伴云行。清风明月嚣尘远，石上崖前梦老松。～～四大名玉之一独山玉雕刻大师、工艺美术大师董学中作品《闲游》，重量：2950g，尺寸：23*22*11cm，有正规鉴定证书和收藏证书，支持国检复检。作品中山峦叠嶂、苍松遒劲，悬崖松柏、浑然天成，使人不禁忘我地陶醉在这壮丽的山水风景之中，惬意于“松倚云天淡淡烟”的山水之间，处处显露着浓浓的文化气韵，极适合摆放于客厅，书房，办公场所等场所，给人以儒雅、古朴之感。与师友们分享，一手货源，大师直供，三保：保真保友情价保按要求定制！（可垂询结缘）

#穿堂惊掠琵琶声[超话]##高台树色[超话]#完结撒花[打call]

果然，相思害人，浮想联翩。

“你这算是……恃才傲物？”
“不，是为爱痴狂。”

“承蒙沈先生抬爱。”
“不客气，孟先生当得。”

一个人有多重的才华，骨子里就会刻上多大重量的谦卑。

沈识檐想，等孟新堂老了，一定是个迷人到了极致的老头儿，有谦卑，有风骨，有功勋，还有沁着墨香的浪漫。
他忽然就觉得，与有荣焉。

过年嘛，就要听爱的人话家常。

吉祥与爱，刻出绵亘的希望。

“新的一年，平安顺遂。”

就像他第一次见他，就觉得他是个永世的少年。

“Yesterday ] saw a lion kiss a deer.”
“昨天，我看到一只狮子吻了一只鹿。”

“我可以吻你，只要我爱你。”

“确定，就像你刚才说的，狮子还是鹿，不重要。”

也是当真正知道了情爱、性的这一晚，沈识檐才明白，他的爱情，不过是自己找到了自己。

你从风尘萧瑟中走来，我在秋意正深处等你。

“想买束花给你

可路口的花店没开

我又实在想念”

“上帝一定是看到有人的爱意太深，无法表达，才创造了性。”

“立于己，行于侧。愿，相得益彰。”