但覆盖的领域如果算法更新迭代快或者领域的范围较小不足以支撑大算力芯片的大范围落地的话

首页发布

【#合肥南站启用电子哨兵防疫# #合肥火车站启用电子哨兵防疫#】在疫情防控工作中，合肥产出许多防疫科技利器，打好防疫“科技战”。合肥研发的全息检验“电子哨兵”纷纷“上岗”，减少核验人员压力的同时，大大提高了核验、通行效率。目前，在合肥站、合肥南站已经部署的100多台“电子哨兵”，已累计核检旅客超438.9万人次。

8月9日下午，记者在合肥南站看到，这里的众多出入道口都部署着“电子哨兵”。旅客们脸部朝向“电子哨兵”的摄像头，对着“电子哨兵”展示“两码”，即可快速完成核验，核验为绿码等正常状态后，旅客便能安全、顺畅通行。

工作人员介绍，火车站等交通枢纽人流车流量大，仅靠人工来进行疫情防控的相关信息核验，任务重、强度大。如今有了“电子哨兵”，不仅减少了防疫人员工作压力，更大大提高了核验、通行效率。

记者获悉，通过图像识别、数据比对等技术，“电子哨兵”可实现健康码、行程卡“双码”联查核验，且过程零接触、智能化、精准化。此外，“电子哨兵”系统还可通过AI技术，快速扫描旅客行程信息，并与合肥市每日更新的全国疫情风险地区自动比对、提醒。“电子哨兵”的“上岗”，直接减少了扫码核验等简单工作的人力需求，只需将少数核验异常旅客转交人工复核。如今，合肥南站通过“电子哨兵+闸机”联动的模式，减少一线核验人员近100名。

核验人员减少，效率却提高了。据合肥南站现场对比测试结果显示，纯靠人工核验，平均每位旅客需30秒左右完成核验，途经城市较多旅客则需60至120秒。而“电子哨兵”核验平均为18秒，有效减少旅客等候出站时间。合肥南站平峰时段旅客出站时间由原来45—60分钟减少到20—30分钟，高峰时段由原来60分钟以上减少到约30分钟。（江淮晨报）https://t.cn/A6SZr0dU

#渝你一起AI在重庆#科大讯飞“向日葵计划”品牌好友活动重庆站来了！小A来打Call啦！
8月20日-21日，和飞飞一起为AI而行，相“渝”重庆！新品体验、高管交流、机酒全包，速戳报名：https://t.cn/A6SZhLro
#智慧山城因AI而能#在重庆，听见花开的声音！
关注我和@科大讯飞，带话题#渝你一起AI在重庆#转发微博，8.20日抽4位平分200元现金！@微博抽奖平台 https://t.cn/A6SAwN0u

大芯片面临的共同挑战（下）

原创 Chaobowx 软硬件融合

3 大芯片面临的共同挑战

3.1 挑战一：复杂大系统，对灵活性的要求高于对性能的要求

有一个非常经典的问题：终端非常流行SOC，但为什么数据中心服务器却依然是CPU打天下？

越是复杂的场景，对系统灵活性的要求越高。CPU作为云计算场景的主力计算平台有其合理性，主要体现在四个方面：

硬件的灵活性。软件应用迭代很快，支持软件运行的硬件处理引擎要能够很好地支持这些迭代。CPU因为其灵活的基础指令编程的特点，是最适合云计算的处理引擎。

硬件的通用性。云计算厂家购买硬件服务器，很难预测这些硬件服务器会运行哪类工作任务，最好的办法是采用完全通用的服务器。CPU由于其绝对的通用性，成为云计算场景最优的选择。

硬件的利用率。云计算的基础技术是虚拟化，通过虚拟化把资源切分，实现资源共享，以此提高资源利用并降低成本。只有CPU能够实现非常友好的硬件级别的虚拟化支持，从而实现更高的资源利用率。而其他硬件加速平台，（相对的）资源利用率很难做到很高，这就约束了其性能优势。

硬件的一致性。在云计算数据中心，软件和硬件是需要相互脱离的。同一个软件实体会在不同的硬件实体迁移，同样的同一个硬件实体也需要运行不同的软件实体。这对硬件平台的一致性提出了很高的要求。

在性能满足要求的情况下，CPU当仁不让的就成了数据中心计算平台的最佳选择。

可惜的是，目前，CPU的性能无法满足要求了。在CPU性能不满足要求的情况下，就需要创新的硬件来进行性能加速。如何在整个系统保持跟传统CPU接近的通用性、灵活性、可编程性、易用性的约束条件下，实现性能显著提升，成为了重要的挑战。

3.2 挑战二：如何数量级的提升综合性能？

我们之前都讲过，性能和单位指令的复杂度是正相关的。指令越简单，性能相对越低；指令越复杂，性能相对越好。但指令简单，我们就可以随心所欲组合各种各样的场景的应用程序；而指令越复杂，引擎所能覆盖的领域和场景就会越来越小。

如上图所示：

CPU性能最差，但几乎可以覆盖所有的计算场景，是最通用的处理器；

DSA覆盖某个特定领域，性能可以做到很好。但覆盖的领域如果算法更新迭代快或者领域的范围较小不足以支撑大算力芯片的大范围落地的话，这样的DSA芯片在商业上就很难成立。

GPU介于两者之间。

CPU软件，是通过基础的指令组合出来所需要的业务逻辑；而为了提升性能，硬件加速本质上是将业务逻辑固化成硬件电路。而将业务逻辑固化成电路，虽然提升了性能，但会约束芯片本身的场景覆盖。目前，很多算力芯片的设计陷入了一个怪圈：越优化性能，场景覆盖越狭窄；场景覆盖越狭窄，芯片出货量越低；芯片出货量低，无法覆盖芯片的一次性研发成本，商业逻辑不成立，后续的持续研发难以为继。

以AI为典型场景，目前AI芯片落地难的本质：很多AI芯片特别强调深度理解算法，然后把算法融入到芯片中。但受限于AI类算法多种多样，并且算法都在快速的迭代。这导致AI芯片一直无法大规模落地，芯片数以亿计的研发成本难以摊薄。因此，从目前来看，AI芯片在商业逻辑上无法成立。

AI芯片已经榨干了目前芯片所能达到的性能极限；未来，L4/L5级别的自动驾驶芯片需要算力十倍百倍的提升；而要想达到元宇宙所需的良好体验，则需要算力千倍万倍的提升。如何在确保芯片的场景覆盖如CPU一样通用全面，并且还能够十倍百倍甚至千倍万倍的快速性能提升，是大算力芯片需要直面的挑战。

3.3 挑战三：业务的横向和纵向差异性

业务的横向差异指的是不同客户之间相近业务的细节差异性；而纵向差异指的是单个用户业务的长期迭代的差异性。

不同用户的业务存在差异，即使同一大公司内部，不同的团队对相同场景的业务需求也是不完全一致的。并且，即使同一客户，受限于软件的快速更新迭代，其业务逻辑更新也会很快，显著的快于硬件芯片的更新迭代（软件迭代通常在3-6个月，而芯片迭代则是2-3年，还要考虑芯片4-5年的生命周期）。

针对横向和纵向的差异性，目前行业有几种显著的做法：

一些芯片大厂，针对自身对场景的理解，提供自认为最优的业务逻辑加速方案给到用户。但站在用户的视角，这样会丧失自身的差异性和创造性。用户需要修改自身的业务逻辑，这个风险也非常的高；并且，会对芯片公司形成强依赖关系。

一些大客户。针对自身差异化场景，自研芯片。可以满足自身差异化的竞争能力，但大用户内部也是由许多不同的小团队组成，不同团队业务场景仍然存在差异性；并且，单个业务纵向的长期迭代差异依然是需要考虑的。定制芯片在商业上是可行的，但需要考虑技术层面的通用芯片设计。

第三方通用的解决方案。“授人以鱼，不如授人以渔”，通过通用的设计，确保在每个领域，都能够实现一定程度上的软硬件解耦。芯片公司提供“通用”的硬件平台，让用户通过编程的方式实现业务差异化，“让用户掌控一切”。

3.4 挑战四：芯片的一次性成本过高

在先进工艺的设计成本方面，知名半导体研究机构Semiengingeering统计了不同工艺下芯片所需费用（费用包括了）：16nm节点则需要1亿美元；7nm节点需要2.97亿美元；到了5nm节点，费用高达5.42亿美元；3nm节点的研发费用，预计将接近10亿美元。

就意味着，大芯片需要足够通用，足够大范围落地，才能在商业逻辑上成立。做一个基本的估算：在数据中心场景，则需要50万以上的销售量，才能有效摊薄研发成本。在数据中心领域，这个门槛非常高。

3.5 挑战五：宏观算力要求芯片能够支撑大规模部署

性能和灵活性是一对矛盾，很多性能优化的芯片设计方案，显著的提升性能的同时，也显著的降低了芯片的通用性、灵活性和易用性，同时降低了芯片的场景和用户覆盖。从而导致芯片落地规模很小。

芯片落地规模小，单芯片再高的性能，都相当于无源之水，没有了意义。

因此，一个综合性的芯片平台，需要考虑芯片性能提升的同时，也要考虑如何提高芯片的宏观规模落地：需要考虑芯片的场景覆盖；需要考虑芯片的用户覆盖；需要考虑芯片的功能横向和纵向的差异性覆盖。

只有兼顾了性能和更多用户和场景覆盖，才能实现大芯片的规模化部署，才能显著的提升宏观算力。

3.6 挑战六：计算平台的融合

算力需要池化，并且，算力不仅仅是数据中心基于x86 CPU的算力池化，算力池化，需要：

算力需要跨不同的CPU架构，比如能够把x86、ARM、RISCv等主流架构的算力整合到一个算力池；

算力需要跨不同类型的处理引擎。比如把CPU、GPU、FPGA、DSA的算力整合到一个算力池；

算力还需要跨不同厂家的硬件平台，算力需要把不同Vendor提供的算力资源都能够整合到一个算力池；

算力需要跨不同位置，算力可以部署云、边、端甚至网络，可以把这些算力整合到一个算力池。

云网边端融合，就是把所有的算力资源整合到一起，真正实现跨云网边端自适应的软件运行。挑战在于，如何构建统一的开放的硬件平台和系统堆栈。

3.7 挑战七：生态建设的门槛

大芯片一定需要平台化，一定需要开发框架并形成开发生态。而框架和生态门槛高，且需要长期积累，对小公司来说是一件非常难的事情。

RISC-v CPU已经如火如荼，很多公司，特别是一些初创小公司，大家都非常认可RISC-v的开源开放的理念和价值，众人拾柴火焰高，大家共同推动RISC-v开放生态的蓬勃发展。

未来，计算进一步走向异构和超异构计算，架构和平台越来越多，此时，开源开放已经不是可选项，而是成为必选项。因为，如果不是开源开放，那就会导致算力资源完全的碎片化，何谈算力池化，何谈云网边端融合。

开源开放，是大芯片平台和生态建设的必然选择。

3.8 挑战八：（用户视角）宏观跨平台的挑战，没有平台依赖

站在芯片厂家视角，给客户提供芯片以及配套的驱动软件，然后有SDK等开发工具包，用户基于此开发自己的应用程序，这样就万事大吉。但站在用户的视角，问题可不是这样。用户的软件应用和硬件平台是完全脱离的。

我们以VM计算机虚拟化为例。用户的VM需要在不同的硬件平台上能够实时热迁移，这样就对硬件平台的一致性就有了要求。通常，硬件一致性是通过虚拟化来完成的，虚拟化给上层的VM抽象出标准的硬件平台，使得VM可以跨不同架构的硬件服务器运行。随着CPU性能的瓶颈，虚拟化相关堆栈逐渐下沉到了硬件加速，这样，就需要把硬件接口直接暴露给业务VM，那么就需要硬件架构/接口原生支持一致性。

硬件架构/接口原生支持一致性，换个表述，就是不同厂家的芯片平台提供的是相同的架构和接口，使得软件可以方便的跨不同厂家的硬件平台迁移。如果某个厂家提供的是私有架构/接口的硬件平台，那么用户就会对平台形成强依赖关系，并且如果选择的个性化平台越多，使得用户自己的数据中心变成割裂的各自不同的资源池碎片，这样云的整个运营管理变得非常的复杂和困难。

（正文完）