来也空空,去也空空
我和李会长去看洪恭兰老居士,送了他一串念珠。老居士说他平常妄念很多,拿到这串念珠后,妄念就少了。他晚上做了个梦,有一男一女来看他,说是玉皇大帝派来保护他的,劝他要忍耐,并告诉他:「来也空空,去也空空。」洪老居士一生没有耐心,性情很急;他听了能明白,也很欢喜。醒过来之后,这两个人就不见了。他说他已经八十岁了,决定不会欺骗人,这是真实的境界。
「来也空空,去也空空」,此二句将般若的义趣完全说出来了。不但我们没来之前空空,走后空空,现前何尝不是空空?佛说事实真相是:「如梦幻泡影」。梦、幻、泡、影都不是实在的,都是假相,这种假相存在的时间很短,经上形容「如露如电」。如露是讲相续相,如电是讲剎那际,说明诸法实相确实如此。明白、觉悟之人就称为佛、菩萨;迷惑、不觉悟之人,以为这是真有,就是凡夫。所以,佛菩萨与凡夫的差别,就在一念觉迷。觉悟的人在梦幻泡影里得自在,迷惑的人就过得很辛苦。
由此可知,这就是「缘生」,缘起性空。业缘很复杂,有善、恶、无记三类,唯有真正觉悟之人,能运用得非常恰当,帮助没有觉悟的众生开悟,这就是诸佛菩萨普度众生。明了诸法是无所有,空空也是无所有、了不可得,能得的念头与所得的一切物都是空空,我们的心才真正回归到平静,回归到清净、平等。清净平等是我们的真心本性,也是宗门所说的明心见性。因此,我们就能体会到,为何世尊一生讲经说法,《般若经》讲了二十二年,就是一切众生不知道诸法皆空的事实真相,不能行菩萨道。菩萨道就是觉悟之道。凡夫走的是迷惑之道,所以才出现十法界、六道、三途。迷得重的是三途现象;稍微轻一点的是六道;再轻一点的是四圣法界。无论三途、六道、四圣法界都是迷,都没有契入空理,契入空理就证得一真法界。
「一真」也是勉强说的名相,若我们执着有个「一」,执着有个「真」,又错了。一的对面是多,真的对面是假,惠能大师说,一多、真假是二法,二法就不是佛法。所以,没有「一」的念头,也没有「真」的念头,才是真正的一真法界。由此可知,稍稍起心动念就错了。
学佛要怎么学?宗门常讲:「从根本修」,根本就是一念不生,心地清净没有一切念头。若有个「我现在一念不生」,就已经生了一个「一念不生」的念头,这就错了。初学时,宗门用盘腿面壁的方法,学不起心、不动念,不分别、不执着。学成之后,要在生活当中去历炼,六根接触六尘境界,不起心、不动念,不分别、不执着,这就成功了,此时所有境界都是一真法界。一真法界没有离开十法界、六道、三途,所以法界才称作一真。若真的有十法界、六道、三途,法界怎能称作一真?故转变在心,转变在认知,认识境界的实相,就是认清宇宙人生的真相。
「来也空空,去也空空」意思很深,能认识清楚,就会很欢喜掌握缘,成就无量的功德,所谓是积功累德。凡夫错认了境界,造作罪业,但造罪不是有意的。佛讲所有一切罪业的根源是愚痴,痴就是不了解事实真相,才会做错事情,用错缘。觉悟之人了解事实真相,所以起心动念、一切作为都是积功累德。积功累德是世人的概念,觉悟的人没有这个念头。十法界的众生有这个念头,一真法界的佛菩萨没有这个念头,所谓「作而无作,无作而作」。
众生有感,佛菩萨就有应,自然感应道交,决定没有起心动念。古德用敲磬做比喻,敲打比喻众生的感,磬发出的音声比喻佛菩萨的应。实际上,佛菩萨的应是自性的感应。而我们将佛菩萨看作人,一切诸法看作实体,大乘精义我们无法体会,所以不知道尽虚空遍法界一切事物都是自性。宗门觉悟的人常说:「头头是道,左右逢源」,这说尽了事实真相,虚空法界只是一个自性而已。自性是能变,感应是所变,何处有感,何处就有应,感应道交,丝毫不爽。感应的理事深广无尽,我们要细心去体会,明了之后,就晓得怎样学佛、怎样做人、怎样过日子,达到真正的幸福美满。
世法讲「真善美慧」,佛法讲「常乐我净」,这是真有;可是十法界的众生没有,一真法界的佛菩萨有;也就是说起心动念的人没有,不起心动念的人有。佛把心比喻作水,水在平静不起波浪时,像一面镜子,把外面的境界照得清清楚楚,这就是比喻真善美慧、常乐我净。可是水一起波浪,虽然还能照境界相,但是支离破碎,所以真善美慧、常乐我净就失去了。由此可知,诸佛菩萨的心即使应化在六道,随类现身,随机说法,还是平静的。说法时,「说而无说,无说而说」;示现时,「现而无现,无现而现」,永远处在一真的境界,心永远保持像水一样的平静。自性功德就是水的光,能照见一切万法。在十法界里,愈往下,心的波动幅度愈大,愈往上波动就小。几时心在境界里不动了,以《华严经》来说,最低限度是圆教初住菩萨,自性的般若、解脱、法身就现前了。
(981121早餐)
我和李会长去看洪恭兰老居士,送了他一串念珠。老居士说他平常妄念很多,拿到这串念珠后,妄念就少了。他晚上做了个梦,有一男一女来看他,说是玉皇大帝派来保护他的,劝他要忍耐,并告诉他:「来也空空,去也空空。」洪老居士一生没有耐心,性情很急;他听了能明白,也很欢喜。醒过来之后,这两个人就不见了。他说他已经八十岁了,决定不会欺骗人,这是真实的境界。
「来也空空,去也空空」,此二句将般若的义趣完全说出来了。不但我们没来之前空空,走后空空,现前何尝不是空空?佛说事实真相是:「如梦幻泡影」。梦、幻、泡、影都不是实在的,都是假相,这种假相存在的时间很短,经上形容「如露如电」。如露是讲相续相,如电是讲剎那际,说明诸法实相确实如此。明白、觉悟之人就称为佛、菩萨;迷惑、不觉悟之人,以为这是真有,就是凡夫。所以,佛菩萨与凡夫的差别,就在一念觉迷。觉悟的人在梦幻泡影里得自在,迷惑的人就过得很辛苦。
由此可知,这就是「缘生」,缘起性空。业缘很复杂,有善、恶、无记三类,唯有真正觉悟之人,能运用得非常恰当,帮助没有觉悟的众生开悟,这就是诸佛菩萨普度众生。明了诸法是无所有,空空也是无所有、了不可得,能得的念头与所得的一切物都是空空,我们的心才真正回归到平静,回归到清净、平等。清净平等是我们的真心本性,也是宗门所说的明心见性。因此,我们就能体会到,为何世尊一生讲经说法,《般若经》讲了二十二年,就是一切众生不知道诸法皆空的事实真相,不能行菩萨道。菩萨道就是觉悟之道。凡夫走的是迷惑之道,所以才出现十法界、六道、三途。迷得重的是三途现象;稍微轻一点的是六道;再轻一点的是四圣法界。无论三途、六道、四圣法界都是迷,都没有契入空理,契入空理就证得一真法界。
「一真」也是勉强说的名相,若我们执着有个「一」,执着有个「真」,又错了。一的对面是多,真的对面是假,惠能大师说,一多、真假是二法,二法就不是佛法。所以,没有「一」的念头,也没有「真」的念头,才是真正的一真法界。由此可知,稍稍起心动念就错了。
学佛要怎么学?宗门常讲:「从根本修」,根本就是一念不生,心地清净没有一切念头。若有个「我现在一念不生」,就已经生了一个「一念不生」的念头,这就错了。初学时,宗门用盘腿面壁的方法,学不起心、不动念,不分别、不执着。学成之后,要在生活当中去历炼,六根接触六尘境界,不起心、不动念,不分别、不执着,这就成功了,此时所有境界都是一真法界。一真法界没有离开十法界、六道、三途,所以法界才称作一真。若真的有十法界、六道、三途,法界怎能称作一真?故转变在心,转变在认知,认识境界的实相,就是认清宇宙人生的真相。
「来也空空,去也空空」意思很深,能认识清楚,就会很欢喜掌握缘,成就无量的功德,所谓是积功累德。凡夫错认了境界,造作罪业,但造罪不是有意的。佛讲所有一切罪业的根源是愚痴,痴就是不了解事实真相,才会做错事情,用错缘。觉悟之人了解事实真相,所以起心动念、一切作为都是积功累德。积功累德是世人的概念,觉悟的人没有这个念头。十法界的众生有这个念头,一真法界的佛菩萨没有这个念头,所谓「作而无作,无作而作」。
众生有感,佛菩萨就有应,自然感应道交,决定没有起心动念。古德用敲磬做比喻,敲打比喻众生的感,磬发出的音声比喻佛菩萨的应。实际上,佛菩萨的应是自性的感应。而我们将佛菩萨看作人,一切诸法看作实体,大乘精义我们无法体会,所以不知道尽虚空遍法界一切事物都是自性。宗门觉悟的人常说:「头头是道,左右逢源」,这说尽了事实真相,虚空法界只是一个自性而已。自性是能变,感应是所变,何处有感,何处就有应,感应道交,丝毫不爽。感应的理事深广无尽,我们要细心去体会,明了之后,就晓得怎样学佛、怎样做人、怎样过日子,达到真正的幸福美满。
世法讲「真善美慧」,佛法讲「常乐我净」,这是真有;可是十法界的众生没有,一真法界的佛菩萨有;也就是说起心动念的人没有,不起心动念的人有。佛把心比喻作水,水在平静不起波浪时,像一面镜子,把外面的境界照得清清楚楚,这就是比喻真善美慧、常乐我净。可是水一起波浪,虽然还能照境界相,但是支离破碎,所以真善美慧、常乐我净就失去了。由此可知,诸佛菩萨的心即使应化在六道,随类现身,随机说法,还是平静的。说法时,「说而无说,无说而说」;示现时,「现而无现,无现而现」,永远处在一真的境界,心永远保持像水一样的平静。自性功德就是水的光,能照见一切万法。在十法界里,愈往下,心的波动幅度愈大,愈往上波动就小。几时心在境界里不动了,以《华严经》来说,最低限度是圆教初住菩萨,自性的般若、解脱、法身就现前了。
(981121早餐)
爱是大海上升起的雾,没人知道它何时来临、何时散去,身处其中的人可能也朦胧徘徊、不知所以。海俊问瑞莱,我什么时候说过我爱你。只有尚未被摧毁的录音,记录下爱情存在过的那个瞬间。即使这个瞬间只被一个人珍藏,也没人能否认,雾曾经升起过,爱曾经来过。
爱是此时此地此身而已,爱的瞬间那么纯粹。瑞莱,你被爱过,这真好,也真残酷啊。
#分手的决心#
爱是此时此地此身而已,爱的瞬间那么纯粹。瑞莱,你被爱过,这真好,也真残酷啊。
#分手的决心#
大芯片面临的共同挑战(下)
原创 Chaobowx 软硬件融合
3 大芯片面临的共同挑战
3.1 挑战一:复杂大系统,对灵活性的要求高于对性能的要求
有一个非常经典的问题:终端非常流行SOC,但为什么数据中心服务器却依然是CPU打天下?
越是复杂的场景,对系统灵活性的要求越高。CPU作为云计算场景的主力计算平台有其合理性,主要体现在四个方面:
硬件的灵活性。软件应用迭代很快,支持软件运行的硬件处理引擎要能够很好地支持这些迭代。CPU因为其灵活的基础指令编程的特点,是最适合云计算的处理引擎。
硬件的通用性。云计算厂家购买硬件服务器,很难预测这些硬件服务器会运行哪类工作任务,最好的办法是采用完全通用的服务器。CPU由于其绝对的通用性,成为云计算场景最优的选择。
硬件的利用率。云计算的基础技术是虚拟化,通过虚拟化把资源切分,实现资源共享,以此提高资源利用并降低成本。只有CPU能够实现非常友好的硬件级别的虚拟化支持,从而实现更高的资源利用率。而其他硬件加速平台,(相对的)资源利用率很难做到很高,这就约束了其性能优势。
硬件的一致性。在云计算数据中心,软件和硬件是需要相互脱离的。同一个软件实体会在不同的硬件实体迁移,同样的同一个硬件实体也需要运行不同的软件实体。这对硬件平台的一致性提出了很高的要求。
在性能满足要求的情况下,CPU当仁不让的就成了数据中心计算平台的最佳选择。
可惜的是,目前,CPU的性能无法满足要求了。在CPU性能不满足要求的情况下,就需要创新的硬件来进行性能加速。如何在整个系统保持跟传统CPU接近的通用性、灵活性、可编程性、易用性的约束条件下,实现性能显著提升,成为了重要的挑战。
3.2 挑战二:如何数量级的提升综合性能?
我们之前都讲过,性能和单位指令的复杂度是正相关的。指令越简单,性能相对越低;指令越复杂,性能相对越好。但指令简单,我们就可以随心所欲组合各种各样的场景的应用程序;而指令越复杂,引擎所能覆盖的领域和场景就会越来越小。
如上图所示:
CPU性能最差,但几乎可以覆盖所有的计算场景,是最通用的处理器;
DSA覆盖某个特定领域,性能可以做到很好。但覆盖的领域如果算法更新迭代快或者领域的范围较小不足以支撑大算力芯片的大范围落地的话,这样的DSA芯片在商业上就很难成立。
GPU介于两者之间。
CPU软件,是通过基础的指令组合出来所需要的业务逻辑;而为了提升性能,硬件加速本质上是将业务逻辑固化成硬件电路。而将业务逻辑固化成电路,虽然提升了性能,但会约束芯片本身的场景覆盖。目前,很多算力芯片的设计陷入了一个怪圈:越优化性能,场景覆盖越狭窄;场景覆盖越狭窄,芯片出货量越低;芯片出货量低,无法覆盖芯片的一次性研发成本,商业逻辑不成立,后续的持续研发难以为继。
以AI为典型场景,目前AI芯片落地难的本质:很多AI芯片特别强调深度理解算法,然后把算法融入到芯片中。但受限于AI类算法多种多样,并且算法都在快速的迭代。这导致AI芯片一直无法大规模落地,芯片数以亿计的研发成本难以摊薄。因此,从目前来看,AI芯片在商业逻辑上无法成立。
AI芯片已经榨干了目前芯片所能达到的性能极限;未来,L4/L5级别的自动驾驶芯片需要算力十倍百倍的提升;而要想达到元宇宙所需的良好体验,则需要算力千倍万倍的提升。如何在确保芯片的场景覆盖如CPU一样通用全面,并且还能够十倍百倍甚至千倍万倍的快速性能提升,是大算力芯片需要直面的挑战。
3.3 挑战三:业务的横向和纵向差异性
业务的横向差异指的是不同客户之间相近业务的细节差异性;而纵向差异指的是单个用户业务的长期迭代的差异性。
不同用户的业务存在差异,即使同一大公司内部,不同的团队对相同场景的业务需求也是不完全一致的。并且,即使同一客户,受限于软件的快速更新迭代,其业务逻辑更新也会很快,显著的快于硬件芯片的更新迭代(软件迭代通常在3-6个月,而芯片迭代则是2-3年,还要考虑芯片4-5年的生命周期)。
针对横向和纵向的差异性,目前行业有几种显著的做法:
一些芯片大厂,针对自身对场景的理解,提供自认为最优的业务逻辑加速方案给到用户。但站在用户的视角,这样会丧失自身的差异性和创造性。用户需要修改自身的业务逻辑,这个风险也非常的高;并且,会对芯片公司形成强依赖关系。
一些大客户。针对自身差异化场景,自研芯片。可以满足自身差异化的竞争能力,但大用户内部也是由许多不同的小团队组成,不同团队业务场景仍然存在差异性;并且,单个业务纵向的长期迭代差异依然是需要考虑的。定制芯片在商业上是可行的,但需要考虑技术层面的通用芯片设计。
第三方通用的解决方案。“授人以鱼,不如授人以渔”,通过通用的设计,确保在每个领域,都能够实现一定程度上的软硬件解耦。芯片公司提供“通用”的硬件平台,让用户通过编程的方式实现业务差异化,“让用户掌控一切”。
3.4 挑战四:芯片的一次性成本过高
在先进工艺的设计成本方面,知名半导体研究机构Semiengingeering统计了不同工艺下芯片所需费用(费用包括了):16nm节点则需要1亿美元;7nm节点需要2.97亿美元;到了5nm节点,费用高达5.42亿美元;3nm节点的研发费用,预计将接近10亿美元。
就意味着,大芯片需要足够通用,足够大范围落地,才能在商业逻辑上成立。做一个基本的估算:在数据中心场景,则需要50万以上的销售量,才能有效摊薄研发成本。在数据中心领域,这个门槛非常高。
3.5 挑战五:宏观算力要求芯片能够支撑大规模部署
性能和灵活性是一对矛盾,很多性能优化的芯片设计方案,显著的提升性能的同时,也显著的降低了芯片的通用性、灵活性和易用性,同时降低了芯片的场景和用户覆盖。从而导致芯片落地规模很小。
芯片落地规模小,单芯片再高的性能,都相当于无源之水,没有了意义。
因此,一个综合性的芯片平台,需要考虑芯片性能提升的同时,也要考虑如何提高芯片的宏观规模落地:需要考虑芯片的场景覆盖;需要考虑芯片的用户覆盖;需要考虑芯片的功能横向和纵向的差异性覆盖。
只有兼顾了性能和更多用户和场景覆盖,才能实现大芯片的规模化部署,才能显著的提升宏观算力。
3.6 挑战六:计算平台的融合
算力需要池化,并且,算力不仅仅是数据中心基于x86 CPU的算力池化,算力池化,需要:
算力需要跨不同的CPU架构,比如能够把x86、ARM、RISCv等主流架构的算力整合到一个算力池;
算力需要跨不同类型的处理引擎。比如把CPU、GPU、FPGA、DSA的算力整合到一个算力池;
算力还需要跨不同厂家的硬件平台,算力需要把不同Vendor提供的算力资源都能够整合到一个算力池;
算力需要跨不同位置,算力可以部署云、边、端甚至网络,可以把这些算力整合到一个算力池。
云网边端融合,就是把所有的算力资源整合到一起,真正实现跨云网边端自适应的软件运行。挑战在于,如何构建统一的开放的硬件平台和系统堆栈。
3.7 挑战七:生态建设的门槛
大芯片一定需要平台化,一定需要开发框架并形成开发生态。而框架和生态门槛高,且需要长期积累,对小公司来说是一件非常难的事情。
RISC-v CPU已经如火如荼,很多公司,特别是一些初创小公司,大家都非常认可RISC-v的开源开放的理念和价值,众人拾柴火焰高,大家共同推动RISC-v开放生态的蓬勃发展。
未来,计算进一步走向异构和超异构计算,架构和平台越来越多,此时,开源开放已经不是可选项,而是成为必选项。因为,如果不是开源开放,那就会导致算力资源完全的碎片化,何谈算力池化,何谈云网边端融合。
开源开放,是大芯片平台和生态建设的必然选择。
3.8 挑战八:(用户视角)宏观跨平台的挑战,没有平台依赖
站在芯片厂家视角,给客户提供芯片以及配套的驱动软件,然后有SDK等开发工具包,用户基于此开发自己的应用程序,这样就万事大吉。但站在用户的视角,问题可不是这样。用户的软件应用和硬件平台是完全脱离的。
我们以VM计算机虚拟化为例。用户的VM需要在不同的硬件平台上能够实时热迁移,这样就对硬件平台的一致性就有了要求。通常,硬件一致性是通过虚拟化来完成的,虚拟化给上层的VM抽象出标准的硬件平台,使得VM可以跨不同架构的硬件服务器运行。随着CPU性能的瓶颈,虚拟化相关堆栈逐渐下沉到了硬件加速,这样,就需要把硬件接口直接暴露给业务VM,那么就需要硬件架构/接口原生支持一致性。
硬件架构/接口原生支持一致性,换个表述,就是不同厂家的芯片平台提供的是相同的架构和接口,使得软件可以方便的跨不同厂家的硬件平台迁移。如果某个厂家提供的是私有架构/接口的硬件平台,那么用户就会对平台形成强依赖关系,并且如果选择的个性化平台越多,使得用户自己的数据中心变成割裂的各自不同的资源池碎片,这样云的整个运营管理变得非常的复杂和困难。
(正文完)
原创 Chaobowx 软硬件融合
3 大芯片面临的共同挑战
3.1 挑战一:复杂大系统,对灵活性的要求高于对性能的要求
有一个非常经典的问题:终端非常流行SOC,但为什么数据中心服务器却依然是CPU打天下?
越是复杂的场景,对系统灵活性的要求越高。CPU作为云计算场景的主力计算平台有其合理性,主要体现在四个方面:
硬件的灵活性。软件应用迭代很快,支持软件运行的硬件处理引擎要能够很好地支持这些迭代。CPU因为其灵活的基础指令编程的特点,是最适合云计算的处理引擎。
硬件的通用性。云计算厂家购买硬件服务器,很难预测这些硬件服务器会运行哪类工作任务,最好的办法是采用完全通用的服务器。CPU由于其绝对的通用性,成为云计算场景最优的选择。
硬件的利用率。云计算的基础技术是虚拟化,通过虚拟化把资源切分,实现资源共享,以此提高资源利用并降低成本。只有CPU能够实现非常友好的硬件级别的虚拟化支持,从而实现更高的资源利用率。而其他硬件加速平台,(相对的)资源利用率很难做到很高,这就约束了其性能优势。
硬件的一致性。在云计算数据中心,软件和硬件是需要相互脱离的。同一个软件实体会在不同的硬件实体迁移,同样的同一个硬件实体也需要运行不同的软件实体。这对硬件平台的一致性提出了很高的要求。
在性能满足要求的情况下,CPU当仁不让的就成了数据中心计算平台的最佳选择。
可惜的是,目前,CPU的性能无法满足要求了。在CPU性能不满足要求的情况下,就需要创新的硬件来进行性能加速。如何在整个系统保持跟传统CPU接近的通用性、灵活性、可编程性、易用性的约束条件下,实现性能显著提升,成为了重要的挑战。
3.2 挑战二:如何数量级的提升综合性能?
我们之前都讲过,性能和单位指令的复杂度是正相关的。指令越简单,性能相对越低;指令越复杂,性能相对越好。但指令简单,我们就可以随心所欲组合各种各样的场景的应用程序;而指令越复杂,引擎所能覆盖的领域和场景就会越来越小。
如上图所示:
CPU性能最差,但几乎可以覆盖所有的计算场景,是最通用的处理器;
DSA覆盖某个特定领域,性能可以做到很好。但覆盖的领域如果算法更新迭代快或者领域的范围较小不足以支撑大算力芯片的大范围落地的话,这样的DSA芯片在商业上就很难成立。
GPU介于两者之间。
CPU软件,是通过基础的指令组合出来所需要的业务逻辑;而为了提升性能,硬件加速本质上是将业务逻辑固化成硬件电路。而将业务逻辑固化成电路,虽然提升了性能,但会约束芯片本身的场景覆盖。目前,很多算力芯片的设计陷入了一个怪圈:越优化性能,场景覆盖越狭窄;场景覆盖越狭窄,芯片出货量越低;芯片出货量低,无法覆盖芯片的一次性研发成本,商业逻辑不成立,后续的持续研发难以为继。
以AI为典型场景,目前AI芯片落地难的本质:很多AI芯片特别强调深度理解算法,然后把算法融入到芯片中。但受限于AI类算法多种多样,并且算法都在快速的迭代。这导致AI芯片一直无法大规模落地,芯片数以亿计的研发成本难以摊薄。因此,从目前来看,AI芯片在商业逻辑上无法成立。
AI芯片已经榨干了目前芯片所能达到的性能极限;未来,L4/L5级别的自动驾驶芯片需要算力十倍百倍的提升;而要想达到元宇宙所需的良好体验,则需要算力千倍万倍的提升。如何在确保芯片的场景覆盖如CPU一样通用全面,并且还能够十倍百倍甚至千倍万倍的快速性能提升,是大算力芯片需要直面的挑战。
3.3 挑战三:业务的横向和纵向差异性
业务的横向差异指的是不同客户之间相近业务的细节差异性;而纵向差异指的是单个用户业务的长期迭代的差异性。
不同用户的业务存在差异,即使同一大公司内部,不同的团队对相同场景的业务需求也是不完全一致的。并且,即使同一客户,受限于软件的快速更新迭代,其业务逻辑更新也会很快,显著的快于硬件芯片的更新迭代(软件迭代通常在3-6个月,而芯片迭代则是2-3年,还要考虑芯片4-5年的生命周期)。
针对横向和纵向的差异性,目前行业有几种显著的做法:
一些芯片大厂,针对自身对场景的理解,提供自认为最优的业务逻辑加速方案给到用户。但站在用户的视角,这样会丧失自身的差异性和创造性。用户需要修改自身的业务逻辑,这个风险也非常的高;并且,会对芯片公司形成强依赖关系。
一些大客户。针对自身差异化场景,自研芯片。可以满足自身差异化的竞争能力,但大用户内部也是由许多不同的小团队组成,不同团队业务场景仍然存在差异性;并且,单个业务纵向的长期迭代差异依然是需要考虑的。定制芯片在商业上是可行的,但需要考虑技术层面的通用芯片设计。
第三方通用的解决方案。“授人以鱼,不如授人以渔”,通过通用的设计,确保在每个领域,都能够实现一定程度上的软硬件解耦。芯片公司提供“通用”的硬件平台,让用户通过编程的方式实现业务差异化,“让用户掌控一切”。
3.4 挑战四:芯片的一次性成本过高
在先进工艺的设计成本方面,知名半导体研究机构Semiengingeering统计了不同工艺下芯片所需费用(费用包括了):16nm节点则需要1亿美元;7nm节点需要2.97亿美元;到了5nm节点,费用高达5.42亿美元;3nm节点的研发费用,预计将接近10亿美元。
就意味着,大芯片需要足够通用,足够大范围落地,才能在商业逻辑上成立。做一个基本的估算:在数据中心场景,则需要50万以上的销售量,才能有效摊薄研发成本。在数据中心领域,这个门槛非常高。
3.5 挑战五:宏观算力要求芯片能够支撑大规模部署
性能和灵活性是一对矛盾,很多性能优化的芯片设计方案,显著的提升性能的同时,也显著的降低了芯片的通用性、灵活性和易用性,同时降低了芯片的场景和用户覆盖。从而导致芯片落地规模很小。
芯片落地规模小,单芯片再高的性能,都相当于无源之水,没有了意义。
因此,一个综合性的芯片平台,需要考虑芯片性能提升的同时,也要考虑如何提高芯片的宏观规模落地:需要考虑芯片的场景覆盖;需要考虑芯片的用户覆盖;需要考虑芯片的功能横向和纵向的差异性覆盖。
只有兼顾了性能和更多用户和场景覆盖,才能实现大芯片的规模化部署,才能显著的提升宏观算力。
3.6 挑战六:计算平台的融合
算力需要池化,并且,算力不仅仅是数据中心基于x86 CPU的算力池化,算力池化,需要:
算力需要跨不同的CPU架构,比如能够把x86、ARM、RISCv等主流架构的算力整合到一个算力池;
算力需要跨不同类型的处理引擎。比如把CPU、GPU、FPGA、DSA的算力整合到一个算力池;
算力还需要跨不同厂家的硬件平台,算力需要把不同Vendor提供的算力资源都能够整合到一个算力池;
算力需要跨不同位置,算力可以部署云、边、端甚至网络,可以把这些算力整合到一个算力池。
云网边端融合,就是把所有的算力资源整合到一起,真正实现跨云网边端自适应的软件运行。挑战在于,如何构建统一的开放的硬件平台和系统堆栈。
3.7 挑战七:生态建设的门槛
大芯片一定需要平台化,一定需要开发框架并形成开发生态。而框架和生态门槛高,且需要长期积累,对小公司来说是一件非常难的事情。
RISC-v CPU已经如火如荼,很多公司,特别是一些初创小公司,大家都非常认可RISC-v的开源开放的理念和价值,众人拾柴火焰高,大家共同推动RISC-v开放生态的蓬勃发展。
未来,计算进一步走向异构和超异构计算,架构和平台越来越多,此时,开源开放已经不是可选项,而是成为必选项。因为,如果不是开源开放,那就会导致算力资源完全的碎片化,何谈算力池化,何谈云网边端融合。
开源开放,是大芯片平台和生态建设的必然选择。
3.8 挑战八:(用户视角)宏观跨平台的挑战,没有平台依赖
站在芯片厂家视角,给客户提供芯片以及配套的驱动软件,然后有SDK等开发工具包,用户基于此开发自己的应用程序,这样就万事大吉。但站在用户的视角,问题可不是这样。用户的软件应用和硬件平台是完全脱离的。
我们以VM计算机虚拟化为例。用户的VM需要在不同的硬件平台上能够实时热迁移,这样就对硬件平台的一致性就有了要求。通常,硬件一致性是通过虚拟化来完成的,虚拟化给上层的VM抽象出标准的硬件平台,使得VM可以跨不同架构的硬件服务器运行。随着CPU性能的瓶颈,虚拟化相关堆栈逐渐下沉到了硬件加速,这样,就需要把硬件接口直接暴露给业务VM,那么就需要硬件架构/接口原生支持一致性。
硬件架构/接口原生支持一致性,换个表述,就是不同厂家的芯片平台提供的是相同的架构和接口,使得软件可以方便的跨不同厂家的硬件平台迁移。如果某个厂家提供的是私有架构/接口的硬件平台,那么用户就会对平台形成强依赖关系,并且如果选择的个性化平台越多,使得用户自己的数据中心变成割裂的各自不同的资源池碎片,这样云的整个运营管理变得非常的复杂和困难。
(正文完)
✋热门推荐