高速缓冲存储器是存在于主存与CPU之间的一级存储器, 由静态存储芯片(SRAM)组成,容量比较小但速度比主存高得多, 接近于CPU的速度。在计算机存储系统的层次结构中,是介于中央处理器和主存储器之间的高速小容量存储器。它和主存储器一起构成一级的存储器。高速缓冲存储器和主存储器之间信息的调度和传送是由硬件自动进行的。
为什么Intel的世界看不到明天的太阳升起
因为走错了路。
并不是因为台积电。也不是因为台积电后面还有三星。
这些商业竞争性因素,是中性的,可以通过运营的改进、投资的力度予以改观的。
但没有任何商业打得过技术进步。
这是一个SOC的时代。
内存、CPU、GPU,全部封存在一块芯片集成上。
传输距离直接从印刷电路板的几十厘米,缩小到芯片上的肉眼几乎不可见。
你觉得光速够快,每秒30万公里,这点距离可以忽略不计,哈?
在3G Hz的频率下,你知道会发生什么么?
每个周期,光速最多前进10cm!
所以你在电脑主机版的10cm CPU 和 内存的距离空间里,你不可能把数据总线的速度提高到超过3G Hz!因为一个周期内,数据跑不到位置上!
所以你的CPU和 内存的频率再快也没用,过了3G Hz,只能隔一个甚至多个周期才能发送数据给对方!
都放到一块芯片上,两者距离,是毫米级的!
频率瓶颈一下就没有了!
另外,印刷电路板的线宽是有限的,你不能在几十厘米的线路板上,把数据总线的根数放很多,64根线已经很可观了,128根线几乎就是极限,256根线,板子上差不多找不到足够空间干别的了。
芯片集成就没事,理论上可以放大很多倍。
一下提高了数据总线的宽度,每个周期可以传输的数据量也跟上来了。
这还没完,GPU和CPU共享数据总线,可以共同操作同一个内存单元!
一下节省了大量的内存复制搬家的操作!
如果数据总线是128根线,每个周期你才传输16个字节。
16G的内存你要倒腾 10亿个周期。
就算是1G 的主板频率,您要倒腾至少10秒钟。
这边呢?直接不倒腾点!就地处理!
别急,等会你是不是还要倒腾回来啊[笑cry][笑cry][笑cry]
同一个数据,多做几次处理(玩PS的对此非常熟悉吧?[笑cry][笑cry]),时间都耗费在倒腾上了
[笑cry][笑cry][笑cry]
焉能不败?[费解][费解][费解][费解]
当然,x86架构,并不排斥SOC体系。
但是玩CPU起家的Intel,又要设计CPU,又要设计GPU,还要琢磨怎么堆叠内寸片子,您优势何在啊?
这里还不说ARM架构极其优秀的能量效率所导致的耗电量对机房日常运营来说意味着什么。双份开销:机器本身的耗电量是人家几倍,还要再装个空调系统,把所有的耗电量所产生的热量全都搬走。。。。。。
为了这个,机房搬到芬兰、搬到北极、搬到放空洞。。。。。。
还不是电钱闹的事[抓狂][抓狂][抓狂]
固然,现在Intel在CPU高端计算方面仍然有着一定的领先优势,ARM架构暂时还不能超越。
但这只是整体体系里面的一个很小的局部而已了。
未来的世界,一定属于开放架构的SOC 芯片代工的天下!
苹果、ARM、台积电,只不过是因为卡位刚刚好,顺道捡来的便宜而已。
你说Intel该咋活?
因为走错了路。
并不是因为台积电。也不是因为台积电后面还有三星。
这些商业竞争性因素,是中性的,可以通过运营的改进、投资的力度予以改观的。
但没有任何商业打得过技术进步。
这是一个SOC的时代。
内存、CPU、GPU,全部封存在一块芯片集成上。
传输距离直接从印刷电路板的几十厘米,缩小到芯片上的肉眼几乎不可见。
你觉得光速够快,每秒30万公里,这点距离可以忽略不计,哈?
在3G Hz的频率下,你知道会发生什么么?
每个周期,光速最多前进10cm!
所以你在电脑主机版的10cm CPU 和 内存的距离空间里,你不可能把数据总线的速度提高到超过3G Hz!因为一个周期内,数据跑不到位置上!
所以你的CPU和 内存的频率再快也没用,过了3G Hz,只能隔一个甚至多个周期才能发送数据给对方!
都放到一块芯片上,两者距离,是毫米级的!
频率瓶颈一下就没有了!
另外,印刷电路板的线宽是有限的,你不能在几十厘米的线路板上,把数据总线的根数放很多,64根线已经很可观了,128根线几乎就是极限,256根线,板子上差不多找不到足够空间干别的了。
芯片集成就没事,理论上可以放大很多倍。
一下提高了数据总线的宽度,每个周期可以传输的数据量也跟上来了。
这还没完,GPU和CPU共享数据总线,可以共同操作同一个内存单元!
一下节省了大量的内存复制搬家的操作!
如果数据总线是128根线,每个周期你才传输16个字节。
16G的内存你要倒腾 10亿个周期。
就算是1G 的主板频率,您要倒腾至少10秒钟。
这边呢?直接不倒腾点!就地处理!
别急,等会你是不是还要倒腾回来啊[笑cry][笑cry][笑cry]
同一个数据,多做几次处理(玩PS的对此非常熟悉吧?[笑cry][笑cry]),时间都耗费在倒腾上了
[笑cry][笑cry][笑cry]
焉能不败?[费解][费解][费解][费解]
当然,x86架构,并不排斥SOC体系。
但是玩CPU起家的Intel,又要设计CPU,又要设计GPU,还要琢磨怎么堆叠内寸片子,您优势何在啊?
这里还不说ARM架构极其优秀的能量效率所导致的耗电量对机房日常运营来说意味着什么。双份开销:机器本身的耗电量是人家几倍,还要再装个空调系统,把所有的耗电量所产生的热量全都搬走。。。。。。
为了这个,机房搬到芬兰、搬到北极、搬到放空洞。。。。。。
还不是电钱闹的事[抓狂][抓狂][抓狂]
固然,现在Intel在CPU高端计算方面仍然有着一定的领先优势,ARM架构暂时还不能超越。
但这只是整体体系里面的一个很小的局部而已了。
未来的世界,一定属于开放架构的SOC 芯片代工的天下!
苹果、ARM、台积电,只不过是因为卡位刚刚好,顺道捡来的便宜而已。
你说Intel该咋活?
说起CPU堆核来,其实只要舍得放弃延迟,堆核的上限很高的, 当然我不知道怎么处理一致性。
考虑到效益问题,Ringbus这一类可以堆8-12C,全链接4C,部分2-8C。 一级一级套就可以,比如一个Ringbus 8C,两级64C,三级512X。
AMD的EPYC我自己觉得是三级的。
EPYC的IOD里有四个节点,这是第一级(从上到下,四个节点之间连接比较奇怪,因为明显被分为了两组,但是总体来看类似一个Ring,只是一个节点两边的延迟不一样。
第二级一个Node可以连接两个CCD,但其实是四个CCX,四个CCX可能是全链接。 Zen2就是四个CCX两个CCD,Zen3则是只有2个CCD、不分CCX。
第三级就是CCD/CCX内了,Zen2全链接4C,Zen3类似Ring 8C。
Zen4 EPYC的96C/128C,估计是加强了第一级的Node数量到6/8,这样也好满足Ryzen,Node间链接还可以比较简单。 Ring,车轮都行。
Zen5如果256C,第一级和第三级都不好加了,因为他们都已经8了,加到16就没那么简单了。 估摸着Zen5又会是类似Zen/Zen2那样,一个CCD两个8C CCX,这样一个Node恢复链接4个CCX,外加IMC PCIE之类也好控制在8附近。
考虑到效益问题,Ringbus这一类可以堆8-12C,全链接4C,部分2-8C。 一级一级套就可以,比如一个Ringbus 8C,两级64C,三级512X。
AMD的EPYC我自己觉得是三级的。
EPYC的IOD里有四个节点,这是第一级(从上到下,四个节点之间连接比较奇怪,因为明显被分为了两组,但是总体来看类似一个Ring,只是一个节点两边的延迟不一样。
第二级一个Node可以连接两个CCD,但其实是四个CCX,四个CCX可能是全链接。 Zen2就是四个CCX两个CCD,Zen3则是只有2个CCD、不分CCX。
第三级就是CCD/CCX内了,Zen2全链接4C,Zen3类似Ring 8C。
Zen4 EPYC的96C/128C,估计是加强了第一级的Node数量到6/8,这样也好满足Ryzen,Node间链接还可以比较简单。 Ring,车轮都行。
Zen5如果256C,第一级和第三级都不好加了,因为他们都已经8了,加到16就没那么简单了。 估摸着Zen5又会是类似Zen/Zen2那样,一个CCD两个8C CCX,这样一个Node恢复链接4个CCX,外加IMC PCIE之类也好控制在8附近。
✋热门推荐