#香山调试直播# 香山芯片调试目标完成！记录一些流水账： 2021年6月22日

首页发布

#香山调试直播# 香山芯片调试目标完成！

记录一些流水账：

2021年6月22日，香山在RISC-V中国峰会上第一次亮相，这是当时公开的国际上性能最高的开源RISC-V处理器核设计，受到国内外的很多关注，如今在GitHub上已有近2500个Star，250多个Fork。虽然我们的报告是中文的，但却有不少英文报道，甚至还有来自俄罗斯的关注。可以说，香山成为国际上最受关注的开源芯片项目之一。

2021年7月15日，第一代香山“雁栖湖”流片。但接下来由于受到全球芯片产能影响，我们不得不经历漫长的等待期。因为许久没有回片后的消息，有一些关注香山的朋友发来小心翼翼的询问：“香山是不是流片失败了？”流片失败，就是指香山无法点亮，也就意味着它就是一块石头。

2022年1月20日，等待了整整半年，香山终于回片了。硬件调试存在很大不确定性，很可能1个bug就会需要耗上1-2个月才能解决。而硬件问题解决不了，软件调试就会受到影响。尽早发现硬件问题，此时的香山就如同刚从医院拿回来的一份尚未打开的检查报告——面对它心中充满忐忑，不知道结果是好是坏。如果要等春节假期结束后才能看报告，这个年我们会过得心里很不踏实。另外，还存在一个不确定性，就是疫情防控。前段时间北京出现疫情，导致不少同学无法回家。但另一方面，由于冬奥会、两会等一系列活动，如果其他地方出现疫情，也可能导致离京后一段时间内甚至整个2月不能返京，那就会再空耗一个月。

我们希望能尽早消除一些不确定性，否则过年心里也不踏实。时间，对于香山调试非常宝贵。于是，香山团队的多位小伙伴（徐易难、李作骏、王诲喆、勾凌睿、张紫飞、蔺嘉炜、李乾若、甄好）决定留在北京攻关调试，加上唐丹和我，组成了一支攻关调试小分队。其中有几位是因为老家疫情而留在了北京，也有本来就是北京人，除了这些这些线下的小伙伴，还有全国各地的老师和同学一起在线参与。

1月26日开始，采用香山枫叶红底色的主板陆续从深圳寄到北京。此前，1月22-24日，深圳团队的蔡晔老师、刘彤、何伟等已经在深圳焊好主板，完成了初步的调试，包括系统时钟、串口、Flash等，验证IO通路正确。

1月29日，调试攻坚战正式打响了。调试过程一开始出乎意料地顺利，虽然有些小曲折，但都很快解决。到1月30日，我们取得了不错的战果：
•CPU频率从24MHz切到1GHz；
•DDR4-2400初始化成功，并稳定运行；
•Linux正常启动进入Shell；
•CoreMark成功运行，5.3分，与仿真完全一致。

1月30日晚上，收到了中国科学院大学公共管理学院刘继安老师的消息，是她和博士后徐艳茹希望观摩香山调试。晚上9点，徐博士先来到了调试现场，拍了几张照片，然后便跟我们说，她春节也不能回去过年，希望能全程观摩香山的调试过程。我们觉得应该很快就可以结束调试了，便欣然答应。但任何事情都不要高兴太早！

1月31日，大年夜。就在我们认为可以“牛年事、牛年毕”，可以在牛年就能跑出SPEC CPU2006分值、初步完成调目标时，现实狠狠地打了我们的脸——在运行SPEC CPU2006时，DDR4-2400稳定性存在问题，会导致返回数据出现随机错误。DDR是芯片调试过程最麻烦的问题，看来我们终究还是要面对。

我们分头吃年夜饭。下午2点，唐丹老师回家和家人一起吃了顿年夜饭；下午4：30，唐老师又过来和我们一起吃了一顿年夜饭，然后回到调试作战室放松：春晚，PS5，瓜子……晚上7点，我再回家和家人又吃了一顿年夜饭。一个难忘的大年夜！

大年初一到初三，大家休息了三天。

初四，重新整装上阵。内存专家李作骏全力攻占DDR稳定性问题，其他人全力配合。全志D1-H项目负责人孙彦邦提到当时在全志时DDR调试也是难点，他推荐了在Linux下的memtester来测试内存。

初五，徐易难很快便在Linux下编译好memtester，并开始测试。初步测试访存确实不稳定，内存在作Bit Flipping时会出现8KB数据不正确。于是开始尝试修改CPU频率，1GHz提高到1.1GHz，1.26GHz，但都不稳定；那就给CPU降频，降到800MHz、600MHz，似乎访存稳定性好一些，但还是会随机出错。

唐丹老师查看DDR PHY手册，发现PHY和DIMM的VRef配置不同步，修改后稳定性得到改善，但memtester还是会出现随机访存出错，只是出现概率降低了。但是，哪怕概率再低，也不可接受——对于理论上1GHz频率下每秒可运行60亿条指令的香山来说，哪怕是亿分之一的随机出错概率，也意味着每秒会出现几十次访存数据错误，这是不可接受的。我们必须要把访存调稳定。

初六，大家继续尝试——修改DDR Trainimg参数，修改Linux启动时内存容量，改变DDR供电电压……始终无法消除DDR访存的随机出错问题。我们怀疑DDR信号完整性问题，希望看一下DDR信号的眼图。开始一通打电话借设备，我们借到了一台DDR逻辑分析仪。这这台设备和HMTT很像，也是插在DIMM槽，但它内部提供高频采样时钟，可以直接抓DDR访存数据信号。我们花了半天的时间研究如何使用，当搞清楚后，发现在DDR-2400配置下采不到预想的信号。晚上9点多，打电话给设备代理商，被告知这台设备采购时没有选支持2400的模块，现在还支持DDR-1600。燃起的希望又熄灭了。

初七，唐丹老师又开始打一轮电话，又向郝沁汾老师借来一台示波器。有人建议看一下电源是否稳定，波动幅度是否太大，可以换一下精密电源。唐老师、徐易难立刻开始测试电源稳定性，发现真的会出现上下60-80mV的波动。那时，看到这个几十毫伏的波动，似乎大家心里涌出一丝欣喜，希望这就是DDR访存不稳定的问题所在。唐丹马不停蹄地区采购精密电源，不幸的是在换电源后，我们使用最多、相对最稳定的一块板卡“牺牲”了——烧了！来不及难过，立刻又切换到另一块板卡开始测试起来。结果有点沮丧，换了精密电源后依然无法消除访存随机性问题。

李作骏通过对DDR信号进行仿真，发现DDR DQS信号的ODT参数设置存在问题，同时把所有的访存性能相关的参数调到最保守设置。大家又寄希望于这次DDR参数修改。

此时，于是另一条调试网卡的战线开始启动，由王诲喆担任主攻手：测试网卡时钟信号、调整GMAC频率，设置设备树，修改驱动——网卡很快就被识别出来了，能看到网卡能收包了，但是问题是不能发包。

初八，跑了一个晚上的memtester，连续运行了12个小时，只有一个访存出错。这次稳定性得到了极大的提高，但还没有彻底解决，运行SPEC CPU依然出错。这时，大家决定尝试一下将DDR降频到1600。DDR-1600配置下，李作骏又对DDR Training做了优化，调高了Refresh Burst数量，激动人心的时刻发生了——之前跑不过的SPEC CPU应用都能跑完了！DDR访存稳定性问题终于解决了！

从初八开始，勾凌睿便开始用SPEC CPU2006程序烤机，香山频率设置为1GHz，DDR设置为1600，连续几十个小时的运行，再也没有出现过错误了。当然，这并不是最终目标，我们知道DDR访存性能对整个香山芯片的性能至关重要，接下来我们还继续优化DDR性能。

另一条战线，王诲喆仍然在调试网卡。在香山上用tcpdump能看到从另一台机器发过来的网络包，对比发送端的wireshark，内容正确。但是发送始终存在问题，ping依然不通。

初九，跑了一天的SPEC CPU，再也没有出错了，大家开始期待香山的SPEC CPU 2006分值了。网卡调试那边，手动修改了mac地址后，香山能收到ping，但是发送依然有问题。

初十，在修复了一个串口驱动小问题后，终于得到SPEC CPU 2006分值了，香山在1GHz频率、DDR-1600配置下，分值为5.97。这个数字对于香山来说，是一个里程碑。但我们知道，这并不是香山的真实性能，因为这是把DDR-2400降频为DDR-1600后得到的结果，从数据来看，很多访存密集型应用性能受到了很大的影响。如果把DDR进一步优化，香山性能还将进一步提升。我们根据Roofline模型推演访存性能优化目标。

正月十二，王诲喆也终于将网卡调通，香山功能基本完备。有了网络，大家就可以远程访问香山了。

正月十五，李作骏对DDR-1600时序进行了初步优化，之前受DDR访存的应用性能得到了大幅提升，比如bzip2-liberty的运行时间从483s降到了265s。这也意味着SPEC CPU2006分值即使在DDR降频的情况下还可以有很大的提升。

至此，历时近3个星期的香山攻关调试取得了圆满成功。香山调试直播完毕。

衷心感谢所有关注和支持香山的朋友！后续我们仍然会向大家介绍香山后续的性能优化进展。

—————

图1：调试攻关任务清单完成！
图2：与DDR访存稳定性战斗
图3：稳定运行SPEC CPU2006程序
图4：网卡正常工作
图5：SPECCPU 2006分值与对应配置
图6：Roofline模型推演访存性能优化目标
图7-9：香山调试现场

苹果突然“联手”抖音！iPhone用户能这样刷视频了！

最近抖音就速和苹果合作，安排上了“Siri”语音检索，这可是苹果Siri首次和短视频类的APP合作☝️

那么在功能上：咱只要唤醒Siri，说出“用抖音搜索XXX”句式就能实现。

不过首次使用时，Siri会提示需要访问抖音数据才能执行。此时点击“是”即可一键完成授权(实测并不好点，需要多试几次)

完成授权后，本鸭实测了“用抖音搜索躺倒鸭”：iPhone即刻完成了打开抖音 → 直接进入搜索栏 → 自动显示结果

但是，鸭鸭要说但是了。

即便大大方便了手动搜视频，但短视频向下滑的动作依然无法完成……

12个访谈大纲
鲲鹏（针对鲲鹏isv（independent software vendors独立软件开发商）、osv-开源操作系统、dbv（使能数据库软件供应商））

CEO、CTO(帮助伙伴进行技术性架构设计迁移调优，规划技术方向，梳理生态地图)，项目经理+基层技术人员+其他非技术人员，不细节管理技术；非技术人员，非开发者用伙伴做访问；开发者技术人员针对论坛上开发者；伙伴里基层技术人员（工程师）：围绕细节在问，细节领导CTO实际上不了解；

开发者分开源开发者（华为开放的产品/项目、openEuler：开源的操作系统；openGauss开源的数据库，MindSpore：开源的ai人工智能架构，openLooKeng：开源的数据引擎，开发者可以在开源论坛上讨论）
和社区开发者（开发者围绕鲲鹏服务器、芯片，开发一些东西，华为命名）

开源论坛不一定是华为主导，比如openEuler捐给原子基金会，之后论坛维护不一定是华为，其他三个还是华为在主导，华为不希望别人觉得感觉他是主导者，不利于开源，还是你华为在玩，华为是希望第三方加入进来；创新中心的伙伴（外部伙伴）：广州创新中心在当地发展中心合作伙伴引入华为，业务落地结合鲲鹏，创新中心发展过来的，问一些创新中心的评价

鸿蒙（南硬北软）：有伙伴和开发者，伙伴类型多
IoT智能硬件生态（南向鸿蒙，比如鸿蒙&美的&九阳&苏泊尔）：扫地机器人、电动电动牙刷按摩仪、电烤箱……，营收、键第三方做，加入鲲鹏生态之后，做适配，与华为手机，鸿蒙系统建立智能化功能，去和手机连接；
HarmonyOS应用服务生态（北向鸿蒙，比如HarmonyOS&滴滴&WPS：鸿蒙与WPS合作的协同会议空间，能够实现扫码参会，手机实时批注）：开发深度更深，你想在华为视频拉个搜狐视频，套了个壳子，适配华为视频，要进行适配，IT类的开发……
鸿蒙软件：软件开发、HMS：手机应用：银行app、音乐（网易云音乐）

华为云：基层技术人员也使用合作伙伴和开发者

MDC：伙伴、车企（买华为盒子的装在车子上）、开发者、行业组织（出来一个新技术，要收认证，帮助生态发展，牵线搭桥，互相对接，有助行业发展）

问问题顺着受访者思路，不一定要follow up大纲，不需要每个问题都问完，会导致时间很长，今天问张三解决了abc问题，明天问李四解决def问题，这样就能所有内容都cover到了；自信，受华为委托，帮助华为对他们的生态健康进行调研

跟伙伴谈生意、业务，从流程机制开始，是否透明完善合理，那些不合理，追问，产品业务不合理？人员分配不合理？

边界清晰？都是华为在做？华为做什么我做什么？收益分配是否合理？

针对生疼ISV（软件伙伴）：创新产出多样性？您认为华为生态AI使能资源（模型/算子，行业sdk套件）的丰富性和实用性如何？

生态协同：华为云、鸿蒙、鲲鹏、生疼、MDC之间的协同，目前据了解有，加入鸿蒙app，做一个游戏，加入华为生态，把游戏上架到华为应用市场，游戏背后的服务器设到华为云端；鸿蒙生态和华为云生态协同；生疼和MDC协同，MDC就是在生疼AI人工智能框架基础上开发的应用，应用到了智能驾驶

华为话语权越来越重了，你什么都做了，我没得玩了，跨生态协同给伙伴、客户（伙伴的客户或伙伴和华为一起的客户）带来的价值
最后，整体评价，丢分的原因；给竞品也打个分，为什么？
最最后，我们没问到，伙伴你想说的，吐槽的，对于未来合作的建议；

一上来就说本次访谈估计几分钟，你说45min，他说没那么长时间，你就知道怎么问问题了，半小时有半小时的问法（从自我介绍开始、再到受访者职务和职务范围；与华为、友商、合作情况、具体），10min有10min的问法（直接上问题，对方马上想到2、3个具体问题，给你说清楚了，任务就完成了），双方都需要comfortable的节奏，对方说只有10min，可以另约一个时间，如果对方一直很忙，10min就10min，要不下次就问不到了，这次抓住这次问

这次伙伴应该配合度都高，不像之前政企，央企、国企客户不愿配合，不愿配合的原因：1、不想配合；2、华为平时服务这些政企央企等的服服帖帖，问啥问不出来，啥都挺好，也确实挺好；

面访出发给受访者打个电话，我现在出发了，要不到时人不在，也是礼貌
别人说的专有名词你听不懂，不要暴露自己知识的匮乏，对这个行业一窍不通，因为你是尼尔森来的，你就说，您能这方面多说多拓展一下吗？
可以用百度去搜竞品是啥，比如MDC的对标竞品德赛西威，mobileye，得有一定的知识储备，是啥包括竞品的发展，电话那头是能听出你懂不懂，自不自信，紧不紧张

伙伴为了赚钱，客户是看产品好不好用