【制造业立市,从天津“人”说起……】 立,住也,又成也,又坚也,又树立也,又置建也,又存立也,又直起也……这个在甲骨文中就是一个人扎扎实实站在地上的字,在今天有了新的解读者,这个解读者,名叫天津。
进入新时代,面向新阶段,“十四五”开局之年,天津清晰嘹亮地吹响了“坚持制造业立市战略部署,切实夯牢制造业根基,加快建设制造强市”的进军号角。
天津作为共和国的“家有儿女”,她曾是创造过多个“第一”的学霸“小雪”。作为我国现代工业的发祥地、新中国工业的摇篮之一,制造业,一直是深埋在她肌体内的血脉和根基。而今,制造业也注定成为成就她未来的战略支撑。制造业立市,她到底是怎么立的?
头——顶层设计谋篇布局
凡事预则立,不预则废,坚持“制造业立市”战略,天津不打无准备之仗。围绕“制造业立市”,天津持续不断地细化“十四五”时期制造强市建设的具体举措。
阳春三月,天津市工业和信息化局研究室主任杨冬梅做客津云《打开“津门”话发展》节目时谈到:“制造业立市是天津‘十四五’时期实现高质量发展的必然选择和现实之举。在顶层设计方面,我们坚持远近结合、上下联动、统筹推进的规划体系,为制造业高质量发展谋篇布局。”
面向2035年长远发展,天津编制完成《天津市工业布局规划(2022——2035年)》;聚焦2025年中期目标,制定发布《天津市制造业高质量发展“十四五”规划》和10个专项规划;锚定2023年近期目标,编制《天津市制造强市建设三年行动计划(2021——2023年)》和《天津市产业链高质量发展三年行动方案(2021——2023年)》。
按照一张张颇具纵深、全局性的“施工图”,天津胸中有丘壑,下笔如有神。天津市工业和信息化局党组成员、副局长任洪源告诉记者:“2021年,全市规模以上工业增加值增速达到8.2%,高于全市1.6个百分点,占全市GDP比重33.3%,其中制造业比重达24.1%,比上年提高2.3个百分点。高技术产业(制造业)增加值占规模以上工业增加值比重达到15.4%,比2016年底提升2.8个百分点。”
辛丑牛年,天津制造业立市的成效已初步显现。
手——扭住12条产业链核心抓手
实体经济是天津的优势,也是成就天津未来的根基。市十一次党代会以来,天津紧紧扭住产业链核心抓手,加快构建以智能科技产业为引领,以生物医药、新能源、新材料等新兴产业为重点,以装备制造、汽车、石油化工、航空航天等优势产业为支撑的“1+3+4”现代工业产业体系,推进全国先进制造研发基地建设,促进制造业高质量发展。
最近,一款保障机场、轨道交通和网络数据中心用电安全的远程数控装置在东丽临空经济区问世,凭借这一装置,用户如果遇到停电故障,可以在二十分之一秒内瞬间完成线路自动切换,并能精准识别故障点位。这一智能产品是东丽区航空航天领域两家企业精诚合作的结晶。
2020年,天津铁安智能科技有限公司(下称“铁安智能”)瞄准机场、轨道交通电力安全需求,着手开发供电线路智能化跟踪控制产品,但在高等级阻燃材料应用领域遇到了技术瓶颈,缺少破解难题的良策,仅材料粘接实验就做了两个月,经历了数十次失败,产品研发一筹莫展。就在同年,天津市航空航天人才创新创业联盟创立,包括铁安智能在内的120余家航空航天领域的企业加入联盟。借助这一人才对接、产业互补平台,铁安智能很快在联盟内寻觅到项目合作伙伴,双方找到了“互利、多赢”的利益共同点,产品研发和产业化进程驶入了快车道。
凭借技术先发优势,产品一经问世,便迅速占得市场先机,成功打入了深圳、重庆和天津多条地铁项目建设市场。铁安智能总经理孙建欣告诉记者:“我们的研发时间从10个月缩短到了1个月左右,完美地解决了材料问题。如果没有联盟推荐的兄弟企业,我们可能会失去整个市场,时间不等人,市场不等人,项目也不等人。”展望未来,孙建欣信心满满,他说:“2022年,公司将会迎来新发展,预计产值可以达到2000万至3000万元。”
孙建欣对未来的信心其实得益于天津“链上抓人才”的决心。据了解,天津充分发挥十大产业人才创新创业联盟作用,引育领军型、技术型、应用型等人才队伍,对产业链人才底数进行全面摸底,提出产业链人才需求。各链累计组织人才对接会64次,引进各层次人才过万人。
“链上抓人才”只是天津围绕“1+3+4”现代工业产业体系,对优选的12条重点产业链,逐链固强补弱,推动产业链高质量发展的一个方面。天津还在链上抓推动、抓项目、抓企业、抓创新、抓园区、抓政策、抓复工复产等等。通过产业链一体串联、统筹推动,有力促进了产业链、创新链、人才链、资金链相互融合,工作成效显著。
“2021年,全市在链企业产值、增加值同比增长20.7%、9.6%,合计增速分别高于全市2.3、1.4个百分点。天津市推进产业链高质量发展的经验做法,获得国务院第八次大督查通报表扬。”杨冬梅说。
脚——迈出数字化转型步伐
当前全球制造业呈现产品数字化、制造智能化、服务网络化发展趋势。加快产业数字化改造,促进传统产业升级对解决传统制造业成本上升、效率提高相对缓慢等问题至关重要。为推动制造业高质量发展,天津高举智能科技产业大旗,迈出数字化转型步伐。
比如在深化推进智能制造方面,天津出政策、给支持,让不少企业在发展过程中从中受益。记者日前走访天津津航计算技术研究所、天津赛象科技股份有限公司等企业时,企业有关负责人都纷纷表示,在企业智能化转型发展过程中,天津在政策、资金等方面都给予了大力的支持。“优秀的营商环境更加坚定了我们的发展信心!”天津赛象科技股份有限公司副总经理王红军说。
大胆迈出转型的步伐,同时给企业以“津牌养分”,这让天津制造业智能化发展行稳致远。2021年,天津出台了《天津市促进智能制造发展条例》,成为全国首部智能制造领域的地方性法规;智能制造专项资金持续发力,累计支持7批共2795个项目,建成丹佛斯、海尔5G工厂、长荣科技等智能工厂和数字化车间200家,智能制造示范项目33个,智能制造新模式项目83个,智能制造成为制造业发展主引擎。同时,在信息基础设施方面,天津居于全国领先位置,全市建成5G基站4万个,家庭千兆光纤网络覆盖率等3项指标全国第一,宽带用户下载速率跃居全国第二,入选全国首批千兆城市;工业互联网加快建设,23个工业App入选工信部优秀解决方案,全国第一;全年软件和信息技术服务业营业收入2634亿元,同比增长15.2%。
此外,天津连续举办五届世界智能大会,用这个平台招商引资,“以会兴业”,累计签下合作协议563项,协议投资额达到4589亿元,360、紫光云、麒麟软件、TCL北方总部“新四大”总部企业成功落户天津……
而串联起这“头”、
“手”和“脚”的“躯干”,
就是千千万万个拼搏奋进、
干事创业的你我!
聚焦“制造业立市”,天津始终坚持高位谋划,通过一系列实打实的举措,持续做强优势产业链、加快高水平优质项目建设、推动数字赋能转型,助推全市经济高质量发展。
功崇惟志,业广惟勤。打开津门,头脑清晰,锚定前行的方向,天津之“立”就要靠勤劳的双手去创造奇迹,要靠灵动的步伐去跨越前行!https://t.cn/A66M0kta
进入新时代,面向新阶段,“十四五”开局之年,天津清晰嘹亮地吹响了“坚持制造业立市战略部署,切实夯牢制造业根基,加快建设制造强市”的进军号角。
天津作为共和国的“家有儿女”,她曾是创造过多个“第一”的学霸“小雪”。作为我国现代工业的发祥地、新中国工业的摇篮之一,制造业,一直是深埋在她肌体内的血脉和根基。而今,制造业也注定成为成就她未来的战略支撑。制造业立市,她到底是怎么立的?
头——顶层设计谋篇布局
凡事预则立,不预则废,坚持“制造业立市”战略,天津不打无准备之仗。围绕“制造业立市”,天津持续不断地细化“十四五”时期制造强市建设的具体举措。
阳春三月,天津市工业和信息化局研究室主任杨冬梅做客津云《打开“津门”话发展》节目时谈到:“制造业立市是天津‘十四五’时期实现高质量发展的必然选择和现实之举。在顶层设计方面,我们坚持远近结合、上下联动、统筹推进的规划体系,为制造业高质量发展谋篇布局。”
面向2035年长远发展,天津编制完成《天津市工业布局规划(2022——2035年)》;聚焦2025年中期目标,制定发布《天津市制造业高质量发展“十四五”规划》和10个专项规划;锚定2023年近期目标,编制《天津市制造强市建设三年行动计划(2021——2023年)》和《天津市产业链高质量发展三年行动方案(2021——2023年)》。
按照一张张颇具纵深、全局性的“施工图”,天津胸中有丘壑,下笔如有神。天津市工业和信息化局党组成员、副局长任洪源告诉记者:“2021年,全市规模以上工业增加值增速达到8.2%,高于全市1.6个百分点,占全市GDP比重33.3%,其中制造业比重达24.1%,比上年提高2.3个百分点。高技术产业(制造业)增加值占规模以上工业增加值比重达到15.4%,比2016年底提升2.8个百分点。”
辛丑牛年,天津制造业立市的成效已初步显现。
手——扭住12条产业链核心抓手
实体经济是天津的优势,也是成就天津未来的根基。市十一次党代会以来,天津紧紧扭住产业链核心抓手,加快构建以智能科技产业为引领,以生物医药、新能源、新材料等新兴产业为重点,以装备制造、汽车、石油化工、航空航天等优势产业为支撑的“1+3+4”现代工业产业体系,推进全国先进制造研发基地建设,促进制造业高质量发展。
最近,一款保障机场、轨道交通和网络数据中心用电安全的远程数控装置在东丽临空经济区问世,凭借这一装置,用户如果遇到停电故障,可以在二十分之一秒内瞬间完成线路自动切换,并能精准识别故障点位。这一智能产品是东丽区航空航天领域两家企业精诚合作的结晶。
2020年,天津铁安智能科技有限公司(下称“铁安智能”)瞄准机场、轨道交通电力安全需求,着手开发供电线路智能化跟踪控制产品,但在高等级阻燃材料应用领域遇到了技术瓶颈,缺少破解难题的良策,仅材料粘接实验就做了两个月,经历了数十次失败,产品研发一筹莫展。就在同年,天津市航空航天人才创新创业联盟创立,包括铁安智能在内的120余家航空航天领域的企业加入联盟。借助这一人才对接、产业互补平台,铁安智能很快在联盟内寻觅到项目合作伙伴,双方找到了“互利、多赢”的利益共同点,产品研发和产业化进程驶入了快车道。
凭借技术先发优势,产品一经问世,便迅速占得市场先机,成功打入了深圳、重庆和天津多条地铁项目建设市场。铁安智能总经理孙建欣告诉记者:“我们的研发时间从10个月缩短到了1个月左右,完美地解决了材料问题。如果没有联盟推荐的兄弟企业,我们可能会失去整个市场,时间不等人,市场不等人,项目也不等人。”展望未来,孙建欣信心满满,他说:“2022年,公司将会迎来新发展,预计产值可以达到2000万至3000万元。”
孙建欣对未来的信心其实得益于天津“链上抓人才”的决心。据了解,天津充分发挥十大产业人才创新创业联盟作用,引育领军型、技术型、应用型等人才队伍,对产业链人才底数进行全面摸底,提出产业链人才需求。各链累计组织人才对接会64次,引进各层次人才过万人。
“链上抓人才”只是天津围绕“1+3+4”现代工业产业体系,对优选的12条重点产业链,逐链固强补弱,推动产业链高质量发展的一个方面。天津还在链上抓推动、抓项目、抓企业、抓创新、抓园区、抓政策、抓复工复产等等。通过产业链一体串联、统筹推动,有力促进了产业链、创新链、人才链、资金链相互融合,工作成效显著。
“2021年,全市在链企业产值、增加值同比增长20.7%、9.6%,合计增速分别高于全市2.3、1.4个百分点。天津市推进产业链高质量发展的经验做法,获得国务院第八次大督查通报表扬。”杨冬梅说。
脚——迈出数字化转型步伐
当前全球制造业呈现产品数字化、制造智能化、服务网络化发展趋势。加快产业数字化改造,促进传统产业升级对解决传统制造业成本上升、效率提高相对缓慢等问题至关重要。为推动制造业高质量发展,天津高举智能科技产业大旗,迈出数字化转型步伐。
比如在深化推进智能制造方面,天津出政策、给支持,让不少企业在发展过程中从中受益。记者日前走访天津津航计算技术研究所、天津赛象科技股份有限公司等企业时,企业有关负责人都纷纷表示,在企业智能化转型发展过程中,天津在政策、资金等方面都给予了大力的支持。“优秀的营商环境更加坚定了我们的发展信心!”天津赛象科技股份有限公司副总经理王红军说。
大胆迈出转型的步伐,同时给企业以“津牌养分”,这让天津制造业智能化发展行稳致远。2021年,天津出台了《天津市促进智能制造发展条例》,成为全国首部智能制造领域的地方性法规;智能制造专项资金持续发力,累计支持7批共2795个项目,建成丹佛斯、海尔5G工厂、长荣科技等智能工厂和数字化车间200家,智能制造示范项目33个,智能制造新模式项目83个,智能制造成为制造业发展主引擎。同时,在信息基础设施方面,天津居于全国领先位置,全市建成5G基站4万个,家庭千兆光纤网络覆盖率等3项指标全国第一,宽带用户下载速率跃居全国第二,入选全国首批千兆城市;工业互联网加快建设,23个工业App入选工信部优秀解决方案,全国第一;全年软件和信息技术服务业营业收入2634亿元,同比增长15.2%。
此外,天津连续举办五届世界智能大会,用这个平台招商引资,“以会兴业”,累计签下合作协议563项,协议投资额达到4589亿元,360、紫光云、麒麟软件、TCL北方总部“新四大”总部企业成功落户天津……
而串联起这“头”、
“手”和“脚”的“躯干”,
就是千千万万个拼搏奋进、
干事创业的你我!
聚焦“制造业立市”,天津始终坚持高位谋划,通过一系列实打实的举措,持续做强优势产业链、加快高水平优质项目建设、推动数字赋能转型,助推全市经济高质量发展。
功崇惟志,业广惟勤。打开津门,头脑清晰,锚定前行的方向,天津之“立”就要靠勤劳的双手去创造奇迹,要靠灵动的步伐去跨越前行!https://t.cn/A66M0kta
#香山调试直播# 香山芯片调试目标完成!
记录一些流水账:
2021年6月22日,香山在RISC-V中国峰会上第一次亮相,这是当时公开的国际上性能最高的开源RISC-V处理器核设计,受到国内外的很多关注,如今在GitHub上已有近2500个Star,250多个Fork。虽然我们的报告是中文的,但却有不少英文报道,甚至还有来自俄罗斯的关注。可以说,香山成为国际上最受关注的开源芯片项目之一。
2021年7月15日,第一代香山“雁栖湖”流片。但接下来由于受到全球芯片产能影响,我们不得不经历漫长的等待期。因为许久没有回片后的消息,有一些关注香山的朋友发来小心翼翼的询问:“香山是不是流片失败了?”流片失败,就是指香山无法点亮,也就意味着它就是一块石头。
2022年1月20日,等待了整整半年,香山终于回片了。硬件调试存在很大不确定性,很可能1个bug就会需要耗上1-2个月才能解决。而硬件问题解决不了,软件调试就会受到影响。尽早发现硬件问题,此时的香山就如同刚从医院拿回来的一份尚未打开的检查报告——面对它心中充满忐忑,不知道结果是好是坏。如果要等春节假期结束后才能看报告,这个年我们会过得心里很不踏实。另外,还存在一个不确定性,就是疫情防控。前段时间北京出现疫情,导致不少同学无法回家。但另一方面,由于冬奥会、两会等一系列活动,如果其他地方出现疫情,也可能导致离京后一段时间内甚至整个2月不能返京,那就会再空耗一个月。
我们希望能尽早消除一些不确定性,否则过年心里也不踏实。时间,对于香山调试非常宝贵。于是,香山团队的多位小伙伴(徐易难、李作骏、王诲喆、勾凌睿、张紫飞、蔺嘉炜、李乾若、甄好)决定留在北京攻关调试,加上唐丹和我,组成了一支攻关调试小分队。其中有几位是因为老家疫情而留在了北京,也有本来就是北京人,除了这些这些线下的小伙伴,还有全国各地的老师和同学一起在线参与。
1月26日开始,采用香山枫叶红底色的主板陆续从深圳寄到北京。此前,1月22-24日,深圳团队的蔡晔老师、刘彤、何伟等已经在深圳焊好主板,完成了初步的调试,包括系统时钟、串口、Flash等,验证IO通路正确。
1月29日,调试攻坚战正式打响了。调试过程一开始出乎意料地顺利,虽然有些小曲折,但都很快解决。到1月30日,我们取得了不错的战果:
•CPU频率从24MHz切到1GHz;
•DDR4-2400初始化成功,并稳定运行;
•Linux正常启动进入Shell;
•CoreMark成功运行,5.3分,与仿真完全一致。
1月30日晚上,收到了中国科学院大学公共管理学院刘继安老师的消息,是她和博士后徐艳茹希望观摩香山调试。晚上9点,徐博士先来到了调试现场,拍了几张照片,然后便跟我们说,她春节也不能回去过年,希望能全程观摩香山的调试过程。我们觉得应该很快就可以结束调试了,便欣然答应。但任何事情都不要高兴太早!
1月31日,大年夜。就在我们认为可以“牛年事、牛年毕”,可以在牛年就能跑出SPEC CPU2006分值、初步完成调目标时,现实狠狠地打了我们的脸——在运行SPEC CPU2006时,DDR4-2400稳定性存在问题,会导致返回数据出现随机错误。DDR是芯片调试过程最麻烦的问题,看来我们终究还是要面对。
我们分头吃年夜饭。下午2点,唐丹老师回家和家人一起吃了顿年夜饭;下午4:30,唐老师又过来和我们一起吃了一顿年夜饭,然后回到调试作战室放松:春晚,PS5,瓜子……晚上7点,我再回家和家人又吃了一顿年夜饭。一个难忘的大年夜!
大年初一到初三,大家休息了三天。
初四,重新整装上阵。内存专家李作骏全力攻占DDR稳定性问题,其他人全力配合。全志D1-H项目负责人孙彦邦提到当时在全志时DDR调试也是难点,他推荐了在Linux下的memtester来测试内存。
初五,徐易难很快便在Linux下编译好memtester,并开始测试。初步测试访存确实不稳定,内存在作Bit Flipping时会出现8KB数据不正确。于是开始尝试修改CPU频率,1GHz提高到1.1GHz,1.26GHz,但都不稳定;那就给CPU降频,降到800MHz、600MHz,似乎访存稳定性好一些,但还是会随机出错。
唐丹老师查看DDR PHY手册,发现PHY和DIMM的VRef配置不同步,修改后稳定性得到改善,但memtester还是会出现随机访存出错,只是出现概率降低了。但是,哪怕概率再低,也不可接受——对于理论上1GHz频率下每秒可运行60亿条指令的香山来说,哪怕是亿分之一的随机出错概率,也意味着每秒会出现几十次访存数据错误,这是不可接受的。我们必须要把访存调稳定。
初六,大家继续尝试——修改DDR Trainimg参数,修改Linux启动时内存容量,改变DDR供电电压……始终无法消除DDR访存的随机出错问题。我们怀疑DDR信号完整性问题,希望看一下DDR信号的眼图。开始一通打电话借设备,我们借到了一台DDR逻辑分析仪。这这台设备和HMTT很像,也是插在DIMM槽,但它内部提供高频采样时钟,可以直接抓DDR访存数据信号。我们花了半天的时间研究如何使用,当搞清楚后,发现在DDR-2400配置下采不到预想的信号。晚上9点多,打电话给设备代理商,被告知这台设备采购时没有选支持2400的模块,现在还支持DDR-1600。燃起的希望又熄灭了。
初七,唐丹老师又开始打一轮电话,又向郝沁汾老师借来一台示波器。有人建议看一下电源是否稳定,波动幅度是否太大,可以换一下精密电源。唐老师、徐易难立刻开始测试电源稳定性,发现真的会出现上下60-80mV的波动。那时,看到这个几十毫伏的波动,似乎大家心里涌出一丝欣喜,希望这就是DDR访存不稳定的问题所在。唐丹马不停蹄地区采购精密电源,不幸的是在换电源后,我们使用最多、相对最稳定的一块板卡“牺牲”了——烧了!来不及难过,立刻又切换到另一块板卡开始测试起来。结果有点沮丧,换了精密电源后依然无法消除访存随机性问题。
李作骏通过对DDR信号进行仿真,发现DDR DQS信号的ODT参数设置存在问题,同时把所有的访存性能相关的参数调到最保守设置。大家又寄希望于这次DDR参数修改。
此时,于是另一条调试网卡的战线开始启动,由王诲喆担任主攻手:测试网卡时钟信号、调整GMAC频率,设置设备树,修改驱动——网卡很快就被识别出来了,能看到网卡能收包了,但是问题是不能发包。
初八,跑了一个晚上的memtester,连续运行了12个小时,只有一个访存出错。这次稳定性得到了极大的提高,但还没有彻底解决,运行SPEC CPU依然出错。这时,大家决定尝试一下将DDR降频到1600。DDR-1600配置下,李作骏又对DDR Training做了优化,调高了Refresh Burst数量,激动人心的时刻发生了——之前跑不过的SPEC CPU应用都能跑完了!DDR访存稳定性问题终于解决了!
从初八开始,勾凌睿便开始用SPEC CPU2006程序烤机,香山频率设置为1GHz,DDR设置为1600,连续几十个小时的运行,再也没有出现过错误了。当然,这并不是最终目标,我们知道DDR访存性能对整个香山芯片的性能至关重要,接下来我们还继续优化DDR性能。
另一条战线,王诲喆仍然在调试网卡。在香山上用tcpdump能看到从另一台机器发过来的网络包,对比发送端的wireshark,内容正确。但是发送始终存在问题,ping依然不通。
初九,跑了一天的SPEC CPU,再也没有出错了,大家开始期待香山的SPEC CPU 2006分值了。网卡调试那边,手动修改了mac地址后,香山能收到ping,但是发送依然有问题。
初十,在修复了一个串口驱动小问题后,终于得到SPEC CPU 2006分值了,香山在1GHz频率、DDR-1600配置下,分值为5.97。这个数字对于香山来说,是一个里程碑。但我们知道,这并不是香山的真实性能,因为这是把DDR-2400降频为DDR-1600后得到的结果,从数据来看,很多访存密集型应用性能受到了很大的影响。如果把DDR进一步优化,香山性能还将进一步提升。我们根据Roofline模型推演访存性能优化目标。
正月十二,王诲喆也终于将网卡调通,香山功能基本完备。有了网络,大家就可以远程访问香山了。
正月十五,李作骏对DDR-1600时序进行了初步优化,之前受DDR访存的应用性能得到了大幅提升,比如bzip2-liberty的运行时间从483s降到了265s。这也意味着SPEC CPU2006分值即使在DDR降频的情况下还可以有很大的提升。
至此,历时近3个星期的香山攻关调试取得了圆满成功。香山调试直播完毕。
衷心感谢所有关注和支持香山的朋友!后续我们仍然会向大家介绍香山后续的性能优化进展。
—————
图1:调试攻关任务清单完成!
图2:与DDR访存稳定性战斗
图3:稳定运行SPEC CPU2006程序
图4:网卡正常工作
图5:SPECCPU 2006分值与对应配置
图6:Roofline模型推演访存性能优化目标
图7-9:香山调试现场
记录一些流水账:
2021年6月22日,香山在RISC-V中国峰会上第一次亮相,这是当时公开的国际上性能最高的开源RISC-V处理器核设计,受到国内外的很多关注,如今在GitHub上已有近2500个Star,250多个Fork。虽然我们的报告是中文的,但却有不少英文报道,甚至还有来自俄罗斯的关注。可以说,香山成为国际上最受关注的开源芯片项目之一。
2021年7月15日,第一代香山“雁栖湖”流片。但接下来由于受到全球芯片产能影响,我们不得不经历漫长的等待期。因为许久没有回片后的消息,有一些关注香山的朋友发来小心翼翼的询问:“香山是不是流片失败了?”流片失败,就是指香山无法点亮,也就意味着它就是一块石头。
2022年1月20日,等待了整整半年,香山终于回片了。硬件调试存在很大不确定性,很可能1个bug就会需要耗上1-2个月才能解决。而硬件问题解决不了,软件调试就会受到影响。尽早发现硬件问题,此时的香山就如同刚从医院拿回来的一份尚未打开的检查报告——面对它心中充满忐忑,不知道结果是好是坏。如果要等春节假期结束后才能看报告,这个年我们会过得心里很不踏实。另外,还存在一个不确定性,就是疫情防控。前段时间北京出现疫情,导致不少同学无法回家。但另一方面,由于冬奥会、两会等一系列活动,如果其他地方出现疫情,也可能导致离京后一段时间内甚至整个2月不能返京,那就会再空耗一个月。
我们希望能尽早消除一些不确定性,否则过年心里也不踏实。时间,对于香山调试非常宝贵。于是,香山团队的多位小伙伴(徐易难、李作骏、王诲喆、勾凌睿、张紫飞、蔺嘉炜、李乾若、甄好)决定留在北京攻关调试,加上唐丹和我,组成了一支攻关调试小分队。其中有几位是因为老家疫情而留在了北京,也有本来就是北京人,除了这些这些线下的小伙伴,还有全国各地的老师和同学一起在线参与。
1月26日开始,采用香山枫叶红底色的主板陆续从深圳寄到北京。此前,1月22-24日,深圳团队的蔡晔老师、刘彤、何伟等已经在深圳焊好主板,完成了初步的调试,包括系统时钟、串口、Flash等,验证IO通路正确。
1月29日,调试攻坚战正式打响了。调试过程一开始出乎意料地顺利,虽然有些小曲折,但都很快解决。到1月30日,我们取得了不错的战果:
•CPU频率从24MHz切到1GHz;
•DDR4-2400初始化成功,并稳定运行;
•Linux正常启动进入Shell;
•CoreMark成功运行,5.3分,与仿真完全一致。
1月30日晚上,收到了中国科学院大学公共管理学院刘继安老师的消息,是她和博士后徐艳茹希望观摩香山调试。晚上9点,徐博士先来到了调试现场,拍了几张照片,然后便跟我们说,她春节也不能回去过年,希望能全程观摩香山的调试过程。我们觉得应该很快就可以结束调试了,便欣然答应。但任何事情都不要高兴太早!
1月31日,大年夜。就在我们认为可以“牛年事、牛年毕”,可以在牛年就能跑出SPEC CPU2006分值、初步完成调目标时,现实狠狠地打了我们的脸——在运行SPEC CPU2006时,DDR4-2400稳定性存在问题,会导致返回数据出现随机错误。DDR是芯片调试过程最麻烦的问题,看来我们终究还是要面对。
我们分头吃年夜饭。下午2点,唐丹老师回家和家人一起吃了顿年夜饭;下午4:30,唐老师又过来和我们一起吃了一顿年夜饭,然后回到调试作战室放松:春晚,PS5,瓜子……晚上7点,我再回家和家人又吃了一顿年夜饭。一个难忘的大年夜!
大年初一到初三,大家休息了三天。
初四,重新整装上阵。内存专家李作骏全力攻占DDR稳定性问题,其他人全力配合。全志D1-H项目负责人孙彦邦提到当时在全志时DDR调试也是难点,他推荐了在Linux下的memtester来测试内存。
初五,徐易难很快便在Linux下编译好memtester,并开始测试。初步测试访存确实不稳定,内存在作Bit Flipping时会出现8KB数据不正确。于是开始尝试修改CPU频率,1GHz提高到1.1GHz,1.26GHz,但都不稳定;那就给CPU降频,降到800MHz、600MHz,似乎访存稳定性好一些,但还是会随机出错。
唐丹老师查看DDR PHY手册,发现PHY和DIMM的VRef配置不同步,修改后稳定性得到改善,但memtester还是会出现随机访存出错,只是出现概率降低了。但是,哪怕概率再低,也不可接受——对于理论上1GHz频率下每秒可运行60亿条指令的香山来说,哪怕是亿分之一的随机出错概率,也意味着每秒会出现几十次访存数据错误,这是不可接受的。我们必须要把访存调稳定。
初六,大家继续尝试——修改DDR Trainimg参数,修改Linux启动时内存容量,改变DDR供电电压……始终无法消除DDR访存的随机出错问题。我们怀疑DDR信号完整性问题,希望看一下DDR信号的眼图。开始一通打电话借设备,我们借到了一台DDR逻辑分析仪。这这台设备和HMTT很像,也是插在DIMM槽,但它内部提供高频采样时钟,可以直接抓DDR访存数据信号。我们花了半天的时间研究如何使用,当搞清楚后,发现在DDR-2400配置下采不到预想的信号。晚上9点多,打电话给设备代理商,被告知这台设备采购时没有选支持2400的模块,现在还支持DDR-1600。燃起的希望又熄灭了。
初七,唐丹老师又开始打一轮电话,又向郝沁汾老师借来一台示波器。有人建议看一下电源是否稳定,波动幅度是否太大,可以换一下精密电源。唐老师、徐易难立刻开始测试电源稳定性,发现真的会出现上下60-80mV的波动。那时,看到这个几十毫伏的波动,似乎大家心里涌出一丝欣喜,希望这就是DDR访存不稳定的问题所在。唐丹马不停蹄地区采购精密电源,不幸的是在换电源后,我们使用最多、相对最稳定的一块板卡“牺牲”了——烧了!来不及难过,立刻又切换到另一块板卡开始测试起来。结果有点沮丧,换了精密电源后依然无法消除访存随机性问题。
李作骏通过对DDR信号进行仿真,发现DDR DQS信号的ODT参数设置存在问题,同时把所有的访存性能相关的参数调到最保守设置。大家又寄希望于这次DDR参数修改。
此时,于是另一条调试网卡的战线开始启动,由王诲喆担任主攻手:测试网卡时钟信号、调整GMAC频率,设置设备树,修改驱动——网卡很快就被识别出来了,能看到网卡能收包了,但是问题是不能发包。
初八,跑了一个晚上的memtester,连续运行了12个小时,只有一个访存出错。这次稳定性得到了极大的提高,但还没有彻底解决,运行SPEC CPU依然出错。这时,大家决定尝试一下将DDR降频到1600。DDR-1600配置下,李作骏又对DDR Training做了优化,调高了Refresh Burst数量,激动人心的时刻发生了——之前跑不过的SPEC CPU应用都能跑完了!DDR访存稳定性问题终于解决了!
从初八开始,勾凌睿便开始用SPEC CPU2006程序烤机,香山频率设置为1GHz,DDR设置为1600,连续几十个小时的运行,再也没有出现过错误了。当然,这并不是最终目标,我们知道DDR访存性能对整个香山芯片的性能至关重要,接下来我们还继续优化DDR性能。
另一条战线,王诲喆仍然在调试网卡。在香山上用tcpdump能看到从另一台机器发过来的网络包,对比发送端的wireshark,内容正确。但是发送始终存在问题,ping依然不通。
初九,跑了一天的SPEC CPU,再也没有出错了,大家开始期待香山的SPEC CPU 2006分值了。网卡调试那边,手动修改了mac地址后,香山能收到ping,但是发送依然有问题。
初十,在修复了一个串口驱动小问题后,终于得到SPEC CPU 2006分值了,香山在1GHz频率、DDR-1600配置下,分值为5.97。这个数字对于香山来说,是一个里程碑。但我们知道,这并不是香山的真实性能,因为这是把DDR-2400降频为DDR-1600后得到的结果,从数据来看,很多访存密集型应用性能受到了很大的影响。如果把DDR进一步优化,香山性能还将进一步提升。我们根据Roofline模型推演访存性能优化目标。
正月十二,王诲喆也终于将网卡调通,香山功能基本完备。有了网络,大家就可以远程访问香山了。
正月十五,李作骏对DDR-1600时序进行了初步优化,之前受DDR访存的应用性能得到了大幅提升,比如bzip2-liberty的运行时间从483s降到了265s。这也意味着SPEC CPU2006分值即使在DDR降频的情况下还可以有很大的提升。
至此,历时近3个星期的香山攻关调试取得了圆满成功。香山调试直播完毕。
衷心感谢所有关注和支持香山的朋友!后续我们仍然会向大家介绍香山后续的性能优化进展。
—————
图1:调试攻关任务清单完成!
图2:与DDR访存稳定性战斗
图3:稳定运行SPEC CPU2006程序
图4:网卡正常工作
图5:SPECCPU 2006分值与对应配置
图6:Roofline模型推演访存性能优化目标
图7-9:香山调试现场
辛丑牛年真的过得好幸福啊,除了读博的事情没搞定,想要的都得到了♀️
☑️练字一年,写了副作品赠予王姐()
☑️一家人整整齐齐又拍了新的全家福()
☑️第一篇文章终于发了()
☑️和老朋友保持联系()
☑️和男朋友度过了许多意义非凡的时刻()
壬寅虎年希望能健健康康,快乐科研
#日常[超话]# https://t.cn/R2WxQdu
☑️练字一年,写了副作品赠予王姐()
☑️一家人整整齐齐又拍了新的全家福()
☑️第一篇文章终于发了()
☑️和老朋友保持联系()
☑️和男朋友度过了许多意义非凡的时刻()
壬寅虎年希望能健健康康,快乐科研
#日常[超话]# https://t.cn/R2WxQdu
✋热门推荐