华为近日公布四款新一代昇腾AI芯片——950、950PR、960及970系列,计划于2026年至2028年陆续上市,这一布局标志着中国在高端AI芯片领域的技术突破与战略自主化进程迈入新阶段,核心目标是通过自主创新降低对国外高端芯片的依赖,构建“设计-仿真-制造”全链条智能化能力,重塑全球AI算力产业格局。
从技术路径看,四款芯片采用系统级创新突破单点性能瓶颈。昇腾950系列分PR(推理优化)和DT(训练专用)双型号:950PR于2026年第一季度首发,采用自研HBM内存“HiBL 1.0”(容量128GB/带宽1.6TB/s),支持FP8/MXFP8/HIF8等低精度计算格式,向量算力达1 PFLOPS,在MXFP4精度下可提升至2 PFLOPS,互联带宽为前代910C的2.5倍。950DT则于同年第四季度推出,搭载“HiZQ 2.0”内存(容量144GB/带宽4TB/s),重点优化推理解码与训练性能。昇腾960计划于2027年第四季度上市,算力、内存带宽及互联端口数翻倍,支持HiF4格式;970系列作为旗舰款将于2028年第四季度面世,实现4TB/s互联带宽、8PFLOPs FP4算力及更大内存容量,性能指标直指国际领先水平。系统级架构层面,华为通过“SuperPoD超节点”实现算力集群化:如Atlas 950 SuperPoD由15488张昇腾卡组成,总内存带宽1229TB/s,BF16精度下算力达300PFLOPS,超英伟达GB200 NVL72的2倍;采用全对等“灵衢2.0”互联协议,总带宽269TB/s,是NVLink方案的187倍,支持16万卡级联,扩展能力为英伟达单集群上限的8倍。这种“群计算”模式通过灵衢2.0降低通信延迟,结合弹性内存共享技术提升利用率50%,首Token时延降低80%,突破单芯片制程限制,实现从“单卡性能竞赛”向“集群效能协同”的范式转变。
产业影响方面,供应链自主可控成为核心支撑。芯片采用中芯国际7nm工艺,良率提升至40%-45%,月产能5万片12英寸晶圆,锁定70%产能需求。配套国产供应链全面突破:华大九天EDA工具覆盖90%模拟电路设计,上海新阳ArF光刻胶通过验证,长电科技Chiplet封装良率达98.5%。内存方面,自研HBM技术缓解“内存墙”问题,如HiBL 1.0/HiZQ 2.0实现低延迟数据流动,支撑大规模并行计算。软件生态层面,MindSpore框架适配160+第三方模型,CANN 8.0对CUDA代码迁移率达70%,开发者数量从120万增至500万目标。硬件生态则开放灵衢2.0协议,联合寒武纪、沐曦等国产厂商共建标准,推动异构平台互联互通。市场端,在数据中心、边缘计算、智能终端等多场景落地:智能交通监控支持40路1080P解码,功耗仅30W;医疗监护设备500ms内完成异常识别;中东NEOM智慧城市、东南亚“平衡中美依赖”的算力采购决策,均体现非美系标签的全球竞争力。国内市场方面,国产AI芯片渗透率从15%提升至30%,昇腾910C全年出货70万颗,DeepSeek等企业全面迁移;全球市场方面,算力成本较英伟达低35%,中小企业私有大模型部署门槛降60%,形成“性价比+自主可控”的双重优势。
战略价值层面,华为通过系统级创新应对外部挑战。在美国出口管制背景下,昇腾384超节点算力利用率从30%提升至45%,千亿参数MoE模型训练时间压缩至2个月。同时,利用稀土等反制筹码对冲断供风险,如钕铁硼出口管制,形成“技术+资源”双杠杆。长期来看,若2026年昇腾920实现“算力翻倍、能耗减半”,中国有望在AI算力领域实现全链路自主,重写“英伟达定律”。产业格局方面,国内市场形成“国产替代”加速态势,全球市场则通过非美系标签和成本优势,重构算力供应链格局,推动算力主权从“单点突破”向“系统协同”的范式转变。
挑战与展望并存:单卡能效仍需突破,如950DT FP8算力2PFLOPS对比英伟达Blackwell Ultra的15PFLOPS;生态成熟度方面,CUDA开发者400万与MindSpore 500万目标存在差距。但通过集群效能优化、国产化供应链完善及开放生态建设,华为已构建“设计-仿真-制造”全链条智能化能力,为国产芯片突围提供关键支撑。这一布局不仅推动半导体行业技术进步,更预示未来“设计-仿真-制造”全链条智能化的必然趋势,具有深远的产业意义与战略价值。