华为昇腾系列芯片保持年度一代的迭代节奏，计划在2026年推出Ascend 950PR（Q1）和Ascend 950DT（Q4）两款新芯片

华为副董事长徐直军正式公布昇腾AI芯片未来三年迭代路线图，明确2026年将推出两款核心芯片——Ascend 950PR（第一季度）与Ascend 950DT（第四季度）。这一规划不仅延续了华为“年度一代”的迭代节奏，更通过架构创新、超节点互联技术突破以及全栈生态协同，向全球AI算力市场发起新一轮冲击。

Ascend 950系列芯片基于华为自研的达芬奇架构升级版，在算力、能效与数据格式支持上实现质的飞跃。以Ascend 950PR为例，其采用华为首发的自研高带宽内存（HBM）技术HiBL 1.0，内存容量达128GB，带宽1.6TB/s，支持FP8/MXFP8/HiF8等低精度数据格式，FP8算力达1 PFLOPS（每秒千万亿次浮点运算），FP4算力更高达2 PFLOPS。这一设计显著提升了推理场景的吞吐效率，尤其针对大模型长文本生成（Prefill阶段）和推荐系统等高并发场景，性能较前代提升2.5倍。

而Ascend 950DT则聚焦训练与推理解码（Decode阶段），搭载更先进的HiZQ 2.0 HBM技术，内存容量扩展至144GB，带宽提升至4TB/s，互联带宽达2TB/s。其FP4算力达16 EFLOPS（每秒百亿亿次浮点运算），可支持千亿参数级大模型的高效训练，单卡性能接近英伟达H100的80%，但通过超节点架构实现算力线性扩展后，整体集群性能将超越竞品。

面对美国制裁导致的先进制程受限，华为选择通过超节点架构突破单芯片性能瓶颈。徐直军在演讲中强调：“算力过去是、未来也将继续是人工智能的关键，而中国AI算力的突破需依赖系统级创新。”为此，华为推出新一代“灵衢”（UnifiedBus）互联协议，实现万卡级超节点的低时延、高可靠互联。

以Atlas 950 SuperPoD超节点为例，其集成8192张Ascend 950DT卡，通过“灵衢”全光互联技术，单节点FP8算力达8 EFLOPS，互联带宽16 PB/s（相当于全球互联网总带宽的10倍以上），训练性能较前代提升17倍，推理性能提升26.5倍。更值得关注的是，华为同步规划了Atlas 950 SuperCluster集群，支持50万卡规模，FP8总算力达524 EFLOPS，计划于2026年第四季度上市，直接对标英伟达2027年发布的NVL576超节点（576张Rubin Ultra GPU）。

华为昇腾芯片的迭代不仅聚焦技术突破，更通过生态开放加速商业化落地。2025年8月，华为宣布全面开源CANN编译器、MindSpore AI框架及openPangu基础大模型，吸引全球开发者共建生态。截至2025年5月，昇腾开发者规模已突破665万，合作伙伴达8800余家，完成23900多个解决方案认证。

在市场层面，昇腾芯片已在国内政企、互联网、运营商等领域实现规模化应用。2026年第一季度，字节跳动、腾讯、百度等互联网巨头已签署Ascend 950PR的长期框架订单，首批交付将优先满足大模型训练与推荐系统需求。同时，华为计划在韩国、马来西亚等海外市场推出昇腾950数据中心解决方案，挑战英伟达的垄断地位。据韩国媒体报道，华为韩国分公司CEO王剑在“2025华为日”大会上宣布，昇腾950将提供“硬件+软件+服务”的一体化模式，直接对接三星电子、SK海力士等企业的算力需求。

尽管华为在超节点互联与生态建设上取得突破，但其仍面临两大挑战：一是先进制程工艺受限，单芯片算力与英伟达存在差距；二是CUDA生态的深厚壁垒需长期突破。对此，华为选择以“集群规模化”路线弥补短板，通过软件优化与系统级创新提升整体效率。例如，Ascend 950系列通过支持混合精度计算（FP8/FP4/FP16）和更细粒度的内存访问，将算力利用率提升至接近英伟达水平。

本内容为作者独立观点，不代表32度域立场。未经允许不得转载，授权事宜请联系 business@sentgon.com
如对本稿件有异议或投诉，请联系 lin@sentgon.com

👍喜欢有价值的内容，就在 32度域扎堆