华为昇腾系列芯片保持年度一代的迭代节奏,计划在2026年推出Ascend 950PR(Q1)和Ascend 950DT(Q4)两款新芯片

华为昇腾系列芯片保持年度一代的迭代节奏,计划在2026年推出Ascend 950PR(Q1)和Ascend 950DT(Q4)两款新芯片

华为副董事长徐直军正式公布昇腾AI芯片未来三年迭代路线图,明确2026年将推出两款核心芯片——Ascend 950PR(第一季度)Ascend 950DT(第四季度)。这一规划不仅延续了华为“年度一代”的迭代节奏,更通过架构创新、超节点互联技术突破以及全栈生态协同,向全球AI算力市场发起新一轮冲击。

Ascend 950系列芯片基于华为自研的达芬奇架构升级版,在算力、能效与数据格式支持上实现质的飞跃。以Ascend 950PR为例,其采用华为首发的自研高带宽内存(HBM)技术HiBL 1.0,内存容量达128GB,带宽1.6TB/s,支持FP8/MXFP8/HiF8等低精度数据格式,FP8算力达1 PFLOPS(每秒千万亿次浮点运算),FP4算力更高达2 PFLOPS。这一设计显著提升了推理场景的吞吐效率,尤其针对大模型长文本生成(Prefill阶段)和推荐系统等高并发场景,性能较前代提升2.5倍。

Ascend 950DT则聚焦训练与推理解码(Decode阶段),搭载更先进的HiZQ 2.0 HBM技术,内存容量扩展至144GB,带宽提升至4TB/s,互联带宽达2TB/s。其FP4算力达16 EFLOPS(每秒百亿亿次浮点运算),可支持千亿参数级大模型的高效训练,单卡性能接近英伟达H100的80%,但通过超节点架构实现算力线性扩展后,整体集群性能将超越竞品。

面对美国制裁导致的先进制程受限,华为选择通过超节点架构突破单芯片性能瓶颈。徐直军在演讲中强调:“算力过去是、未来也将继续是人工智能的关键,而中国AI算力的突破需依赖系统级创新。”为此,华为推出新一代“灵衢”(UnifiedBus)互联协议,实现万卡级超节点的低时延、高可靠互联。

Atlas 950 SuperPoD超节点为例,其集成8192张Ascend 950DT卡,通过“灵衢”全光互联技术,单节点FP8算力达8 EFLOPS,互联带宽16 PB/s(相当于全球互联网总带宽的10倍以上),训练性能较前代提升17倍,推理性能提升26.5倍。更值得关注的是,华为同步规划了Atlas 950 SuperCluster集群,支持50万卡规模,FP8总算力达524 EFLOPS,计划于2026年第四季度上市,直接对标英伟达2027年发布的NVL576超节点(576张Rubin Ultra GPU)。

华为昇腾芯片的迭代不仅聚焦技术突破,更通过生态开放加速商业化落地。2025年8月,华为宣布全面开源CANN编译器、MindSpore AI框架及openPangu基础大模型,吸引全球开发者共建生态。截至2025年5月,昇腾开发者规模已突破665万,合作伙伴达8800余家,完成23900多个解决方案认证。

在市场层面,昇腾芯片已在国内政企、互联网、运营商等领域实现规模化应用。2026年第一季度,字节跳动、腾讯、百度等互联网巨头已签署Ascend 950PR的长期框架订单,首批交付将优先满足大模型训练与推荐系统需求。同时,华为计划在韩国、马来西亚等海外市场推出昇腾950数据中心解决方案,挑战英伟达的垄断地位。据韩国媒体报道,华为韩国分公司CEO王剑在“2025华为日”大会上宣布,昇腾950将提供“硬件+软件+服务”的一体化模式,直接对接三星电子、SK海力士等企业的算力需求。

尽管华为在超节点互联与生态建设上取得突破,但其仍面临两大挑战:一是先进制程工艺受限,单芯片算力与英伟达存在差距;二是CUDA生态的深厚壁垒需长期突破。对此,华为选择以“集群规模化”路线弥补短板,通过软件优化与系统级创新提升整体效率。例如,Ascend 950系列通过支持混合精度计算(FP8/FP4/FP16)和更细粒度的内存访问,将算力利用率提升至接近英伟达水平。

本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
如对本稿件有异议或投诉,请联系 lin@sentgon.com
👍喜欢有价值的内容,就在 32度域 扎堆
(0)

猜你喜欢

发表回复

登录后才能评论