AMD发布新一代AI芯片(如Instinct MI325X),在AI算力上挑战英伟达H200

AMD发布新一代AI芯片(如Instinct MI325X),在AI算力上挑战英伟达H200

AMD近日发布的Instinct MI325X AI芯片,凭借CDNA 3架构与256GB HBM3e内存的组合,在AI算力领域对英伟达H200发起有力挑战。这款芯片采用3nm制程工艺,集成1530亿晶体管,内存带宽达6TB/s,FP8精度下算力达2.6 PFLOPS,较H200的实测算力(约1 PFLOPS)提升30%。在Meta Llama 3.1 70B等大模型推理中,MI325X的延迟较H200降低20%-40%,Mixtral 8x7B模型吞吐量更是达到H200的1.4倍。

从硬件规格看,MI325X的内存容量(256GB vs 141GB)和带宽(6TB/s vs 4.8TB/s)分别实现1.8倍和1.3倍的提升,八卡系统总带宽达48TB/s,FP8算力聚合至20.8 PFLOPS。尽管H200在FP8精度下理论算力更高(3.958 PFLOPS),但实测中受限于稀疏计算优化,其有效算力仅与MI325X相当。在DeepSeek-R1 671B等超大规模模型测试中,H200凭借141GB HBM3e显存和4.8TB/s带宽,实现首token响应<3秒、高并发吞吐量稳定在1100+ tokens/s,而MI325X在Llama 2 70B测试中八卡配置达33,928 tokens/s,接近H200水平。

软件生态层面,AMD通过ROCm 6.2平台优化,在Hugging Face模型支持量、大模型数据吞吐延迟等方面显著改进,但英伟达CUDA的开发者锁定效应仍构成挑战。市场定位上,MI325X通过性价比和内存优势,在需要大内存的高参数模型场景中突围,而H200依托成熟生态和综合性能维持领先。随着AMD计划2025年推出CDNA 4架构的MI350系列(288GB HBM3e,FP8算力9.2 PFLOPS),以及英伟达Blackwell架构的持续演进,AI芯片市场的竞争正进入架构创新与生态布局的深水区。

本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
如对本稿件有异议或投诉,请联系 lin@sentgon.com
👍喜欢有价值的内容,就在 32度域 扎堆
(0)

猜你喜欢

发表回复

登录后才能评论