AMD在加州圣何塞举办的“Advancing AI 2025”大会上正式推出Instinct MI350系列AI加速器,包含MI350X(风冷)与MI355X(液冷)两款型号。这款基于CDNA 4架构的芯片采用台积电3nm工艺,集成1850亿晶体管,配备288GB HBM3E内存,带宽达8TB/s,其技术规格与市场定位均展现出AMD在AI芯片领域的强劲攻势。
MI350系列的核心突破在于支持FP4/FP6低精度计算。在FP4精度下,单卡峰值算力达20PFLOPS,8卡并联系统更可实现2.57EFLOPS的算力输出。这一设计使MI350X在运行Llama 3.1 405B模型时,推理性能较前代MI300X提升35倍,DeepSeek R1模型的推理速度也达到3倍提升。MI355X作为旗舰型号,功耗达1400W,搭配液冷系统,针对高密度计算环境优化,其FP64性能较竞品接近翻倍。
在内存配置上,MI350系列同样表现出色。288GB HBM3E内存容量为NVIDIA B200的1.6倍,配合8TB/s的带宽,可支持单GPU运行5200亿参数的大型模型。在DeepSeek-R1任务中,MI355X每秒生成的tokens比B200多20%-30%,且每美元算力成本效益高出40%。
市场定位方面,MI350系列瞄准AI训练与推理两大核心场景。在训练场景中,其大带宽与GPU间互联性能可高效处理千亿级参数模型;在推理场景中,FP4/FP6低精度计算显著降低功耗与部署成本。AMD通过“基于价值的销售”模式,强调系统总效能与成本的均衡,而非单纯追求峰值性能。例如,MI350系列兼容NVIDIA HGX平台,支持64-128颗GPU横向扩展,可构建36TB共享显存池,满足超大规模集群需求。
为增强生态竞争力,AMD同步推出ROCm 7软件栈,集成VLM、SGLang等开源框架,支持180万+Hugging Face模型。此外,AMD还展示了端到端开放式机柜级AI基础设施,集成MI350系列加速器、第五代EPYC处理器及Pensando Pollara网卡,该方案已在Oracle Cloud Infrastructure部署,2025年下半年全面上市。
客户反馈与行业反响亦验证了MI350系列的市场潜力。微软、Meta、xAI等企业已表达合作意向,OpenAI CEO奥特曼更现身发布会,透露参与MI400系列联合研发。尽管面临NVIDIA在软件生态(如CUDA)的竞争压力,AMD通过性价比优势与开放策略,正逐步赢得市场份额。例如,MI355X每美元可生成tokens量较B200多40%,这一数据对成本敏感型客户极具吸引力。
AMD计划于2026年推出MI400系列,由AMD与OpenAI联合研发,采用HBM4内存(432GB,带宽19.6TB/s),FP4算力达40PFLOPS。配套Helios机架可集成72颗GPU,算力达2.9EFLOPs,进一步强化AMD在超大规模AI训练领域的布局。