算力即服务时代:推理芯片如何成为新的“数字石油”?

算力即服务时代:推理芯片如何成为新的“数字石油”?

四月下旬,AI芯片领域掀起一阵波澜。资金实力雄厚的初创公司SambaNova Systems做出了一个重大战略调整,这一调整不仅改变了其自身的发展轨迹,也在整个AI芯片行业引发了广泛关注与深度思考。

SambaNova Systems自创立之初,便怀揣着为AI训练和推理提供统一架构的宏伟愿景,与众多同行一样,试图在这片充满机遇与挑战的蓝海中开拓属于自己的天地。但就在今年,这家公司毅然放弃了在训练领域的雄心壮志,直接裁员15%,计划将全部精力聚焦于AI推理。而且,在整个AI初创企业里面,SambaNova并非个例。

1.SambaNova的训练之路

回顾过往,2017年Groq还在大肆宣扬其训练性能,然而到了2022年,却完全将重心转向了推理基准。Cerebras CS-1最初主要服务于训练工作负载,但后续的CS-2及更新版本逐渐将重点转移至推理。SambaNova一度被视为第一代AI芯片初创公司中坚守训练领域的最后堡垒,如今这一局面也被打破。那么,究竟是什么原因促使这些初创公司纷纷从训练领域转向推理呢?

SambaNova Systems在其发展历程中,对训练领域给予了高度重视。公司不仅积极发布关于在其硬件上进行训练的技术文章,大肆吹嘘其训练性能,还在官方文档中深入探讨训练相关问题。这种对训练的执着,使得包括作者zach(2019年至2021年期间在SambaNova Systems工作)在内的众多分析师和外部观察家普遍认为,SambaNova凭借单芯片同时满足推理和训练市场需求,相较于竞争对手拥有独特优势。而Groq作为最早转向推理领域的初创公司之一,与SambaNova形成了鲜明对比。

为了实现高效的训练,SambaNova投入了大量的人力、物力和时间。以作者zach为例,在其任职期间,花费了大量精力为NAdam优化器实现内核。NAdam优化器作为一种基于动量的优化器,在训练大型神经网络方面发挥着关键作用。公司从硬件到软件功能,都围绕训练进行了精心设计和优化。内部和外部信息均表明,对训练的支持是SambaNova价值主张的核心组成部分。

2.三大诱因促使战略转型

AI技术的实际应用涵盖两大核心环节——训练(Training)与推理(Inference)。训练环节聚焦于利用海量数据构建复杂神经网络模型,以赋予其特定功能适配能力。这一过程对计算性能要求严苛,需具备处理大规模数据集的能力,并兼顾通用性,以确保模型能应对多样化场景。而推理环节则侧重于运用已训练成熟的模型,针对新输入数据展开快速运算,直接输出精准结果。

近年来,云端推理在算力分配中的占比持续攀升,成为AI技术落地应用规模扩张的重要标志。据IDC数据显示,2022年云端算力资源中,推理占比达58.5%,训练占比为41.5%。至2026年,推理算力占比预计将进一步升至62.2%,训练占比则降至37.8%。这一趋势充分印证,随着AI技术进入大规模落地应用的关键阶段,AI应用场景正加速拓展,人工智能模型逐步迈入全面投产新周期。

算力即服务时代:推理芯片如何成为新的“数字石油”?

所以,推理市场的巨大潜力是促使其战略转型的重要诱因之一。

推理算力作为AI技术实际应用的关键支撑,承担着利用训练模型对新数据进行实时处理与快速响应的重任。其算力需求与具体应用场景、用户规模及使用频次紧密相关,采用"云端训练,端侧推理"的协同模式——云端完成模型训练后,将模型部署至端侧设备(如智能手机、服务器等),由端侧设备依托模型实现实时推理运算。这种模式既充分发挥云端算力优势,又有效降低端侧设备响应延迟,提升用户体验。

2024年,推理算力需求呈现爆发式增长态势,尤其在生成式AI领域,其需求规模已远超训练算力。IDC预测,至2026年,中国智能算力规模将突破每秒十万亿亿次浮点运算(ZFLOPS),年复合增长率高达52.3%,这一增长主要由推理端需求释放驱动。在大模型应用场景中,推理算力需求已逐步超越训练算力,成为智能算力增长的核心引擎。

算力即服务时代:推理芯片如何成为新的“数字石油”?

2025年更被业界视为推理算力需求井喷的元年。以字节跳动豆包模型为例,截至2024年12月中旬,其日均token使用量已突破4万亿,较七个月前增长33倍。这一现象折射出AI技术在各行业渗透率的快速提升,以及由此引发的算力需求指数级增长。展望未来,随着OpenAI o1-preview等新一代模型的商业化落地,推理算力需求将进一步扩张,推动AI技术从垂直场景向全域应用深化发展。

从市场规模角度来看,人工智能推理市场被众多分析师视为具有十倍于训练市场的潜力。这一观点有着直观的逻辑支撑。通常情况下,模型只需训练一次,之后便可进行无数次的推理操作。尽管每次推理的成本远低于整个训练过程,但当对同一模型进行足够多次的推理时,推理成本将成为服务该模型的主要支出。

在未来的发展预期中,如果人工智能领域最终形成少数几个大型模型主导的局面,且每个模型都具备巨大的推理量,那么推理市场将远远超越训练市场。当然,也存在另一种可能性,即许多组织最终选择训练自己的定制模型,那么推理市场或许不会如预期般庞大。但即便如此,从技术层面分析,推理对于AI芯片初创公司而言,仍是一个相对更容易应对的市场。

第二个诱因是推理的技术优势。

在训练模型的过程中,需要运行大量的训练数据,在模型运行期间收集梯度信息,并利用这些梯度更新模型的权重,以实现模型的学习功能。然而,这一过程对内存的需求极高,因为需要缓存梯度以及其他值,如模型的激活值。为了高效进行训练,必须构建一个复杂的内存层次结构,涵盖片上SRAM、封装内HBM和片外DDR。

但AI初创公司在获取HBM以及将其集成到高性能系统方面面临诸多困难。许多AI芯片,如Groq和d-Matrix,由于缺乏高效训练大型模型所需的HBM或DDR容量及带宽,难以在训练领域取得突破。相比之下,推理过程则不存在这些问题。在推理过程中,无需存储梯度,激活函数使用后即可丢弃,这大大降低了推理工作负载的内存占用,也简化了仅用于推理的芯片所需的内存层次结构。

此外,芯片间联网也是训练过程中的一大挑战。训练过程中生成的梯度需要在所有参与训练的芯片上同步,这就要求构建一个庞大、复杂且全对全的网络。而推理属于前馈操作,每个芯片仅需与推理流水线中的下一个芯片通信。许多初创公司的AI芯片网络功能有限,难以满足训练所需的全连接性,但足以应对推理工作负载。

算力即服务时代:推理芯片如何成为新的“数字石油”?

第三个诱因是英伟达在训练领域的霸主地位。

自2012年AlexNet发布以来,英伟达凭借CUDA赋予GPU的多功能性,使其成为推理和训练领域的首选硬件。过去十年间,英伟达不仅专注于打造针对机器学习工作负载高度优化的芯片,还在内存和网络堆栈方面进行了持续优化,以支持大规模训练和推理。

英伟达硬件在每个芯片上配备了大量的HBM,能够轻松高效地缓存每个训练步骤生成的梯度更新。借助NVLink等纵向扩展技术和Infiniband等横向扩展技术,英伟达硬件可以处理在每个训练步骤完成后更新大型神经网络所有权重所需的全对全网络连接。而Groq和d-Matrix等专注于推理的竞争对手,由于缺乏与英伟达在训练领域竞争所需的内存和网络能力,难以对其构成实质性威胁。

尽管SambaNova芯片配备了HBM,并且在服务器级和机架级都拥有点对点网络,但在训练领域仍难以与英伟达抗衡。英伟达在低精度训练方面投入了大量精力,顶级人工智能实验室也针对英伟达低精度训练硬件的特定复杂性,对算法超参数进行了大量调整。从英伟达芯片转向SambaNova芯片进行训练,需要修改极其敏感的训练代码,以适应全新的硬件环境,这对于大型GPT - 4规模的模型而言,成本和风险都是巨大的。

3.竞争格局的变化

伴随生成式AI技术商业化浪潮席卷全球,中国推理算力市场正迎来爆发式增长。据IDC数据预测,2026年中国智能算力规模将突破每秒十万亿亿次浮点运算(ZFLOPS),年复合增长率达52.3%,其中推理算力需求占比预计超六成,成为驱动行业增长的核心引擎。

寒武纪作为国产智算芯片龙头,凭借“云边端一体”战略持续突破算力瓶颈。其最新发布的思元590芯片单卡算力已超越英伟达A100,集群性能达其80%,在字节跳动、阿里、腾讯等互联网大厂的测试中表现亮眼。公司董事长陈天石透露,下一代产品将采用双芯结构对标英伟达H100,性能有望实现翻倍提升。背靠中科院计算所的技术积淀,寒武纪通过三年超37亿元研发投入,构建起覆盖云端训练整机、边缘加速卡及终端IP的完整产品矩阵,2024年高算力产品已批量进入头部互联网厂商供应链。

算力即服务时代:推理芯片如何成为新的“数字石油”?

华为昇腾则依托全栈AI计算基础设施,打造“端边云”协同的场景化解决方案。其Atlas系列涵盖模块、板卡、服务器到集群的全形态产品,针对国家区域AI计算中心、城市智能中枢、视频分析等场景推出定制化方案。在深圳、武汉等地的国家AI计算中心项目中,昇腾集群以高能效比赋能产业集群智能化升级;而在金融、运营商领域,Atlas800训练服务器凭借CANN异构计算架构,实现千亿参数大模型在通用处理器上的稳定运行,打破海外技术垄断。

中科曙光依托中科院技术基因,构建起覆盖芯片、服务器、云计算的全产业链生态。子公司海光信息研发的DCU深算二号芯片,性能较首代产品提升超100%,在大数据、AI训练等场景实现商业化部署。其机架式、高密度及核心应用三类服务器,通过与Intel、AMD、龙芯等CPU的深度适配,在政府、金融、能源等领域形成差异化竞争力。2024年,曙光参股公司推出基于液冷技术的智算中心解决方案,PUE值低至1.1,为大规模推理集群提供绿色算力支撑。

市场格局的深刻变革亦催生新玩家入局。首都在线通过“全球云网融合+异构算力平台”战略,为元宇宙、车联网等行业提供存算网一体化渲染方案,其GPU云主机产品已服务数百家AI企业;浪潮信息则以“源2.0-M32”大模型为支点,推出兼容多元算力的开放加速服务器及超级AI交换机,实现推理网络性能1.6倍提升。

算力即服务时代:推理芯片如何成为新的“数字石油”?

行业分析人士指出,随着美国高端芯片出口限制升级,国产推理芯片正迎来历史性机遇。预计未来3-5年,高性价比的国产AI芯片将在推理端占据主导地位,2025年全球推理芯片市场规模有望突破600亿美元。在这场算力军备赛中,技术创新与生态协同能力将成为企业突围的关键。

从这个角度上看,我们再去看SambaNova Systems的战略转向,无疑是为整个AI芯片行业敲响了警钟。这一事件表明,即便一家AI芯片初创公司能够在内存和网络能力方面与英伟达展开竞争,也未必能在训练市场取得成功。若想在训练领域挑战英伟达的霸主地位,初创公司必须提供令人瞩目的训练性能,以克服市场对英伟达的依赖惯性。

然而,截至目前,尚未有任何一家公司能够实现这一目标。

从行业发展趋势来看,这一转变可能会导致更多的AI芯片初创公司将重心从训练转向推理。推理市场相对较低的技术门槛和巨大的市场潜力,对初创公司具有极大的吸引力。然而,这也可能引发推理市场的激烈竞争,导致产品同质化严重,利润空间受到挤压。

对于英伟达而言,其在训练领域的绝对主导地位短期内难以撼动。但这也并不意味着英伟达可以高枕无忧。随着技术的不断发展和市场需求的变化,推理市场的重要性日益凸显。英伟达若想在未来的AI芯片市场中保持领先地位,需要在推理领域加大投入,优化产品性能,以应对来自竞争对手的挑战。

SambaNova Systems的战略调整是AI芯片行业发展过程中的一个重要里程碑。它不仅反映了当前市场的竞争态势和技术发展趋势,也为行业内的其他公司提供了宝贵的经验和教训。在未来的发展中,AI芯片行业将面临更多的机遇和挑战,各公司需要不断调整战略,以适应市场的变化,实现可持续发展。

审校 | 童任

配图/封面来源 | 腾讯新闻库

编辑/出品 | 东针-知识频道(未经允许,禁止转载)

本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
如对本稿件有异议或投诉,请联系 lin@sentgon.com
👍喜欢有价值的内容,就在 32度域 扎堆
(0)
上一篇 2025年4月30日 23:21
下一篇 2025年5月6日 14:25

猜你喜欢

  • 芯片及半导体

    龙芯中科发布新一代服务器芯片

    龙芯中科近日正式发布基于国产自主指令集龙架构研发的服务器处理器龙芯3C6000系列芯片、工控领域及移动终端处理器龙芯2K3000/3B6000M芯片以及相关整机和解决方案。

    龙芯3C6000系列芯片采用自主指令系统龙架构,不需要国外授权,综合性能达到2023年市场主流产品水平。龙芯中科还基于3C6000芯片形成高性能自主服务器解决方案,可满足通算、智算、存储、工控、工作站等多场景的计算需求。

    此次发布的龙芯2K3000/3B6000M芯片面向终端和工控应用,同样采用自主指令系统龙架构。至此,龙芯形成了桌面、服务器和终端三条线路产品的完整系列,能够为不同领域提供高性能及高性价比的CPU(中央处理器)芯片产品。

    来源:人民日报

    本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
    如对本稿件有异议或投诉,请联系 lin@sentgon.com
    👍喜欢有价值的内容,就在 32度域 扎堆
    2025年7月1日
    000
  • AI人工智能

    DeepSeek-R1编程登顶引发算力供给思考

    2025 年 AI 上半场激战落幕!DeepSeek-R1(0528)凭编程实力突围,在国外最新排行榜中与国外大模型并列第一。当 AI 上半场的模型竞技尘埃落定,技术焦点正悄然转向算力基建。从 DeepSeek-R1 的编程突围到算力互联布局,行业逻辑已从单一模型比拼,转向算法创新与算力协同的深水区,下半场的竞争核心正聚焦于基础设施的落地与效能。

    本月,工信部正式印发《算力互联互通行动计划》,为构建高效协同的算力互联互通体系锚定方向。规划显示,2026 年将全力提升网络互通效能,建成多级调度平台实现算力供需的精准对接;到 2028 年,着力打造智能便捷的算力互联网,为人工智能、科学计算、智能制造等领域的创新发展注入强劲动能。

    国家主导公共算力“大网格”,第一线深耕私域算力“小网格”,二者构成对企业互补加持意义。算力互联网通过整合公共算力资源,解决资源利用率低、调度能力不足等问题,对多区域、行业层面数字经济高速发展形成普惠效益。

    在政策与技术的双重驱动下,算力基建的蓝图已清晰展开。从国家级的算力互联规划,到企业级的技术创新实践,一场从宏观布局到微观落地的变革正在上演。公共与私域算力 “网格” 的协同发力,正为行业发展开辟全新路径。

    比如,第一线DYXnet正在联合华为等伙伴构建的算力互联成果——AI原生超互联架构,对企业个性私域智算场景具备定制化价值。

    据了解,第一线依托AI原生超互联架构底盘,融合母公司AIDC、公有云伙伴(包括火山引擎、阿里云、华为云等)、OCD边缘算力云等云边端多梯次算力资源,并与合作伙伴进行产研侧创新,打造云安全等多方面安全服务能力,实现多主体、多架构算力安全调度,对接企业面向“私域”与“公域”各场景的AI训推需求。随着第一线与多算力生态伙伴联合携手,以及自身不断创新,未来将持续释放更大算力协同价值。

    依托云边端协同的 “专有 AI 算网”,第一线搭载集成多类型 AI 大模型的 AI MaaS 服务,为企业提供全流程、一站式的算力支持与模型服务。这一合作生态中,第一线与火山引擎、腾讯云合作伙伴持续迭代技术能力,通过优势互补实现协同增效,不断推出创新解决方案,推动服务效能跨越式提升,为企业数智化转型注入强劲生态动能。

    基于AI算网+大模型融合服务能力,第一线正积极与制造、教育等领域客户展开深度合作,提供从方案规划、开发工具支持到模型优化的全流程服务,助力企业搭建私域 AI 大模型应用体系。

    以制造业头部企业旭日国际集团为例,面对复杂网络环境、数据安全挑战及高昂的 AI 工具自研成本,第一线为其量身定制数智化解决方案。分阶段落地 ChatV AI 助手与 ChatBI 智慧数据系统,融合前沿 AI 大模型,实现高效智能交互。两项应用部署于第一线 OCD 边缘算力云,赋能智慧办公与商业决策。

    从政策驱动的算力基建顶层设计,到企业技术创新的实践探索,第一线通过构建算力生态与深化行业应用,为企业数智化转型提供了可复制的解决方案。未来,随着 AI 技术与算力基础设施的深度融合,这场由政策、企业与技术共同推动的变革,有望为各行业发展注入新动能,助力数字经济迈向更高质量发展阶段。

    免责声明:此文内容为本网站转载企业资讯,仅代表作者个人观点,与本网无关。所涉内容不构成投资、消费建议,仅供读者参考,并请自行核实相关内容。

    原文转自: 周口网

    本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
    如对本稿件有异议或投诉,请联系 lin@sentgon.com
    👍喜欢有价值的内容,就在 32度域 扎堆
    2025年6月27日
    000

发表回复

登录后才能评论