21世纪经济报道记者董静怡
三年前,衡量一家AI公司实力的标尺还是“你囤了多少张H100”。彼时,训练大模型被视为AI的核心叙事,大厂不惜以百亿计的资金追逐英伟达的高端GPU,把算力军备当作通往AGI的唯一门票。
但到了2026年,AI算力的叙事换了剧本。
智能体(Agent)正在取代对话模型成为主流交互形态。联想集团董事长兼CEO杨元庆在今年5月的业绩发布会上指出,当前约70%-80%的AI算力用于训练,20%-30%用于推理,但是,“未来这一趋势会倒过来,用于推理的AI算力将占到70%以上”。
过去多年,中国AI产业付出高昂代价构建了一条以英伟达高端GPU为核心的训练体系。这条体系稳健、高效,但也脆弱——它不仅受制于出口管制,还把中国AI的底层基础设施押在了一个可能被限制的供应来源上。
而推理的算力逻辑与训练截然不同。推理不要求单卡算力登顶,它要的是成本、能效和规模化部署的可能性。这些需求,恰好是国内AI芯片厂商苦等多年的突围窗口。
推理吞噬算力
回顾过去几年的算力竞赛,一张简图足以概括:英伟达一家独大,占据全球AI训练芯片80%-90%的市场份额,AMD在第二梯队追赶,其余厂商更多在夹缝中求生。
训练追求的是一次性的算力密度。大模型参数量每增长一个数量级,对算力的需求就增长一个数量级。OpenAI训练GPT-4消耗的算力以千亿Token计,需要成千上万张GPU在高速互联的集群中协同运转数周乃至数月。
“大模型的预训练已经是万卡、十万卡级,除了英伟达卡之外,我们没有看到特别好的。”有芯片厂商相关人士向21世纪经济报道记者表示。
除了硬件的代差,更大的挑战是整个开发者生态的断崖。英伟达凭借CUDA生态构筑了几乎垄断的护城河,上述行业人士向记者表示,过去90%以上的AI工作都是在英伟达体系下完成的。
不过,随着大模型走向规模化应用,算力的主战场正从集中式训练,转向长期、大规模运行的推理场景。TrendForce的数据显示,北美五大CSP在2026年的AI训练算力预计增长56%,而推理算力将暴增122%,后者增速是前者的两倍以上。
中国市场的节奏更为陡峭。IDC数据显示,2025年上半年中国AI IaaS整体市场同比增长122.4%,规模达198.7亿元。其中,推理场景在上半年GenAI IaaS市场中占比已达42%。IDC预测,到2029年,推理算力占比将接近八成。
与训练不同,推理更高频、更实时、更分散,也更难预测,每次应用调用都产生成本,且这个消耗呈线性累加。据分析,推理成本在AI系统全生命周期中占比可达80%至90%。这对芯片提出了全新的要求:峰值算力之外,更看重吞吐能力、能效比和成本控制。
面对这一趋势,全球头部厂商早已开始调整航向。去年初,英伟达正式发布Blackwell Ultra架构,将推理优化放在了最优先的位置。随后,英伟达斥资200亿美元与Groq合作,看中的正是后者专为推理而设计的LPU(语言处理单元)。
在GTC 2026上,黄仁勋进一步将AI芯片的战略重心从训练推向推理,提出了“Token工厂经济学”的概念,将数据中心重新定义为生产Token的工厂,每瓦性能、每瓦Token吞吐量成为衡量竞争力的终极标准。
AMD紧随其后。AMD于2025年6月发布了MI350系列,宣称推理性能比上一代提升35倍。同时AMD还推出了Radeon AI PRO R9700工作站GPU,专攻本地AI推理场景。两条路线并行,一条走大规模数据中心推理,一条走边缘推理。
除了芯片龙头,科技大厂自研芯片也加入这个浪潮之中。谷歌发布的第八代TPU,首次按训练和推理拆分架构——TPU 8t负责训练,TPU 8i专攻推理。其中,TPU 8i重点优化内存配置与片内数据吞吐能力,其推理环节的性价比提升了近80%。
这些动态表明,推理正在从训练的下游环节,变成一个独立的、规模化的赛道。而这条赛道的竞争规则,与训练时代已截然不同。
正因如此,国产芯片开始冒头。
国产芯片“上桌”
在实际布局中,国内大厂正将英伟达的存量高端卡集中用于极少数超大模型的预训练,而在占据算力消耗80%以上的推理和微调环节,激进地引入国产算力。
这种算力策略之所以可行,根本原因在于推理环节对芯片的要求天然不同。推理任务更多强调的是单位能耗下的Token产出量、弹性伸缩能力和部署灵活性,而对算力与生态要求相对宽松。这恰恰给国产芯片创造了一个可以渐进切入、局部替代、逐步做大的窗口。
“我们观察到,国产芯片的定位越来越准确了,”炜烨智算董事长兼CEO周韡韡此前公开表示,“从最初盲目追求与国际高性能算力比肩,到现在在追求性能的同时也追求成本,并且取得了显著效果。”
IDC于2026年4月披露的数据显示,2025年中国市场AI加速卡总交付量达400万片,其中国产厂商交付165万片,市场份额一举跃升至41%。摩根士丹利预测,到2030年中国AI芯片市场规模将达到670亿美元,国产芯片有望满足约76%的市场需求。
与此同时,更多国产芯片公司借势突围。曦望董事长徐冰在采访中向21世纪经济报道记者表示,智能体、多模态交互、物理世界AI等复杂场景的落地,对推理算力提出了前所未有的要求。这些需求是高度多样化且尚未收敛的,这意味着没有一家公司能通吃所有场景。过去一年,多家国产推理芯片公司完成了大额融资,投资方既包括产业龙头,也有国资平台和硬科技风投。
不可否认的是,推理主导的算力时代正在为国产芯片搭建一个更公平的赛场,比拼的是系统级的技术选择、成本控制能力和持续优化的工程耐力。有分析认为,过去两年国产AI芯片市场份额的快速提升,很大程度上来自推理侧的规模化部署。
在整个生态上,国产芯片厂商也在与互联网厂商深度合作、针对特定需求定制化优化,Minimax、智谱、DeepSeek均已宣布与华为昇腾、摩尔线程等国产芯片适配协作。国产模型的规模化部署,为国产芯片提供了海量的场景反馈。
当然,国产芯片在推理端的突围仍然面临两个根本挑战:一是芯片的通用性和生态兼容性。推理任务虽然对精度的容忍度更高,但企业对芯片的可编程性、框架兼容性仍有刚性要求。二是供应链的稳定性。尽管国产芯片在推理场景中可以绕开部分先进制程的限制,但HBM供应链、先进封装产线仍高度依赖海外。
但推理时代毕竟提供了一个“缓冲地带”。在这个地带里,技术差距被能效优势部分对冲,性能短板被成本优势部分补位,生态壁垒被国产模型的爆发式增长逐步瓦解。
如果国产芯片能在这个过程中证明自己的落地能力,那么从局部替代走向体系化突围,就不再是一个遥远的愿景。

