21世纪经济报道记者吴佳楠深圳报道
AI时代,Token正取代流量成为新度量衡。
英伟达CEO黄仁勋6月1日在GTC Taipei 2026大会上表示,从产业的角度来看,Token就是资产,Token已经成为获利的营收单位,因为它可以制造利润。这一论断预示着Token经济即将成为主流商业模式的深刻转变。
然而,伴随Token使用量的指数级增长,推理成本的高企已成为制约AI大规模落地的难题。在这一行业痛点面前,国产芯片企业如何破局?
位于深圳的墨芯人工智能,选择了一条技术独木桥,深入研发稀疏计算技术。这家由前英特尔、高通核心技术人员创办的公司,跳出传统堆算力的路径,转而通过算法与软硬协同的创新,从而实现算力的精准释放,在同等精度下大幅降低推理成本。
技术突破之外,墨芯的商业化步伐也在加速。今年下半年,该公司将推出面向智算中心和数据中心的高性能AI通用推理计算卡SparsePrime®,目标直指国产主流推理芯片市场,在精度不掉的前提下算力提升2到8倍,形成精度无损、算力翻倍的优势。
值得关注的是,近期,墨芯完成C轮融资,背后不乏国资背书,也有头部产业巨头的身影,成为金博会科创企业投融资落地的典型标杆案例。
2025年金博会期间,墨芯智能凭借硬核科创实力收获多家投资机构青睐,达成初步合作洽谈意向,2026年企业以千亿国资平台深创投被投企业身份再度参展,持续依托金博会产融生态蓄力成长。
墨芯人工智能市场副总裁郭威俊向21世纪经济报道记者表示,Token经济未来可能会成为一个作为主流的商业模式,公司正从单一的算力卡供应商,转型为全栈算力平台的解决方案服务商,真正把算力落地应用到具体行业中。
自研稀疏计算的硬核解法
据IDC预测,2028年推理工作负载占比将达到73%。随着各类智能体应用规模化铺开,将进一步推动算力需求向推理侧迁移。
与此同时,算力的商业模式正在发生变化,郭威俊指出,这种模式的转化会变得更为普惠化,从早年买通话时长,到买短信套餐,再到买流量包,接下来则是买Token的时代,近期,三大运营商已推出Token套餐。
但面对复杂任务时,Token消耗会呈指数级爆炸,意味着推理成本成为行业最大瓶颈。
面对这一痛点,业界各路解法各有侧重,有的靠算法优化,有的做软硬件适配,有人纯粹堆叠硬件性能。那么有没有一种技术,既能让AI算得更聪明,又能降低推理成本?
墨芯的选择是稀疏计算模式。过去传统AI芯片采用稠密计算模式,对矩阵中的所有参数进行运算,其中大量计算是在处理无效或冗余的数据,而稀疏计算通过算法预先识别,只对真正有效的参数进行计算,从而在同等硬件条件下大幅提升有效算力、降低能耗和成本。
这一技术路径的确定,源于创始人团队的深刻洞察。
公司创始人兼CEO王维是拥有超过15年经验的硅谷芯片专家,曾担任英特尔五代到十代CPU处理器的核心架构师,先后在高通和英特尔任职,主导及参与的芯片累计量产超50亿片。
联合创始人兼首席科学家严恩勖博士在机器学习领域深耕十余年,是神经网络动态稀疏算法的发明人,独创双稀疏算法,在同等硬件条件下可实现算力4到32倍的提升,为公司的技术路线提供了理论支撑。
联合创始人兼工程副总裁芦勇,曾在SK Hynix和Marvell等知名半导体公司任职,主导开发多款全球量产的SSD控制器芯片,精通硬件工程和产品落地。
稀疏计算的本质,是让计算从全量参数变为有效参数,在计算前完成动态分配,剔除模型中无效、非核心的计算元素,将计算任务,转化为高效、精准的稀疏计算任务,从而显著降低Token成本。
目前,墨芯已累计申请全球相关专利100余项,墨芯S30计算卡连续三次登顶MLPerfTM推理榜首,硬核技术实力得到了国际权威机构的验证。
(墨芯S30计算卡)
据郭威俊透露,公司第二代计算卡SparsePrime®预计将在年内正式推出。这款产品将基于多地千卡集群积累的真实负载数据设计,性能对标市面上主流的寒武纪、华为昇腾等国产推理卡。
这张二代卡的优势体现在三个维度。一是硬件层面,在算力、带宽、显存和互联上均为国内目前先进水平,支持800G/s互联通信技术,同时配套千卡、万卡集群及超节点产品同步推出;二是软件层面,自研高效Transformer算子,并与CUDA生态完成适配,客户即插即用,无需额外适配;三是算法层面,针对主流MoE模型和长下文场景做了专属稀疏量化优化,出厂即内置动静态稀疏算法。
其中最具差异化优势的是在广义稀疏技术上的突破,墨芯算力卡的灵活性和精度适配能力大幅领先,在同等算力、精度不掉的前提下,算力可实现2到8倍的提升。
郭威俊将这张卡的核心定位总结为精度无损、算力翻番,这张卡将基于多个算力中心千卡集群部署中积累的真实负载数据,进一步突破稀疏计算效率的天花板。
郭威俊认为,公司的核心壁垒不仅在于全球PCT专利布局,覆盖硬件、算法、软件各个维度,还在于把这一量产芯片做到了从算法落地到软硬协同,目前公司已与互联网、行业垂类、智算中心等多类标杆客户完成了多项场景适配,在生物信息学分析、政务、运营商等垂直领域需要的推理场景中,追求极致性价比。
据介绍,墨芯已在头部互联网公司、政务、安防识别、通讯运营商等领域实现实际落地,覆盖从大模型到小模型的多样行业需求。
做负责任的全栈算力服务商
有了技术壁垒,更加速了墨芯稀疏计算方案的商业化落地。
在生命科学与医疗健康领域,墨芯在生命科学、基因检测等领域已有明确项目交付,加速基因测序数据分析流程;在城市治理与智慧社区领域,墨芯与华北高校合作智慧社区项目,落地人脸表情识别、人体姿态识别等应用,实现对社区异常行为的实时智能监测与预警。
在智能制造与工业视觉领域,墨芯在电子制造、玩具工厂等场景落地安防CV项目,实现安全生产监控和产线异常识别等。在酒店文旅服务行业,公司与头部商旅酒店集团合作,探索稀疏计算在酒店智慧化管理和服务提质中的应用场景。
而聚焦金融行业的算力刚需,墨芯在国内极具影响力的综合性金融展会金博会上,重点展示S40、S40AC等全栈自研计算卡产品矩阵,覆盖从边缘轻量化部署到数据中心大规模推理的全场景需求,同时现场展出一系列成熟落地的智慧金融案例,直观呈现稀疏计算如何精准破解金融智能化转型痛点,成为现场行业机构与专业观众的关注焦点。
郭威俊坦言,金博会平台对于公司现阶段意义重大。“一方面,我们需要在投资人和金融市场领域保持活跃度和关注度;另一方面,我们也希望借由这个有国资背景和产业基金背景的平台,把技术理念更好地传播出去。”
目前,墨芯也成为金博会产业融资标杆案例之一,以高效绿色算力赋能金融科技创新,助力深圳建设全球金融科技中心。
值得注意的是,公司不仅专注于技术对行业的解决方案,更直接下场参与智算中心集群的建设与运营。
“行业的困境是什么?很多时候业内生产出一张卡,一扔给合作伙伴就结束了,没有售后,也不管算力的实际应用。”郭威俊一针见血指出了行业国产算力卡的最大痛点,究竟好不好用,能不能用才是GPU公司最应该要解决的问题和正视的行业难题
墨芯的选择路径由此清晰,从单纯的芯片供应商,转向全栈算力平台的解决方案服务商。公司与当地政府、算力中心合作,采用自有芯片部署数据中心,从售前适配到售后运维全链条打通。尽管这对于公司来说属于重资产模式,但让墨芯能够对公司产品负责任到底,真正解决国产算力能用、好用的问题。
从现实角度看,墨芯需要面对的是英伟达强大的CUDA生态以及华为昇腾、寒武纪等国产头部芯片厂商的激烈竞争,这一战略定位,让公司能用性价比和定制化能力赢得客户,再反哺芯片设计。
截至目前,墨芯已在西北、西南、华东、华北四大片区实现智算中心集群的战略性铺开。西北片区部署的千卡级推理集群,已在电子制造、消费品生产等场景落地多个工厂安防项目,于边缘侧实现实时AI分析;西南片区结合当地绿电资源,构建低功耗绿色算力池;华东片区则面向生信分析、医疗健康等高端服务业,与行业头部企业合作加速基因测序数据分析流程;华北片区赋能城市治理与社区智能化升级。
这种通过稀疏计算、软硬件协同和集群解决方案为一体的业务模型,不断得到资本市场的认可。
近期,墨芯完成近十亿元C轮融资,本轮融资汇聚了深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等重磅产业资本及市场化机构,凯旋创投、华大松禾天使基金、创享投资、盛景嘉成等多家老股东共同参与。
他认为,公司能不断吸引国资背书和产业投资方的关键要素在于,公司技术发展路线的前瞻性、创始团队投身芯片研发的决心以及公司商业化成果不断落地,去年下半年到今年上半年,公司的出货量和销售额稳步增长,订单落地切实有效。
据介绍,本轮融资募得资金将主要用于二代卡及后续产品的研发迭代、供应链升级和人才吸引。
郭威俊认为,芯片是中国工业链里最烧钱的领域之一,资金必须投入到更高维度的技术迭代中去,而墨芯也要做好垂直领域的定制化和商业化,带来正向现金流,为芯片研发提供资金补充,同时用下游客户真实的声音来反哺研发。

