中兴通讯崔丽:AI应用触及产业深水区,价值闭环走向完备

21世纪经济报道 21财经APP  
骆轶琪   2025-12-30 18:06:06

21世纪经济报道记者骆轶琪深圳报道 

随着AI大模型快速发展,从基础设施到上层应用的演进正成为新一轮科技竞争的关键。

一种行业观点认为,基座大模型的数量未来将持续收敛至个位数左右,但围绕千行百业将衍生出诸多更为丰富的垂域模型与应用,那也将是本轮AI浪潮真正引发技术变革的关键所在。

其中,物理AI成为一种重要关注窗口,正加速推进具身智能、自动驾驶等领域演进,有望深刻改变未来社会的运行方式。但技术路线仍存分歧,法律、合规与伦理等软性基础尚在夯实。而进入“Agent元年”,让AI技术真正触及实体经济的“深水区”,仍有挑战需要克服。

中兴通讯首席发展官崔丽接受21世纪经济报道记者专访时,深入分析了物理AI的技术路线走向。据她观察,一些具体行业已经在真正借力AI,率先完成价值闭环。

(中兴通讯首席发展官崔丽,受访者供图)

物理AI之辩 

2025年初,Sora的横空出世因其高度还原物理世界的视频生成能力,引发关于“世界模型”的广泛讨论,也让物理AI的两条核心路线——世界模型与 VLA(视觉语言模型)的竞争浮出水面。

崔丽对记者分析道,Sora等模型的爆发,标志着AI正从单纯的“预测者”向“模拟者”进化,是从“数据驱动”到“模型仿真驱动”到“物理对齐”到“通用模拟”的范式转移,也是AI落地物理世界如自动驾驶、具身智能等必须解决的问题,即实现对物理世界进行模拟和互操作。

但她也指出,目前的Sora只是一个“视觉模拟器”,而非真正的“物理世界模型”。“真正的世界模型必须具备因果推理、反事实推演和物理一致性。Sora生成的视频虽然在视觉上极具欺骗性,但在物理逻辑上经常崩溃。”她补充道。

其原因有二:一方面,生成式模型本质上是学习像素分布的统计相关性,而非物理因果性,因此会常看到违背动量守恒或物体凭空消失的“物理幻觉”。另一方面,生成式模型侧重于“视觉渲染”,即生成给人看的像素,而机器人和自动驾驶需要的世界模型侧重于“状态预测”,即生成用于决策的物理状态,彼此间产生功能错位。

当前,世界模型的路线已分化成了“生成派”和“表征派”:Sora和李飞飞的Marble属于前者,技术本质是通过海量感官数据(视频)归纳世界规律的经验主义;“表征派”则是杨立昆的JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构),技术本质是通过构建内在结构(表征)推演世界状态的理性主义,强调通过模块化设计和自监督学习获取抽象表征。

由于其不同特点,相对来说,生成派适合做数据工厂或仿真训练;表征派适合做决策大脑,做实时推理。

而谈及应用于具身智能领域的VLA模型与世界模型,崔丽指出,这不仅是算法架构的竞争,更是关于“智能本质是直觉还是推理”的哲学探讨。

其中,VLA模型的核心理念是将机器人的控制问题转化为序列建模问题,最大的产业价值在于其零样本泛化能力,局限在于缺乏因果推理,且严格依赖训练数据覆盖度。

世界模型主张机器人应当先构建环境的内部模型,在潜在空间中进行数百万次的虚拟试错,这种方法使得机器人可以在极少真实交互的情况下学会复杂任务,样本效率远超VLA。

产业界正呈现出VLA与世界模型融合的趋势。”崔丽观察指出,比如利用VLA进行高层策略规划,利用世界模型进行底层动作验证。

但要让世界模型真正赋能“数实融合”场景,崔丽提到,还有尚未解决的三大难题。

首先,不仅发现相关性,还能理解因果性,掌握第一性原理。以通信网络为例,底层的信号波动受环境多径效应影响巨大,世界模型的使命是找到真正决定网络是否拥塞的核心规律。

其次,是构建从“读万卷书”到“行万里路”的模拟器,解决物理一致性问题。世界模型旨在通过海量视频数据预训练,在神经网络内部构建一套隐式的“物理引擎”,由此,就能在数字空间中低成本地试错和推演。

此外,产业界正面临数据枯竭与长尾困境。从自动驾驶场景为代表的数据驱动型AI来看,下一阶段竞争本质上是高质量合成数据的竞争。一个成熟的世界模型能够生成现实中难以捕捉的极端工况数据,为AI提供针对性“特训”。

崔丽预测,世界模型的落地时间表,大概会在2024-2025年实现视觉仿真;2026-2027年实现物理对齐;2028-2030年有望实现通用具身智能。

AI原生的催化

在AI技术加持下,网络架构也正从“云原生”向“AI原生”演变。

崔丽分析道,过去的十年,云原生成功解决了互联网应用面临的弹性伸缩和敏捷开发需求,互联网流量表现为“南北向”为主的特征,数据包小而离散,对时延抖动有一定容忍度,网络体现为“尽力而为”。

然而,大模型时代到来,不仅令流量规模增长,流量特征也专项分布式“同步计算”,这会带来“大象流”、丢包零容忍、微秒级时延敏感等特点,需要网络做到“万无一失”。

“网络架构必须向‘AI原生’演进,核心不再是资源虚拟化,而是极致的性能无损和算网协同,具备内生智能、确定性保障和算网一体等关键特征。”她总结道。

而在应用或操作系统层面,崔丽指出,云原生应用主要以K8S为底座,以微服务架构和微服务间通信为代表,AI原生应用主要以“大模型+Agent”为底座,以Agent及Agent间通信为代表。“云原生应用和AI原生应用会趋于融合,成为云智一体原生应用。”

据介绍,基于这种技术演进趋势,中兴通讯从2G时代开始推进硬件集成,3G时代的软件创新和硬件架构创新,4G时代逐步演进到芯片加整机的范式,5G则进化至芯片+整机+大模型的组装式研发范式。

“中兴通讯在技术、专利、标准等方面,也逐渐从2G、3G跟随,4G、5G参与到引领的转变。有线光通信、数通、光接入等发展路径也类似。此外,中兴通讯在IT领域和端侧也持续深耕,自研珠峰、定海、凌云等芯片,服务器、存储、数据中心交换机和数据中心等产品收入增速明显。”崔丽补充道。

在她看来,无论是CT、IT还是AI,核心都在于数据处理、交换和存储。通讯与AI有很多相似之处,都是复杂超大系统的高效协同,是跨多学科的复杂工程科学。

通讯涉及多个网元组成庞大的网络,AI需要芯片、服务器、存储、交换和数据中心组成高效绿色的基座。两者不仅需要局部最优,也需要芯片、硬件、软件、资源调度和应用等的全局优化,需要具备全栈的技术积累、工程实践和系统优化能力。

据悉,中兴通讯提供全栈全域的智算解决方案,支持软硬解耦、模型解耦和训推解耦,聚焦工程能力工具化,提升AI生产效率并提高易用性。

探索智能体元年

2025年被称为“Agent元年”,将有望推动千行百业更为彻底地转型,在进行内部流程再造的同时,也进一步提升价值空间。

对此,崔丽对记者分析道,人工智能技术正在从以“内容生成”为核心的Copilot辅助模式,向以“自主行动”为核心的Agent模式迈进,企业智能化的目标也正从单一环节的“效率提升”转向全价值链的“业务重构”。

然而,智能体从实验室原型走向企业核心生产系统的“最后一公里”依然充满挑战。

崔丽指出,在电信、金融、能源等高可靠性要求的行业,如何解决随机性模型与确定性业务之间的矛盾,如何确保长程任务的稳定性,以及如何构建可信的安全边界等,成为阻碍Agent规模化落地的核心挑战。

在核心业务中,AI“幻觉”是不可接受的风险,企业无法容忍一个“黑盒”在没有人类审核的情况下做出关键决策。

而由于上下文窗口限制,在处理跨天、跨周的复杂任务链时,模型容易出现记忆丢失或逻辑断裂,导致Agent开发的复杂度呈指数级增长。

此外,Agent的核心能力在于使用工具,即执行代码、调用API、操作数据库,这也会带来安全风险,比如工具调用可能带来沙箱逃逸、资源耗尽和数据泄露等。

“除了技术层面挑战,企业现有的IT环境是复杂的‘新旧混杂’体,存在接口标准化缺失、数据孤岛等问题,同时必须考虑推理和维护成本与ROI的平衡。”她补充道。

对于智能体应用,中兴通讯推出“Co-Sight智能体工厂”。崔丽指出,其带有鲜明的“CT级可靠性”基因,结合深度思考和反思,以及DAG(Directed Acyclic Graph,有向无环图)和COA(Chain of Agents)规划协同,实现推理能力跃迁,增强脑力,同时通过信息密度聚焦、工具封装等,支持分钟级智能体构建。

该方案通过引入冲突感知元验证CAMV(Conflict-Aware Meta-Verification)机制,设置独立的“找茬”Agent,基于约束条件对推理步骤进行攻击性验证,将确保决策可信;而采用基于结构化事实的可信推理TRSF(Trustworthy Reasoning with Structured Facts),建立共享事实模块,支持超长任务的“断点续做”。

此外,Co-Sight构建了严格的运行环境:一是受控沙箱,所有代码执行都在隔离的Docker容器或微虚拟机中进行;二是全链路审计,基于TRSF机制,Agent每一步推理、每一个工具调用都被记录并映射到具体的事实依据上;三是隐私保护,遵循中兴通讯2025隐私保护白皮书的标准,确保数据处理全生命周期的合规性。

当然还要注入行业“灵魂”,例如星云电信大模型,就在底座注入了电信级专业知识。同时为配合企业定制专属领域模型,应用开发平台还配置一系列自主工具。

在此基础上,采用“零部件车间(预置原子能力)+总装车间(可视化编排)”架构,降低开发门槛和成本,实现“用AI生产AI”。

据透露,自9月以来,Co-Sight 2.0在通用AI助手基准测试GAIA中连续三个月保持第一,在代表前沿知识的HLE评测中也连续两个月位居榜首。

“测评并非竞逐的终点,当然技术的价值在于应用。”崔丽以中兴通讯与中国移动的合作为例指出,双方联合验证了“点金行动”的31个高价值场景,结合图谱检索、强推理以及电信级多智能体协议,助力自智网络向L4+迈进。

深水区实践

基于“AI向实”的一系列探索,哪些行业能率先跨越概念验证,实现AI价值的规模化复制?产业间已经逐渐找到方向。

崔丽对记者总结了其中关键特征:信息密集、数据结构化程度高、具备强反馈机制、价值闭环极快(如视觉质检直接提升良率)、有一定容错度、具备一定范围泛化能力。

此外,智能化转型的基础是网络化和数字化,数字化转型较好的行业也更容易进行智能化转型。

从具体产业看,她指出,教育、医疗、软件开发、智能制造、城市治理等可能率先完成价值闭环。

比如制造业凭借其高度结构化的数据环境和明确的效率指标,成为AI价值变现的“排头兵”;城市治理则依托海量的多模态数据和迫切的公共安全需求,正在通过“城市智能体”模式实现从被动响应到主动预防的跨越。

而一旦这些具体行业的数智化转型进入“深水区”,也就意味着转型从外围辅助系统进入向核心生产系统渗透的关键阶段。

“在浅水区,AI主要用于容错率较高的办公自动化、简单问答机器人或离线数据分析;进入深水区意味着AI开始介入网络运营、电网调度、城市应急指挥等核心业务流。”崔丽指出,由此将面临更为复杂的局面:“三多”即多模态数据、多厂家设备、多业务场景;三新为新技术(大模型、Agent)、新架构(云边端协同)、新安全威胁;三跨则是跨领域知识融合、跨系统数据调用、跨组织流程协同。

技术路径上,在驱动各行各业融入AI发展过程中,此前曾出现“通用基础大模型+行业精调”或者从零开始构建行业专属小模型的不同路线。对此,崔丽指出,这将并非是“二选一”,而应采用“云边协同”的混合路径。

“通用基础大模型+行业精调”是构建企业“大脑”的最有效路径,它解决了认知层面的通用性与专业性矛盾,能以低成本继承通用逻辑能力,解决知识密集型任务。

从零构建行业专属小模型是构建企业“四肢”的可行方案,在非自然语言、极致边缘和极致隐私场景下不可或缺,它解决了感知与执行层面的效率、适配和安全问题。

她进一步说明,通用大模型是基于人类语言和互联网图像训练,面对工业领域的振动波谱、雷达信号、基因序列等“非自然语言”数据,通用模型的先验知识反而可能成为噪音。

此时,从零构建专用的各类CNN(卷积神经网络)或Transformer模型是必须的;对于极致时延和功耗场景,如在矿山无人驾驶卡车或高速贴片机上,推理时延必须控制在毫秒级,且算力受限于嵌入式芯片。此时,训练一个参数量在几百万到几亿的专用小模型,是唯一可行的方案。

面向对数据隐私和主权有极致要求的场景,例如金融或核心基础设施,虽然私有化微调可以解决部分问题,但为了确保模型内部没有任何潜在的偏见或后门,会选择完全物理隔离环境下的从零训练。

据悉,中兴通讯采用“1(通用底座)+N(领域增强)+X(场景微调)”策略,结合RAG技术,兼顾能力与成本。

“当然,需要注意AI本身已经在重塑软件工程,在一些创新领域,高效利用AI代码大模型试错,可以在一定程度上加速试错和降低成本。”崔丽补充道。

技术螺旋开启 

从物理AI的路线之争,到AI原生基建的迭代升级,从智能体的技术突破到产业深水区的实践探索,AI应用正告别“技术炫技”的初级阶段,迈入“价值落地”的关键时期。

这场变革的核心逻辑,是AI从“实验室里的高精尖”转变为“产业中的实用工具”,从“单一技术赋能”升级为“全链条生态协同”。

中兴通讯的实践给出了清晰启示:AI应用的成功,既需要底层基建的“硬支撑”,也需要场景落地的“巧方法”,更需要产业深耕的“真价值”。

归根结底,AI的宏大叙事终将归于无数具体场景中的细微胜利。

全站地图