2023年以来,生成式AI以颠覆性力量重塑全球科技版图,美国凭借算力霸权和顶尖人才虹吸策略稳居主导地位。
然而,中国的崛起正打破这一格局:2024年中国生成式AI专利申请量超3.8万件,是美国的六倍,用户注册量突破6亿,彰显了技术积累与市场需求的深度融合。以深度求索(DeepSeek)为代表的中国企业,凭借混合专家模型和算法优化,仅以十分之一的算力成本实现GPT-4九成性能,其开源策略更吸引全球30余国开发者参与生态共建,迫使微软、谷歌紧急调整定价策略。
在生成式人工智能浪潮席卷全球的今天,算力堆砌与技术垄断的叙事逐渐被打破,取而代之的是一条更注重人才密度、算法创新与跨域协作的新路径。
“生成式人工智能已成为新的研究热潮,这一领域的发展关键在于人才的质量而非数量。”香港理工大学计算机及数学科学学院副院长(环球事务)及电子计算学系教授杨红霞在专访中对记者表示。
杨红霞教授是全球知名人工智能专家,研究领域涵盖认知智能、基础模型与专用模型的协同作用、大语言模型等,在通用人工智能技术发展方面有深入探索。在阿里巴巴达摩院期间,她曾带领团队开发了现在通义千问的前身——M6大模型,是M6大模型从百亿、千亿参数量进化到万亿规模的主要功臣。加入字节跳动后,主要负责豆包等大语言模型的研发。
杨红霞认为,目前美国AI发展理念仍然推崇“暴力算力”,即凭借其先进的芯片技术,直接通过缩放定律大规模提升算力。
在香港特区政府2025财政年度财政预算案中,为发展AI产业提出多项措施:预留10亿港元成立香港人工智能研发院,批准5个由香港本地大学、科研机构等牵头的项目,加速推动多个大模型相关研发工作。
对于“地少人贵”且算力资源有限的香港而言,杨红霞建议,应该借鉴DeepSeek和OpenAI的经验,以规模较小的团队中凝聚实现高效协作——“集中力量办大事”。
由此,杨红霞团队提出了协作式生成式AI(Co-GenAI)项目,帮助香港提升AI竞争力。通过让AI模型学习特定领域数据变得更专业的领域适应持续预训练系统、高级模型融合系统,以及节省资源的架构设计,充分利用香港数码港、科学园和深圳鹏城实验室等地的普通计算资源来开发AI,通过组合小模型的方式高效训练大模型,不再需要超大规模的集中计算资源。
杨红霞。资料图
从统计学走向人工智能
作为国内从事大语言模型的先行者,杨红霞在大学期间并不是出身计算机专业,而是统计专业。在南开大学统计系学习时,由于统计系隶属于数学学院,杨红霞本科阶段的课程以基础数学为主,这为她后来在统计和计算机应用的学习打下了坚实基础。
杨红霞坦言:“我强烈建议年轻学生在本科阶段认真学习这些看似艰深但至关重要的基础课程。我在完成数学学习后转向统计学,再进一步学习计算机相关应用时,确实感到得心应手,因为数学是最具挑战性的部分。”
在博士阶段,杨红霞远赴美国杜克大学统计科学系攻读博士学位,师从著名科学家、统计学最高奖“考普斯会长奖”得主戴维·邓森(David Dunson)。
杜克大学在贝叶斯统计领域处于全球领先地位,而杨红霞的博士论文正是聚焦于非参数贝叶斯方法在大规模问题中的应用,将统计学与机器学习相结合。
“我认为这一研究领域的延续性非常强,杜克大学的学术经历对我后来的职业发展提供了极大的帮助。”杨红霞认为,正是这些学术经历引领自己逐步走向了人工智能领域。
杜克大学毕业后,杨红霞加入了IBM全球研发中心担任研究员。随着当时互联网技术的兴起带来了数据量级的飞跃,互联网形成了“搜索、推荐和广告”为核心的技术,被这些技术深深吸引的杨红霞,又加入了位于硅谷的雅虎公司,担任首席数据科学家,专注于计算机广告。在回国后,杨红霞带着相关领域的深厚经验,再次加入了互联网大厂。
“回顾我的职业历程,每一步都在解决科技领域的核心问题,这让我对大模型和生成式人工智能有了更深刻的理论和实践理解。”杨红霞表示。
2024年,杨红霞从字节跳动离职后曾一度被传投身创业,但最终在当年7月,杨红霞加入了香港理工大学,任电子计算机学系教授。
谈及背后的原因,杨红霞表示,学校涵盖了众多学科。有利于开展跨学科研究合作,而在大厂中,这样的深度合作难以实现。
“他们目前所欠缺的,正是一个能够将大模型应用于实际的平台。因此,我认为这或许是一个绝佳的契合点,值得我们深入探索和挖掘。”杨红霞认为。
从模型融合探索AI破局之道
生成式AI市场正在迎来爆发性增长。
根据Omdia预测,2025年亚太区生成式AI市场规模将达到242亿美元,并将在2028年翻倍至584亿美元。这一增长主要得益于中国、日本、韩国等国家的技术投入与行业应用拓展。多家机构预测,中国生成式AI市场规模将在2025年突破千亿元人民币,未来五年内增长达5.5倍。其中,核心产业规模预计超1300亿元。
人工智能巨大的市场投入,未来对应的巨大的产业化方向在哪里?杨红霞认为,生成式人工智能下一个突破点,其实正蕴藏在大学顶尖的学科领域和跨学科的交互中。
杨红霞提出,通过模型融合(Model Fusion)技术,可以解决数据孤岛与隐私保护难题。
“与传统的中心化方式不同,我们无需将A、B、C背后的所有数据整合起来重新训练。”杨红霞表示,“因为,在理论上结合A、B、C数据是不可行的。例如,受隐私保护、数据安全等因素的制约。”
模型融合无需原始数据共享,只需要融合不同或者同一领域的专用模型参数,构建更全面的综合模型。例如,将肝胆癌与肺癌的独立模型融合,提升癌症诊疗的覆盖范围。而且,这一融合过程仅需少量GPU资源,适用于算力有限的中小企业与终端设备。
杨红霞透露,团队通过模型融合的方法,已经在推理和多模态等方面的能力上实现了对Llama3.2、通义千文Qwen1.5B等大模型的对标,甚至超越。
中国AI的竞争力不仅在于技术追赶,更在于场景落地的规模。从医疗领域到制造业,再到法律大模型缩短80%庭审时间,生成式AI已深度嵌入实体经济。
展望未来,杨红霞认为生成式AI在医疗、能源等领域的应用大有可为。特别是在粤港澳大湾区,不仅产业链完善,而且拥有规模宏大的算力中心,这些都为生成式人工智能领域优势互补实现深度合作提供了良好的基础条件。
杨红霞举例,南方电网作为行业龙头,拥有海量的数据,对该领域的知识理解也最为透彻,而团队正在推进的合作项目,正是在助力其构建自身领域大模型,有望实现对电网的智能化监控和管理,提高电网的运行效率和安全性,赋能企业主导自身的生成式人工智能变革。
“我们是做一个平台,这个平台可以助力他人得到自己的大模型,包括企业、科研机构等。我们真心希望,能够帮助各行各业建立自己的大模型。”杨红霞表示。
人才质量是AI发展关键
《21世纪》:您在2024年从字节跳动离职时,曾面临创业与学术的双重选择。最终促使您加入香港理工大学的关键因素是什么?可否分享一下这中间的故事?
杨红霞:我决定赴香港发展,家庭因素是一个重要的考量。毕竟,从香港搭乘飞机回到我的故乡大连,仅需短短三小时的航程,这让我能够兼顾家庭。
此外,香港作为国际化大都市,在吸引人才方面有着得天独厚的优势,凭借其独特的地理位置,香港在中国占据着举足轻重的地位。回溯深度学习蓬勃兴起的时期,香港便孕育了汤晓鸥、何恺明、杨强等一批在国际舞台上享有盛誉的科学家,并拥有多所在亚洲乃至全球排名领先的高等学府,充分印证了香港在顶尖人才培养方面具备坚实基础与高度潜力。
如今,生成式人工智能已成为新的研究热潮,这一领域的发展关键在于人才的质量而非数量。以DeepSeek团队为例,其成员虽仅百人左右,却展现出了非凡的创新能力;早期OpenAI在研发ChatGPT时,团队规模也不过两百人。这充分说明,人才水平才是推动科技发展的关键。
我坚信,香港在深度学习领域曾涌现出众多杰出人才,在生成式AI的新浪潮中,香港同样能够孕育出世界级的顶尖人才。
《21世纪》:您提出,人工智能的发展背后必须有行业的支撑。选择来到大学是否某种程度上离工业界更远了?
杨红霞:首先要明确的是,当前备受瞩目的生成式人工智能,能否为大型科技企业现有的成熟产品带来颠覆性的提升,这本身是一个巨大的未知数。互联网大厂的核心技术在于搜索、推荐和广告。基于我在大厂负责这些业务板块的经验,我可以很负责任地说,这些业务可能不太需要生成式人工智能。
那么,生成式人工智能未来的产业化大方向究竟何在?这是当前业界普遍关注的焦点。不少人提出,机器人领域或许蕴藏着巨大的潜力。这里所提及的机器人,并非局限于我们传统认知中的实体机器人,还可能包括虚拟机器人。例如在药物制造领域,上一代人工智能难以触及的复杂环节,如今是否可以利用生成式人工智能去设计、制造药物,甚至加速疫苗的研发进程。接下来这种巨大的产业化机遇,未必是大厂当前所聚焦的领域。
在人工智能领域,香港拥有众多顶尖人才,来到学校后,我们的首要任务就是发掘这些人才,为他们提供最优质的环境,助力他们成长为行业的佼佼者。
此外,学校还有一个独特的优势,就是合作的自由度极高,因为学校涵盖了众多学科。在大厂中,或许很难有机会与这些领域的专家学者展开深度合作,但在学校里,这种合作却能轻松实现。
生成式人工智能领域目前正在探寻下一个突破点,而这些突破点或许就隐藏在这些行业与学科的交汇融合之中。在大学里,你有机会与这些世界级的顶尖人才近距离接触,极有可能激发出创新的火花。而对于这些顶尖人才以及相关学科而言,他们目前所欠缺的,正是一个能够将大模型应用于实际的平台。因此,我认为这或许是一个绝佳的契合点,值得我们深入探索和挖掘。
香港应学习“集中力量办大事”
《21世纪》:您目前的研究团队的人数、组成结构和成员背景是怎样的?和其他AI开发团队有什么区别吗?
杨红霞:我们团队与其他团队相比,确实有显著区别。以OpenAI为例,他们目前对人才的吸引力极强,提供的薪酬待遇也极为优厚。而我们团队目前规模约三十余人,核心成员包括一群经验丰富的工程师,他们均出身于知名大厂,曾在一线从事大模型相关工作。
尽管如今他们的薪酬待遇相较于大厂有所降低,他们高度认同我们的研究方向,并对未来满怀期待。此外,团队中还有多位研究助理以及来港攻读博士的同学。我们对团队成员的背景要求极为严苛,选拔标准也相当高。
至于具体的选拔标准,首先我们要求应聘者必须毕业于顶尖高校,学历门槛相对较高。其次,应聘者的代码能力必须出类拔萃。正如DeepSeek招聘的都是奥赛金牌选手,我们对代码能力的要求同样严格。其三,我们可能还会要求应聘的同学与我们进行一段时间的远程合作。
因为在大模型研发领域,合作至关重要,必须集中力量才能办大事。这一点,在OpenAI和Google的竞争中得到了充分的体现。当OpenAI发布GPT-4时,Google在算力和人才数量上均远超OpenAI,但OpenAI仅凭200多人就取得了成功。
我深入研究了OpenAI那200多人的团队简历,发现他们成功的关键在于拥有卓越的领导者。这些领导者可以精准判断方向,带领团队共同前进。这200余人齐心协力,共同为一个目标而努力。这种团结一心、集中力量办大事的精神,正是我们团队所追求的核心价值。
对于香港而言,难以效仿字节跳动、阿里巴巴或Google,毕竟资源有限。我认为香港应该借鉴DeepSeek和OpenAI的经验,探索如何在规模较小的团队中凝聚实现高效协作,这才是我们取得成功的关键。
美国AI发展推崇“暴力算力”
《21世纪》:据您观察,中美AI的发展路径和方向有什么区别?中美AI之间的差距现在是否正在缩小?
杨红霞:首先,我认为中美在AI发展理念上存在着显著的差异。以Grok 3的发布为例,其宣称动用了20万张GPU卡,并着重强调了如此庞大的算力投入。在我看来,像埃隆·马斯克(Elon Musk)、山姆·奥尔特曼(Sam Altman)以及黄仁勋(Jensen Huang)等业界领袖,从某种角度而言,都可被视为“暴力算力”的推崇者。他们认为,这一轮生成式人工智能所取得的成就,关键在于直接扩展算力(Scaling Up),严格遵循缩放定律(Scaling Law)。
我们必须正视一个现实问题,即当前我们在芯片技术方面相对落后,这是一个不争的事实。不过,我坚信在未来3到5年内,我们有望在这一领域实现重大突破。即便在当前资源受限的情况下,像DeepSeek这样的项目已经做出了卓越示范,充分展现了在资源有限时,如何将人的主观能动性发挥到极致。我们也在这一方向上付出了诸多努力,并取得了一定的阶段性成果。
端云协同是未来的终极服务方式
《21世纪》:目前您的团队正在开发使用最低算力成本的小语言模型,可否介绍一下其最新的进展?和大语言模型相比,小语言模型有怎样的特点和优势?
杨红霞:其实,关于开发小语言模型这一构想,我早在2023年年中便已开始酝酿。在工业界多年的深耕经验让我深刻认识到,在搜索、推荐、广告这类大流量场景中,实时调用云上拥有1.6万亿参数的模型是切合实际的。如今,众多提供API服务的大厂大多陷入亏损境地,这已然成为一个不争的事实。
当时我们便在思索一个问题:当下所有的业务问题或科学问题,实则都聚焦于特定领域。那么,是否有可能在某一特定领域,打造出能够比ChatGPT更为出色的模型呢?我们认为这是可行的。但要实现这一目标,需满足两个至关重要的条件。其一,必须获取该领域海量的高质量数据;其二,必须启动预训练,以便将相关知识有效灌输到模型之中。
基于这一考量,我们当时将研发重点聚焦于参数规模在70亿至130亿之间的模型。鉴于字节跳动、阿里巴巴等企业的生态体系极为丰富,我们当时便发现,在某些特定领域超越ChatGPT并非难事。然而,小语言模型毕竟并非针对通用人工智能而设计,它存在一定的局限性。因此,我认为未来的终极服务模式应当是端云协同。具体而言,大约80%至90%的问题,小模型便足以胜任并提供良好的解答,而对于一些较为宽泛、涉及通识的问题,则可调用云上的大型模型来加以解决。
模型融合可打通数据壁垒
《21世纪》:您提出小模型在医疗、能源等高精尖领域的应用前景广阔,能否分享一些最近你的团队正在合作的案例?这些案例对推进AI垂直应用场景落地有哪些可借鉴的经验?
杨红霞:当下的大模型,我称之为普惠智能。然而,就目前而言,还没有大模型在特别关键的应用场景中实现落地。
而如今的互联网或许并非十分迫切需要生成式人工智能,除非其产品形态发生重大变革,而且这种变革不能仅仅局限于小的产品形态调整,而必须类似于智能手机所带来的产业链变革,是一场具有深远影响的产业变革。
上一代人工智能由于主要聚焦于表征,在某些领域的应用上存在明显局限性。但如今,生成式人工智能开辟了新的可能性。以医疗领域为例,我们已经与北京协和医院、浙江省肿瘤医院等展开了深入合作。我们致力于探索借助生成式人工智能,更快地发现癌症治疗的靶向点。癌症作为全球性的重大难题,即便是当今最顶尖的科学家,几个月能发现一个靶向点已属不易。但生成式人工智能拥有近乎无限的GPU资源,只要下游的测试模拟环境足够高效,它就有可能从数万个生成结果中快速筛选出有价值的信息。一旦找到精准的靶向点,癌症治疗或许就能取得重大突破。
另一个应用方向是个性化医疗。我们可将病人的所有病历信息输入模型,该模型不仅能够解读X光片,还能理解患者的血液样本以及其他众多物理指标。同时,由于模型学习了全球的医疗书籍和案例,它能够将最相关的案例直接纳入分析,从而为医生提供更好的建议。需要强调的是,人工智能并非要取代医生,它始终是一种辅助手段,医生才是最终的决策者。但在生成病例和案例时,模型可以为医生提供模板,标注出可能的关键词,如诱因和结果,从而加速整个诊疗流程。因此,我认为在医疗领域,生成式人工智能大有可为。
此外,实际上我们现在还有一项更为先进的技术——模型融合(model fusion)。简单而言,只要模型开放其检查点(checkpoint),或者我们在训练完模型后拥有其参数后,即可直接进行融合。而且,这种融合方式所需的GPU资源相对较少。与传统的中心化方式不同,我们无需将A、B、C背后的所有数据整合起来重新训练。
因为,在理论上结合A、B、C数据是不可行的。例如,受隐私保护、数据安全等因素的制约,医院之间的数据难以实现直接互通,这就导致医院间数据协同存在困难。但模型融合方式则无需打通原始数据,只需获取两个医院的模型,若一家医院专注于肝胆癌,另一家医院专注于肺癌,我们便可将其融合起来,或者将覆盖不同患者数据的同种癌症模型进行融合。
通过模型融合的方式,我们能够整合各方优势,得到一个更为全面的大模型。以当下众多开源模型为例,只要这些模型开放参数,我们就可直接将其融合,从而构建一个更强大的模型。
大湾区AI发展优势互补
《21世纪》:您认为粤港澳大湾区不同城市,如广州、深圳和香港等,在AI发展上有哪些各自的优势?这些城市如何在算法、算力、场景等方面进行互补合作?
杨红霞:香港在人才吸引力方面优势尤为显著。在上一代深度学习领域,香港已经汇聚了不少世界级顶尖人才。但是相对来说,香港地域相对狭小,人力成本高昂。在算力方面,若没有政府的资助,使用算力的平均价格更高。
与之形成互补的是,深圳、广州以及广东其他地区拥有完备成熟的产业链,如深圳的机器人产业在全国处于领先地位,并且拥有规模宏大的算力中心。
基于此,我认为各方可以充分发挥各自优势,开展深度合作。以能源领域为例,南方电网无疑是推动该行业变革的核心力量,因为他们拥有海量的数据,对该领域的知识理解也最为透彻。我们不可能去主导他们的变革,这是不切实际的。但目前,他们缺乏一个能够助力其构建自身领域大模型的有效平台,而这恰恰是我们所擅长的领域,也是我们致力推进的方向。