AI新场景②丨AI+医疗:数据已成核心驱动力,深度学习算法产品进入商业化阶段

21世纪经济报道 21财经APP 李润泽子
2022-12-06

南方财经全媒体记者李润泽子实习生杨婧文广州报道

编者按

“人工智能从你出生那天就认识你,读过你所有的电子邮件,听过你所有电话录音,知道你最爱的电影……”尤瓦尔·赫拉利在《未来简史》一书中描述了这样一种未来景况:人工智能比人类更了解自己。

步入人工智能时代,人类的生活习惯和生产方式正在被重塑,科幻和现实渗透,惊喜与担忧交加。人与机器的未来是一场亲密的合作还是激烈的战争?机器会将人类的智能拓展到什么样的边界?

深度赋能行业、落地场景是人工智能的“最后一公里”,AI前沿观察系列推出“新场景”稿件,探讨AI在具体应用场景下的现状与进展,难点与突破,前景与未来。本篇聚焦AI落地最早的行业之一——医疗。

电影《超能陆战队》里,大白(Baymax)是陪伴着主角小宏的私人健康顾问,它装载着一万多种医疗方案的数据,可以扫描生命指数,提供医疗帮助。

具备专业医疗知识的同时又有反差萌的大白实际上是经过了84次实验精心研发的医疗智能机器人。随着剧集的增加和剧情的推进,大白不断被赋予新的使命和任务,开发出新的功能。

在现实中,AI与医疗早已相遇,且融合不断加深。以计算机视觉、自然语言处理、机器学习等为代表的AI子技术已广泛渗透于医学影像、精准医疗、健康管理、医疗信息化、药物研发、医疗机器人等多样化场景中,成为行业发展的重要驱动力。

当前,在AI赋能之下,医疗转型之路开启,进入数据驱动新时代。然而,在我国医疗AI发展的同时,问题也逐渐显现,数据既是我国医疗AI的优势也成为了行业发展的痛点。

数据驱动医疗的时代来临

AI与医疗行业的结缘由来已久。1959年,在“人工智能”概念被正式确立后的第三年,美国乔治敦大学教授莱德利(Robert S. Ledley)便首次应用布尔代数和贝叶斯定理建立了计算机诊断的数学模型,并成功诊断了一组肺癌病例,开创了计算机辅助诊断的先河。

随着AI发展,20世纪60年代中后期,以模拟人类专家思维过程为特点的专家系统出现。医疗诊断正是一项典型的专家任务。因此,医学专家系统便成为应用较早、使用广泛、卓有成效的医疗AI技术。

1976年,世界首个用于血液感染病的诊断、治疗和咨询服务的医疗专家系统MYCIN诞生。1978年,北京中医医院关幼波教授研发出了我国第一个医学专家系统——关幼波肝病诊疗程序,由此打开了我国医疗AI研发的序幕。

此后三十年间,我国累计研发出上百个AI专家系统和开发工具,但几乎所有的技术和系统都还是“纸上谈兵”,真正能够为医生所接受且投入临床使用的医学专家系统少之又少。

进入21世纪,医疗数据信息化和复杂度不断提升,以数据驱动的研究和应用开始逐渐占据医疗AI的主流。

医疗正成为一门数据主导的行业。”在华南理工大学计算机学科学与工程学院教授、博士生导师蔡宏民看来,传统医学模式已受到AI影响产生变革,逐渐由依托经验的传统医学转向更为理性的循证医学。循证医学需要对表象和特征进行观察得出判断,因此需要数量庞大的观测样本数据。

他进一步解释,当前医疗数字化使得医疗数据积累速度加快,数据量激增。AI技术的革新,在海量数据的基础上,赋予了医疗更多可能性。

在我国,AI之于医疗的价值更直接的体现在了解决医疗资源的矛盾上。我国人口众多,老龄化趋势加快,医疗需求增大,但目前医疗资源有限,仍面临着需大于供的局面,亟需AI技术应用以解决供需矛盾。”中华医学会放射学分会主任委员、中国医学影像AI产学研用创新联盟理事长,上海长征医院影像医学与核医学科主任刘士远表示。

腾讯健康认为,AI数字技术能让医务工作者从一些重复性、低效工作中解放出来,提高医生工作效率。此外,优质医疗资源一般集中于发达城市的三甲大医院,存在分配不均衡的问题。AI的普及,尤其在基层医疗系统的下沉,能让优质医疗服务供给更加普惠。

其进一步分析表示,AI的训练过程实际上是计算机对人类医生最顶尖医学能力的一次总结和沉淀,通过数字化的部署,AI是有可能广泛下沉到基层医疗机构的,让人类医生的医学经验在基层发力,缓解优质医疗资源不均衡问题,这也是AI对医疗最有价值的地方。

面向AI的医疗数据治理

算法、算力和数据是AI的三大要素,AI以此为养料迭代发展。在这三者中数据尤其重要,因为相比于人类而言,AI的“大脑”训练需要更为大量的数据。

我国庞大的人口数量,及产生的大量医疗数据,无疑为医疗AI的发展提供了基础。

鹰瞳科技以其聚焦的视网膜影像向南方财经全媒体记者举例,中国的人口基数大,糖尿病、高血压、中风、心梗等疾病的患者众多,即便是一些罕见病和相对罕见的病灶也有相对可观的病例数据,比如视网膜母细胞瘤(Retinoblastoma, Rb),患病率大概在20万分之一,那么这些罕见病在一些国家可能只有几十例上百例,而在中国样本量会多得多,这就为算法模型的研究奠定了基础。另一方面,中国地域辽阔,有来自不同地区、民族和不同饮食习惯的人,这也使得获取的样本更多元化,给医疗AI的持续研发创新提供强有力的数据支撑

然而,在我国医疗领域,数据既是优势也是行业发展的痛点。

根据艾瑞咨询发布的《中国面向人工智能的数据治理行业研究报告》,医疗信息化建设支持了医疗数据的爆炸式增长,但是医疗数据在流通、共享、存储、管理等环节尚未标准化,导致数据多源异构难汇集、数据标准体系不健全等问题始终存在,掣肘着AI应用乃至行业的发展。

哈尔滨工业大学计算学部教授关毅也告诉南方财经全媒体记者,目前关于医疗数据的收集业内并无统一标准。医院住院病历是重要数据来源之一,这些数据需经过医生的审查和标注、医院的伦理审查和去隐私化处理后进行运用。但即便经过这些处理后,许多医院仍然对获取和利用医疗数据上有所限制,如电子病历数据不能离开医院等,影响了医疗AI相关科研工作的开展。

隐藏在医疗数据问题背后的或许是以医疗数据确权为代表的诸多难题。

蔡宏民解释,医疗数据面临权属界定难题,当前对其权利主体并无明确规定。此外,各方在使用医疗数据时还涉及到用户数据安全保护。“受制于各方利益诉求和隐私暴露风险,只能在相对封闭的环境中利用AI技术去做研发,这难以实现社会层面的使用和创新。

对于这个问题,此前中国政法大学互联网金融法律研究院院长李爱君对此就建议,国家主导构建国家级健康医疗大数据交易平台,授权企业进行运营,打造以区块链和隐私计算支撑的可信数据授权和可控计算环境,探索在保护数据处理相关主体的合法权益的前提下实现数据权利的权能的分离机制。开展健康医疗数据相关主体收益分配制度试点,完善健康医疗数据资产定价和收益分配激励机制,通过价值传导刺激整个链条活力。

此外,医疗数据标注耗时、质量差、专业性强等问题也同样突出。

对于上述难题,目前业界内大多则采用了合作模式。据了解,由于在大多数情况下,医院或者政府方并不具备单独处理、研究分析医疗数据的能力与精力,因此在实践中部分机构往往会与第三方展开合作。

据鹰瞳科技介绍,其就是通过研究合作及客户服务,建立了视网膜图像数据库。数据库中的数据均为真实世界用户视网膜影像及其相应的多模态数据,并由数百位医学专家双盲交叉标注。

腾讯健康则是借助自身的技术优势,通过“腾讯觅影开放实验平台”,打通从影像数据脱敏、接入、标注,到模型训练、测试、应用的全流程,构建起数据全生命周期管理闭环,为全行业提供标准化工具。

理性主义技术路线的最佳实验场

当前AI处于后深度学习时代,正在向理性主义技术路线回归,而结合深度学习技术和符号处理的推理技术,也已成为AI的新热点。

医疗领域,特别是疾病诊断,是一个临床推理的过程,即运用逻辑知识排除不确定性。因此,疾病诊断恰好成为这些技术的最佳应用领域,也是理性主义技术路线的最佳实验场。”关毅指出。

事实上,基于深度学习算法的医疗AI产品已经进入商业化阶段。《2022医疗AI行业报告:长期主义的坚持与守望医疗AI盈利破局》统计就显示,截至今年9月日已累计28家企业49款AI产品获得第三类医疗器械注册证,其中就包含总计29款搭载深度学习算法的软件。

在此之前,医疗AI算法审评审批也已逐步完善。2019年,国家药监局便发布了一份长达41页的《深度学习辅助决策医疗器械软件审评要点》,为该领域医疗器械软件审评和注册申报提供参考依据。

今年3月,国家药监局发布了《人工智能医疗器械注册审查指导原则》(下称《指导原则》)。这一最新文件也对人工智能审批适用的算法进行了完善,在深度学习的基础上加上了迁移学习、集成学习、联邦学习、强化学习、生成对抗网络、自适应学习。

值得注意的是,《指导原则》从可解释性的角度将医疗AI所使用的算法分为了白盒算法和黑盒算法。同时,《指导原则》明确人工智能算法作为人工智能医疗器械的核心,其设计主要考虑算法选择、算法训练、算法性能评估等要求。

但在蔡宏民看来,目前AI技术应用于医疗领域虽然确实存在可解释性低的弊端,但可解释性低不限制医学研究或者临床诊断。在实践中只要可以通过回顾性的方式验证即可。

“从临床的角度来讲,只需AI做出的判断与医生相吻合即可,过程的重要性并不高。”蔡宏民说。