查看原文
其他

平安首席医疗科学家谢国彤:两大基础平台与四大算法领域,详解金融巨头的医疗科技版图 | CCF-GAIR 2020

谢佳慧、李雨晨 医健AI掘金志 2022-05-04


如何定义和评价平安集团在医疗科技层面的未来

编者按:2020 年 8 月 7 日,全球人工智能和机器人峰会(CCF-GAIR 2020)正式开幕。CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。从 2016 年的学产结合,2017 年的产业落地,2018 年的垂直细分,2019 年的人工智能 40 周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。在8月9日的医疗科技专场上,来自平安集团的首席医疗科学家谢国彤先生以《用人工智能重塑医疗:平安医疗科技的实践和探索》为题,分享了平安集团在医疗领域的深刻认知和实践。谢国彤博士认为,所有AI都无非四个要素:数据、算力、算法和应用。在这四个要素下面,平安共研发了2个基础平台和4个医疗AI算法领域,以支持医疗的各种分析和推理,目前有1.6万家医疗机构,43万医生在使用。两个基础平台主要是赛飞AI平台(算力)和医疗五大库及知识图谱(数据)。谢国彤表示,医疗五大库及知识图谱,首先是从数据端出发,分四步去解决数据处理难题:第一,去掉噪音,补全数据,提升数据输入质量;第二,结构化,通过数据和文本抽取,实现数据可用;第三,标准化,把不同来源的医疗数据名称统一;第四,利用算法挖掘疾病的风险因子或者治疗方法。而赛飞AI平台则主要是通过AI平台化战略,解决AI产品算力和落地的基础性问题。谢国彤说到,平台的目的就是让医疗数据科学家专注在自己领域内,由平台去完成AI通用算法、智能标注、分布式训练加速、高性能压缩模型部署等通用问题。在这两大基础平台之上衍生的4个医疗AI算法领域,主要侧重在疾病预测、智能影像、AskBob辅助诊疗和疾病全周期管理四个场景。在最后的总结中,谢国彤说到,医疗人工智能是利国利民的事情,人命关天,需要AI界和医学界的紧密合作,用AI的算法解决真实的需求,保证模型的安全性、可用性,才能对“健康中国”产生真正的价值。

以下为谢国彤的现场演讲内容,雷锋网《医健AI掘金志》作了不改变原意的编辑及整理:

谢国彤:各位现场和线上的朋友,大家好。我叫谢国彤,负责平安的医疗科技。很高兴今天有机会跟大家分享平安在医疗科技方面的进展。在过去五年时间,平安积累了大量的医疗业务。平安医疗有三个支柱:患者端、医院端和支付端。顶天立地还各有一横一纵。患者端,平安目前有全球最大的互联网医疗平台——平安好医生,3亿多注册用户,每天的问诊量在80万次以上;医院端,平安通过智慧医院的解决方案,在1.6万家医院赋能,还有自己的检测中心、药品集采平台,很多跟医院相关的业务;保险支付是平安的本行,平安有1亿6千万的保险客户,平安医保科技为两百多个城市政府做医保精算、核赔各种业务。一横一纵,上面一横是面向政府。平安拥有的智慧城市、智慧卫健业务,在150多个城市帮助政府提供更好的公共卫生、全民信息平台和医共体的解决方案。下面一纵是我负责的平安医疗科技,从每个业务中沉淀数据,把数据变成AI模型。再反哺赋能给各个业务。今天,我主要聚焦平安医疗科技的工作。所有的AI无非是四个要素:数据、算力、算法和应用。如果把我们的工作按照四个要素来整理,是2个基础平台和4个算法领域。基础平台:包括五大库数据及知识图谱平台。这个平台汇聚了平安各种医疗业务沉淀下来的数据,将其知识化后变成知识图谱,支持上层的各种分析和推理。赛飞AI平台:让做医疗的数据科学家专注在自己的领域里,把AI的通用算法、分布式的训练加速、高性能压缩模型部署等通用问题交给平台来做。五大库及知识图谱首先来说一下,我们的五大库知识图谱。在沉淀大量数据后,我们以疾病为中心构建知识图谱,把疾病的症状、检查检验、用药、关键的常用处方、疾病手术、疾病并发症、疾病风险因素、疾病和基因的关系,包括哪个医院、哪个医生在哪个疾病领域比较擅长,发表过什么科研成果的信息都收集起来,构建出一个包含300万的医学概念、3300万的关系和3000万医学证据的医疗知识图谱,支持后续所有的应用。构建这样的图谱,我们把它总结为“四化”的过程。拿到数据后,要经过四个关键步骤:第一步,去噪。去掉噪音,补全数据,提高输入数据的质量;第二步,结构化。图谱里有大量文本数据,要做各种实体、关系进行抽取抽取,对文本进行分类、标签,让数据变得可用;第三步,标准化。不同来源的医疗数据,对疾病、药品、检查检验的描述是不一样的。我们要用大量的NLP技术,将各种医学术语统一化、标准化,才能进行下一步的分析;第四步,挖掘。利用各种算法,从数据中挖掘疾病的风险因子或者常用的治疗方法,这些信息最终会沉淀在我们的知识图谱里。赛飞AI算法平台其次,我介绍一下赛飞AI平台,这个平台的目标要提供从模型训练到模型部署的一整套平台级服务,让医疗数据科学家专注在医疗领域,不用去考虑通用的问题。
赛飞的工作很多。举一个例子,我们在进行组织病理影像分析时,一个病理的影像大概有10亿像素,如果一个医生要很完整的把肾小球和肾小球里的内皮细胞、细膜细胞都标注完,一个小时都不能完成。但是,所有的片子都有必要去标注吗?不见得。我们利用主动学习的方法,挑选信息量最大的片子。后来我们发现,标注52%的训练数据,就可以达到跟此前标注完所有数据差不多的效果。再比如分布式加速。现在的NLP模型庞大无比,不管是现在最火的GPT-3拥有的上千亿参数,还是常用的BERT,都是几亿参数的大模型。我们参加ACL比赛时,用了赛飞分布式加速能力,在20天之内训练了281次,不停把模型的精度推到极致,最后拿到冠军。这就是分布式加速给模型训练带来的价值。再比如模型压缩的例子,这是非常现实的场景:很多AI模型希望跟硬件进行整合,但是模型很大,硬件存储却很小。我们的一个眼底OCT模型大小是6G,一个OCT设备存储是2G,无法把这个模型放在存储里。最后,我们把6G的模型压缩到原来的四分之一,精度只损失一点点,最终完成软硬一体的计算。当然,除了在医疗领域,赛飞还可以拓展变成更加通用的AI平台。现在平安有16个子公司、42个部门、300多名数据科学家在赛飞平台上完成2.5万次模型训练。同时,它是参加比赛刷榜的神器,我们拿了7个世界第一,利用这个平台,极大地加快建模速度,也有很多相应论文的发表。说完底层的技术,我们再看上层的四个算法领域,其中大家比较熟悉的是影像。平安的业务很广,如果聚焦在医疗AI的算法场景里,则是从疾病的预测、基于影像的辅助诊断、AskBob辅助诊疗和患者院外管理的四大场景,我们有大量的模型算法和工作。从应用的角度来看,今年,平安所有的医疗科技服务有1.75亿次的调用,服务了1.6万家医院,43.8万名医生用户每天在使用我们的医疗科技服务。疾病预测关键技术疾病预测,预测的不是人的命运,而是人的生命。比如预测重症患者院内死亡风险、慢性病患者的并发症风险、人群发病风险。新冠疫情期间,平安医疗科技向国务院办公厅、各个部委提交了130多期预测报告,预测什么时候新增发病人数会到顶,什么时候出院人数会急剧增加,最终死亡率是多少,从而帮助政府做决策。
在疾病的预测过程中,有非常多的关键技术:一、数据修复。拿到100条记录,要求所有的关键数据都有数值,最后剩下一条就不错了。我们在IEEE ICHI参加了Data Imputation的比赛拿了冠军,我们利用数据所谓的横向、纵向和斜向关系,分析数据之前、之后和相关检测检验的信息,猜测缺失的数据可能是多少,均有不错的效果。二、特征工程。很多预测是从病例中进行挖掘,这里也有挑战:数据是多模态的,不像影像相对单纯。在这次新冠疫情里,预测有60%的ICU患者发生了不同程度的脓毒症,脓毒症是ICU的第一大杀手。ICU里的信号非常复杂,有心率血压、脉搏等生命体征信息,并且时间序列是连续的。我们利用很好的多模态数据特征工程的方法,提前6个小时预测患者发生脓毒症的风险,精度比目前最好的方法高20%,这个工作今年发表在重症医学顶级期刊CCM上。三、可解释机器学习建模。很多医生是很难接受黑盒模型的,尤其是预测,本来就是在猜,如果怎么猜的都不知道,医生很难接受这个模型。我们的做法是将深度学习的方法跟医生比较能接受的生存分析survival analysis方法结合起来,利用SHAP等可视化的方法,把因素和结局的关系可视化出来。比如右上角的图,有一个U字形,那是一个非常典型的例子,红色的表示当值在那个区域的时候,导致患者出现肾衰竭的风险,而绿色部分是保护性因素,值在这个区间的患者不容易发生风险,但它不是线性的。我们利用可解释的模型加上深度学习的方法,用算法定量、精准地把非线性的关系可视化出来,解释给医生,让他们更容易接受。
做预测模型有什么用?现在有两个面向用户的场景在使用:第一个场景是面向C端用户。平安有最大的全球互联网医疗平台——平安好医生。我们把常见病(高血压、糖尿病、冠心病、脑卒中)的预测模型放在平安好医生APP上。平安好医生有几亿的用户,他们会填写数据预测,看看自己有什么风险,同时进行相应的管理。第二个场景是针对老年人群体。我们在甘肃收集到185万老年人数据。老年人出现高血压、糖尿病的比例占老年人口的40%,慢性病管理的挑战在于知晓率低,治疗率低。老年人不知道自己有病,或者有病也不会主动治疗。我们跟甘肃卫健委合作,用算法把这些人挑出来,通过甘肃家庭医生平台,让家庭医生有针对性找到高危老年人,对他们进行主动管理,提高疾病的知晓率和治疗率。三是在珠海,我们利用200多万居民的健康数据和12个疾病的预测模型,可以生成一个完整的风险评估报告。同时,我们会把相应患者的教育,以及可访问的健康服务跟风险因素挂在一起:哪些服务可以帮助降低哪些风险因素,让政府在进行疾病管理的时候变得更加精准,更有针对性。基于智能影像的辅助诊断第二个场景是面向医学影像,我们聚焦的是两类人群(基层医生和专家)、三个场景:对于基层医生,我们聚焦质控和筛查。很多基层医生拍出来的片子位置不正、关键的器官不在里面、以及各种异物,这些片子拿到北京、上海的大医院也用不了。我们在质控领域有很长的积累,在《NEUROCOMPUTING》、《SCIENTIFIC REPORTS》上发表了一系列的文章,针对DR、CT、内窥镜等影像,发现质量问题后提示医生重拍,进而提高优片的比例,在内窥镜异物比赛上获得冠军。另外,平安有六个检测中心,300多家医院把数据传到平安影像云上,由平安的医生帮助他们阅片。利用质控的方法,不管是DR。还是CT,质量不好片子的比例下降了20%,让甲级优等片的占比达到98%,提高了基层片子的质量。第二个场景是筛查,告诉基层医生患者的病情,在基层医院看不了,要去大医院就诊。我举一个眼科OCT的例子。OCT类似于CT,是三维建模,会看OCT的医生很少,尤其是在基层医院,五官科的医生往往是耳鼻喉科的医生,不一定是眼科医生。我们在TVST、MICCAI等连续发表了一些文章,用算法对OCT的20多种病灶进行识别,并且做出紧迫性判断。提示医生患者没问题,或是有问题但只需要随访,或者是问题很严重,需要马上到上级医院就诊,这是我们在筛查场景里发挥的作用。我们在上海、深圳都建立了以权威眼科三甲医院为主、下设几十家社康中心的模式,在社康中心进行筛查。在这两个地方,我们发现,年龄偏高人群中有30%的人有不同程度的眼底病变,其中20%的人需要马上治疗。因此,通过平安的平台,我们可以将他们转到相应的三甲眼科医院进行干预。第三类是辅助诊断,面向专科医生,对于很难很烦的事情,我们帮助他们加速。这是肾脏病理的例子。一个医生做肾脏诊断时,需要对着10亿像素的片子数肾小球、有没有硬化,肾小球里面细胞的比例。一个医生数一个肾小球平均需要平均43秒,一个片子里有几十到一百个肾小球。我们利用最近发表在病理学顶级期刊上的一套模型,跟国家肾病中心的四个肾内科医生进行了对比。结果模型的精度是92%,四个肾内科的医生平均精度是82%,同时,模型看一个肾小球的速度是0.6秒,而医生平均是43秒,我们把速度平均提升了70倍,精度提升了10倍。因此,让医生基于AI模型提供结果进行判断,把琐碎的事情交给计算机,这是我们对AI的定位。今年上半年,有250多个城市使用了平安医疗科技的技术,影像辅助诊断的服务就有上亿次调用。最后一个例子是宫颈癌TCT病理,我们将硬件与模型进行了整合,通过跟复旦肿瘤医院、第三方诊断中心合作一起应用。扫描仪会在2分钟内完成切片扫描,在40秒钟内对切片进行阳性、阴性的判断,同时会把三类高危的阳性切片按照高、中、低列出来,让医生关注阳性的切片。即使是阴性的片子,我们会把一些高风险的区域高亮出来,帮助医生做判断。在6000例的数据验证上,敏感度设到99%,排疑率是80%,减少医生阅读阴性片的时间。AskBob辅助诊疗辅助诊疗核心要解决的是诊断治疗时如何给医生一些辅助,我挑选两个关键技术介绍。目前,我们有2000多种疾病的辅助诊断和120多种精准治疗模型。很多AI应用集中在分类,可能也会完成分割的任务。我们主要用的是深度强化学习的方法,结合短期和长期的结果做Reward function,短期是血压、血糖达标率,长期是并发状的发生率,用不同的结果给深度强化学习一些激励。利用这样的方法,我们跟国家生命中心在BMJ子刊上发表了面向糖尿病、肾病个性化治疗的模型,跟安贞医院刚刚在AMIA上发表了房颤的治疗模型。还有一个场景是面向循证医学。医生要阅读大量的文献,我们用算法把文献里关键的疾病、用药抽取出来做分类,比如这类疾病的手术治疗是哪一种,用哪种药进行治疗,我们用算法把关键信息抽取出来。目前,这一套辅助诊疗系统在1.6万家医院有应用,目标对象同样分为基层医生和专家医生。我们会像助手一样,在基层医生输入症状之后,不断提醒可能的检查、检验和用药、诊断结果。数据显示,部署我们系统之前,地方诊疗规范率不到50%,部署后的规范率达到80%以上。而对于专科医生,我们希望他们在面对复杂病例或者科研需求时,可以通过AI的方式检索到需要的医学证据。比如胃癌,我们会提供不同临床治疗方案的依据以及治疗的效果。同时,医生可以查询胃癌领域的权威在哪些领域发表了多少文章,有哪些临床实验,从而帮助医生更好地进行科研。患者院外管理除了帮助医生,我们还要关注的对象是患者,患者离开医院后有大量管理的需求。比如药物是否需要调整、是否还要继续吃,跟其他药一起吃有没有问题。医生会对患者进行随访,但是单纯依靠人的方式是不可能的。中国一年就诊人次是80亿,但只有300万医生,医生治病之余没有精力做后续患者随访。为此,我们开发了多轮对话技术,让AI尽可能把那些耗时耗力的工作做完,好医生一天会产生80万次的问题。我们分析了好医生日志,每次15分钟的对话里,前5分钟都是医生问患者的病史、诊断治疗,后10分钟患者会问医生五花八门的话题,这些都是我们很好的训练数据。在ACL里,我们在医疗问答项目上拿到了冠军。基于海量的数据,我们训练了一个AskBob的模型,比通用的模型效果更好,可以做意图理解、FAQ问答和知识图谱问答,回答各种长尾的问题。举一个应用的例子。目前,在560多家医院、五万名2型糖尿病患者在我们的平台上进行院外的管理。这有点像前面这些方案的集大成者。我们会用各种风险预测产生患者画像,用辅助诊疗的模型生成一些方案、监测方案、用药方案、饮食运动等,用对话的方式进行动态跟踪、随访,包括回答各种问题。这种方式的效果如何?数据显示,患者入住三个月后,评估他的HBA1C和空腹血糖,可以看到HBA1C达标率提升5倍,空腹血糖达标率提升20%。患者很积极地阅读文章,积极地上传自己的血糖数据,依从性提升了50%。与此同时,成本也相应降低。因为以前主要靠人工,三个月内围绕一名患者,护士平均要打5个电话。现在的“AI+护士”,只要打2.9个电话就可以达到更好的效果,这是院外管理一个很好的案例。更重要的一点是,打通重点疾病的专科模式。我们跟国家肾病中心有一个合作的例子,基于病理对慢性肾病的患者进行辅助诊断,进行肾衰竭的风险预测,对高风险的人群实现精准用药,让他们接受免疫抑制剂的治疗,降低肾衰竭的风险。以肾病为专科案例来看,我们打通了辅助诊断、风险预测、精准治疗、患者管理的四大环节,在每个环节都有医学期刊论文发表,得到医学界的认可。最后,我想说的是,医疗人工智能是利国利民的事情,人命关天,需要AI界和医学界的紧密合作,用AI的算法解决真实的需求,保证模型的安全性、可用性,才能真正地对“健康中国”产生价值。采访问答精选提问:您刚刚在演讲中提到了赛飞平台,想请问一下为什么要投入精力去开发平台?未来的面向对象是哪些?谢国彤:我们发现,算法工程师要完成好多通用的事情,而且环境不停地升级,算法要不断优化,例如模型压缩、高性能部署,这些都是一些通用需求。我们有四个算法领域:疾病预测、医学影像、辅助诊疗还有疾病管理,这四个领域的算法工程师都得学。两年前,我们就开始从训练环节入手,提供一些通用能力,让算法工程师只聚焦在自己的领域。把数据可视化、数据标注、数据增强,包括分布式加速训练这些通用能力,还有通用算法库,沉淀在赛飞上,不用管底层环境的事情。这样大家都用得很爽,赛飞是一个GPU的集群,有个集群大家就可以共享,有机会用到一个比以前大10倍的GPU的力量。我们在内部使用后,发现外部客户也有类似需求,因为有很多算法是不局限于医疗领域的,例如NLP领域的BERT,CV领域的ResNet,这些网络很多领域的人都在用。 因此,我们就开始让平安的子公司来使用,现在300多个用户里有一大半都不是做医疗的,都是平安16个子公司的用户,在上面做NLP、CV、OCR等各种各样的建模。所以,赛飞在持续地增长,更好地服务集团,从一个纯医疗的平台变成通用的AI平台。提问:平安的医疗AI产品与布局,与BAT或者AI公司有哪些本质上的区别,怎么才能从这个市场中获得优势?谢国彤:疾病是一个很复杂的领域,有2万到3万种病。就以影像为例,有些聚焦于放射,细分来看,会分为DR、CT和核磁等。从病种上来看,有些会聚焦眼科,有些会聚焦病理,还会再细分还会分为宫颈癌病理、乳腺癌病理、胃癌病理等。所以,我觉得医疗AI的空间足够大,没有任何一家公司能把世界上所有病的所有AI模型都搞定。其次,大家选择的切入点不一样,从我的角度来看,我们更关注的是那些真正有需求的场景,如何为基层医生赋能,如何为专科医生减负,不是非要让基层医生看很难的病,或者要比专科医生强很多。在我看来,很多场景就是为了技术而技术。三年前,我离开IBM的时候,很多公司找过我,但是我选择了平安。我觉得,平安的医疗生态patient、provider、payment是一个很完整的生态,有一些公司也不是没有场景,但是领域很窄。AI是由场景业务驱动,而不是技术驱动,技术驱动是风光一时。只有基于真实的业务场景,才能真的有价值,有收入。提问:对于医疗AI的认证和落地,您有哪些看法?谢国彤:我们现在跟国家科技部和国家卫健委,在进行AI医疗领域的一个课题——AI的模型验证评估平台。我之前跟科技部、卫健委表达了一个观点,他们也很认同,那就是,让大家都拿到证才能用是不现实的。拿一个证,没有两三年是不会有什么结果的,这个过程中大家都在干等?这是不可能的,要鼓励大家去尝试。尝试的过程中,各个地方的卫健委和医院院长、主任都很困惑,每一家企业来找我都是99%的准确率。但是,测试的数据集都不一样,只要选好测试集百分之百也可以,就看怎么选。例如眼科OCT,可能有20种病变,其中有些病变是常见,有些是罕见,但测试集里只包含了其中10种,这10种虽然识别准确了,但另外10种还没有识别,怎么就代表模型准确了呢?因此,我们现在跟科技部、国家卫健委合作的项目,就是由医院、卫健委、药监局等部门牵头,针对特定的疾病和特定的任务,提供中立的测试集。把各家的模型拿上来测试,最后拿出一个评估报告。至少让各家讲自己性能指标的时候,有一个统一的数据集、一个统一、中立的评测标准。我觉得,国家推动医疗AI应用中做得很好的一个步骤是,先选择一些常见的、需求量比较大的AI场景,制定相对成熟的数据集,从需求比较大病种开始入手,当数据集越来越多,能评估的模型也越来越多。推荐阅读



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存