查看原文
其他

在临床和科研中使用ChatGPT,先要了解这些强项和弱点

NEJM医学前沿 NEJM医学前沿 2023-03-25

本文根据我们上个月组织的《ChatGPT的应用:科研、临床和论文》会议,并结合文献,总结ChatGPT使用要点。需要注意的是,通过不断吸收用户反馈,ChatGPT能力也日新月异,在一个月后的今天再用同样问题进行测试,其回答质量可能已突飞猛进(查看详情);而且即使对于同样的(开源)问题,其在一天中不同时间或者面对不同用户提问,就像人类一样,很可能给出不尽一致但同样正确(或错误)的回答。

类似的对话式AI工具及其应用方兴未艾。就在本文发表前48小时,Google的BARD在遭受2月份演示“翻车”后开始向公众发出测试邀请。而微软旗下语音识别公司Nuance Communications推出基于GPT-4的AI临床笔记软件,有望极大提高医生临床诊治效率,我们将在下周发布其临床应用实例。


日常工作

语言能力超强
ChatGPT拥有出色的语言能力,可以根据指令为使用者进行语言润色。例如,它可以将一句简单、枯燥的语句改写成生动活泼的一段文字;而在面对长文时,它可以将其精简,而且不会丧失主要内容。
 

图1. 语言润色


 

图2. 文章精炼


ChatGPT还可以根据不同场景对文字内容进行润色。它既可以按照科普宣传口吻润色,也可以修改为严肃学术性文稿。此外,ChatGPT还可以根据不同主题撰写短文。
 

图3. 润色一篇虚构的与NEJM编辑沟通的邮件

ChatGPT可以根据文章内容建议多个题目。
 
图4. 拟定文章题目

临床科研

ChatGPT能够简要介绍某个领域,帮助提问者迅速了解该领域。ChatGPT尚缺乏基于目前研究成果提出科研假设的能力。因此,无论是探索研究方向,还是撰写科研基金申请书,ChatGPT可能有一定帮助,但最关键的部分还需要研究人员自己完成。
 
图5. ChatGPT撰写的简要介绍

然而,对于初次在某个领域开展科研的研究者,ChatGPT提供的信息有一定帮助。针对提出的问题,ChatGPT可以给出研究方法和大方向等。
 
 图6. ChatGPT提供的研究思路

临床试验的原始数据纷繁复杂,ChatGPT在数据清洗方面表现不佳,不能准确抓取关键信息。但是如果研究者将全部数据提取完毕,ChatGPT则可以将所有数据完美地整合到表格中。
 
图7. 利用ChatGPT制作表格

ChatGPT可以编程,但由于其生物信息学编程训练较少,因此在此领域表现较差。此外,ChatGPT目前更能作为搜索引擎使用,特别是在涉及专业数据库内容时频频出错。而且,ChatGPT的数字运算能力较差,几乎无法使用。相比之下,面向ChatGPT Plus用户开放的GPT-4运算能力有极大提高。

 图8. 涉及ClinVar数据库的错误答案

期刊立场

《新英格兰医学杂志》目前尚未给出关于ChatGPT的官方立场。但可以明确的是,ChatGPT不能成为共同作者,而且要求作者充分披露如何使用ChatGPT。《自然》杂志及其出版商Springer Nature明确指出,任何大型语言模型工具都不会被接受为研究论文的署名作者,如果研究人员使用了此类工具,则应当在方法或致谢部分加以说明。《科学》杂志也强调:“未经编辑明确许可,由人工智能、机器学习或类似算法工具生成的文本不能在《科学》发表,所附的数字、图像或图形也不能由这些工具生成。此外,人工智能程序更不能成为《科学》论文的作者”。

尽管ChatGPT拥有强大的文稿撰写能力,甚至专业编辑也难以分辨作者是否假手ChatGPT,与何种其他技术一样,科学研究方法和结果必须保持公开和透明,这是科学赖以进步的基石。

临床实践

现实
英国3位研究者测试了ChatGPT在8个假设的感染场景中提供抗菌素建议的能力,并评估了其回答的适当性、一致性和安全性。

首先,ChatGPT能够准确理解研究者所提供的病情,但难以区分重点和非重点。当研究者提供信息较为明确时,ChatGPT可以识别出有重要意义的临床特征,但当病情较为复杂时,则可能忽略关键信息。

ChatGPT所提供答案的拼写和语法较为连贯,表达清晰。其回答总结了对病情和问题的理解,提供了处理方案,并特别指明其局限性和免责声明。抗菌药物覆盖范围和疗法与诊断相符,而且ChatGPT还能认识到临床应答对患者的潜在影响。其对疗程的推荐不一定都合理。虽然总体而言疗程是正确的,但有时控制感染源被错误地作为延长治疗的理由,有时则被完全被忽略。它似乎理解只有在细菌感染证据确凿时才需要处方抗生素。但ChatGPT识别抗菌素禁忌证的能力较差,尽管我们给出了提示,它有时还是反复给出危险的建议。

研究人员认为,ChatGPT临床应用面临的最大障碍是其在情景识别、推理和一致性方面存在重大缺陷。这些缺陷可能会危及患者安全。此外,ChatGPT不能访问专业的医学数据库,尚缺乏专门的临床咨询培训。

近景
今年晚些时候,ChatGPT或其他类似的对话式AI工具将可能在下述3个方面应用于临床实践。

总结患者病历和信息。通过人工智能和机器学习,ChatGPT有望很快成为医生的数字助理,该技术可从患者的病历记录中提取基本信息,将数据分组为症状、家族史、当前治疗药物、潜在过敏、实验室检查结果等。如此可让医生更加快速地评估患者需求,聚焦患者诊疗主要领域(如开头所述,我们在下周将介绍这些应用)。

行政职能自动化。研究表明,医生每周花大约16.4小时来处理患者用药、手术和其他医疗服务等行政性工作。ChatGPT可用于执行行政事务,如安排预约和其他重复性日常任务。

改善患教。目前,记录病史、治疗计划和后续诊疗方案的临床文件多采用专业术语,患者理解困难。ChatGPT可以学习简化医疗文书、处方,甚至建议生活方式,提高患者理解力,从而改善对患者的教育。此外,医生工作节奏快,患者与他们直接接触并得到建议较为困难。ChatGPT可以针对患者频繁咨询的问题,给出专业解答。

挑战
目前,ChatGPT生成的鉴别诊断或治疗指南结果看起来很权威,但仔细观察则可发现其所提供的参考文献并不存在。聊天机器人似乎重构了部分证据,而非参考真实证据。显然,在ChatGPT成为真正的专家系统之前,它的某些基础功能需要重构。

医生版本的ChatGPT需要根据最新数据进行训练,并基于医学文献以及专家评论、已发表的指南进行训练,甚至可能包括未发表的药物注册文章和会议报告。该应用程序还需要进行调整,以便对研究人员和从业人员提供最有用的信息,如引文和相关原始资料链接。

ChatGPT提供的临床建议也需要更加详细,甚至可以分层回答;为临床实践提供详细参考意见,但又不能信息太多以至于关键部分被埋没而难以找到。例如,它可以首先提供摘要,然后是详细解释,并提供具体参考资料。这样的系统必须不断监测其错误率,并进行调整以尽量减少错误。医护人员最好接受如何使用这种系统的培训,包括避免其弱点和陷阱。一旦这些基本问题得到解决,该系统就有可能大幅提高患者接受的平均诊疗标准,最大限度减少错误,并提高医疗实践的效率和成本效益。

这类人工智能系统需要考虑的最后一个问题是,这些不会思考的机器没有理解力,只能反映它们所受训练的数据。因此,它们有可能将训练数据中的所有偏见、假设和观点进一步放大。该系统也需要设置自己的优先事项——在推荐治疗方法时,成本效益、不惜代价的疗效、便利性、副作用最小还是医疗公正?



参考文献

1. Howard A, Hope W, Gerada A. ChatGPT and antimicrobial advice: the end of the consulting infection doctor? Lancet Infect Dis 2023 Feb 20. DOI:10.1016/S1473-3099(23)00113-5 (Epub ahead of print).

2. Else H. Abstracts written by ChatGPT fool scientists. Nature 2023;613:423.

3. Rao A, Kim J, Kamineni M, Pang M, Lie W, Succi MD. Evaluating ChatGPT as an adjunct for radiologic decision-making. medRxiv [Preprint] 2023:2023.02.02.23285399. 

4. Tools such as ChatGPT threaten transparent science; here are our ground rules for their use. Nature 2023;613:612.

5. Thorp HH. ChatGPT is fun, but not an author. Science 2023;379:313.





版权信息

本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。


点击下方名片,关注《NEJM医学前沿》


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存