查看原文
其他

小编实测GPT-4科研能力,略感失望|ChatGPT升级?

NEJM医学前沿 NEJM医学前沿 2023-03-25
ChatGPT去年11月向公众开放后火爆全球,成为有史以来用户数增涨最快的产品。经过6个月持续改进,北京时间今天凌晨,OpenAI公司推出ChatGPT所基于的GPT-3.5模型升级版GPT-4,并再次引爆互联网。可以预见,GPT-4的问世将引发新一轮的调侃、焦虑和复制(相信扪/文心二言/三拍不需要6个月就可面世)

关心ChatGPT的读者可能已经从中文媒体翻译OpenAI网站的介绍中对其强大能力略知一二,例如GPT-4在各项考试尤其是数学、医学和美国奥赛等考试中完胜GPT-3.5(详见下文图表)。与可以免费使用的GPT-3.5不同的是,GPT-4现阶段只能通过月费20美元的ChatGPT Plus获取。

满屏赞誉之外,我们还不曾见到中文媒体上对其科研能力的实测。因此,我们选取《NEJM医学前沿》上月举办的《ChatGPT的应用:科研、临床和论文》研讨会点击观看回放上曾经展示的3个问题,初步比较GPT-4与GPT-3.5的异同。为了让读者自己测试,我们在文末给出了问题的英文原文。简言之,至少在我们测试的3个问题上,两者并无本质区别。

测试1:请简介《新英格兰医学杂志》(NEJM)2019年发表的文"Trastuzumab Emtansine for Residual Invasive HER2-Positive Breast Cancer"
ChatGPT在2月中旬对该问题的回答可以说是“一本正经地胡说八道”,不仅搞错了治疗组用药方案,而且编造了主要结局。GTP-3.5显然没有读过论文。

GPT-4则准确地从背景、研究目的、结果和意义等方面用自己的语言总结了这篇论文,并指出该研究名称是KATHERINE。为测试其稳定性,我们使用不同账号登录ChatGPT Plus,得到了近似但略有不同的描述。

然而,这只能说明GPT-4显著优于2月中旬的GPT-3.5。对于同一问题,一个月后的今天,再次询问GPT-3.5,其竟然给出完全正确的答案,且回答是自然叙述式,而非GTP-4给出的结构化简介。

短短一个月之间,GPT-3.5已经通过自我学习改头换面。

测试2:我希望开展一个治疗早期乳腺癌患者的2期试验,对比pegylated interferon lambda和trastuzumab emtansine治疗的生存期,请建议试验全名和有内涵的简称。
2月中旬,ChatGPT给出3个建议,其简称分别为PIL-TEC Trial、PILOTS Trial和PIL-TEBS Trial。其中,PILOTS意为先导试验,但pilot study一般是1期试验之前的研究,用在2期试验并不合适,而且每个简称后面都有"Trial",也不符合命名习惯。

今天再次测试,ChatGPT给出的回答为PILEST、PEGASUS和PIBEST。Pegasus是希腊神话中的天马,而PIBEST中含有best,比较吉利,显然比2月中旬的回答有所提高。

同样地问题,我们使用不同账号让GPT-4回答了两次,得到了一模一样的答案:PEARL-BC(全称:Pegylated Interferon Lambda Efficacy in Prolonging Survival in Early-Stage HER2-Positive Breast Cancer Compared with Trastuzumab Emtansine)。PEARL让人一眼便知珍珠,深含美好寓意,而BC则是乳腺癌业界公认的简称。

这场PK,GPT-4可谓小胜。

测试3:NEJM近期发表ALPINE研究,据此研究,泽布替尼治疗复发或难治性慢性淋巴细胞白血病获得美国FDA批准。我希望写篇文章,介绍这一过程。请起草写作提纲。
ChatGPT曾在2月中旬给出一个清晰但简单的写作提纲,基本是对我们问题的简单扩展。而使用两个不同账号的GPT-4测试则给出了详细得多的提纲,从药物筛选、泽布替尼高度选择性等临床前研究,到FDA如何审批、关注问题,直至未来研究,都给出了写作建议。

正当小编如释重负,认为GTP-4确实言不虚传之时,我们再次检验了GPT-3.5的能力:其不仅列出了GTP-4提到的建议,更指出FDA在审批时提出哪些问题,申办方如何回答这些问题。由于泽布替尼由一家中国药企研发,GPT-3.5建议可以在文章中介绍FDA审批外国药企研发的药物时是否另眼相待,甚至是否有文化差异。

本轮测试,我们认为GPT-3.5超越其后代GPT-4。姜还是老的辣。

需要指出的是,2月中旬和今天测试GPT-3.5使用的是同一IP地址的两台电脑,而今天两次测试GPT-4使用的是大洋彼岸分处不同城市的另外两台电脑。

当然,OpenAI指出,GPT-3.5和GPT-4在简单交谈中体现的差异可能微小,"但当任务达到一定复杂程度后,两者差异就显现出来,GPT-4比GPT-3.5更可靠、更具创造力、能处理更细致指令"。所以,或许是我们的测试过于简单,还不足以体现GPT-4的跃进。

附录
3个测试的英文

1. Could you please summarize the key points or highlights of the paper entitled "Trastuzumab Emtansine for Residual Invasive HER2-Positive Breast Cancer" and published in NEJM in 2019?


2. I'm going to do a phase 2 clinical trial on early stage breast cancer, testing whether Pegylated Interferon Lambda can prolong the overall survival of the patients, compared with Trastuzumab Emtansine. Could you suggest a full name of the trial, and a meaningful abbreviation or acronym?


3. I want to write an essay to introduce ALPINE trial published last month in NEJM, and zanubrutinib. The essay should cover both the drug discovery and clinical trials (not only the phase 3 ALPINE trial, but also phase 1 and phase 2 trials), and show how and why zanubrutinib obtained approval by the US FDA. Could you give me some suggestions on how to structure the essay.


GPT-3.5和GPT-4在多项考试中的表现比较

AP:美国大学预修课程考试

AMC 12:12年级以下美国数学竞赛

Codeforces:为计算机编程爱好者提供在线评测的俄罗斯网站

AMC 10:10年级以下美国数学竞赛

Uniform Bar Exam:美国统一律师资格考试

GRE:美国研究生入学考试

USABO:美国生物学奥林匹克竞赛

LAST:美国法学院入学考试

SAT:美国高中毕业生学术能力水平考试(“美国高考”)

SAT EBRW:SAT循证阅读和写作

USNCO:美国化学奥林匹克竞赛

Medical Knowledge Self-Assessment Program:医学知识自我测试

Intro Sommelier:初级侍酒师

Certified Sommelier:认证侍酒师

Advanced Sommelier:高级侍酒师

Leetcode:编程能力测试网站


训练GPT-4的绝大多数数据截止于2021年9月,因此它对之后发生的事件并不了解,也未从经验中学习。OpenAI承认该模型有时会犯一些简单的推理错误;有时会过于轻信用户的明显错误陈述;有时还会像人类一样在解决困难问题时发生失败;GPT-4有时会充满自信地做出错误预测,并且在可能出错时没有仔细检查。


2023年2月22日晚上,《NEJM医学前沿》邀请活跃在科研、教学和临床一线的科学家和医生,以及IT从业者和期刊编辑开展了关于 ChatGPT 的讨论。会议回放链接,请扫描下方二维码或点击“阅读原文”。


会议回放链接

请扫描下方二维码领券了解

↓↓↓



版权信息

本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。


点击下方名片,关注《NEJM医学前沿》


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存