人工智能聊天机器人在诊断疾病方面击败了医生

健康作者 / 世界之声 / 2025-05-28 03:29
"
    波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)的内科专家亚当·罗德曼(Adam Rodman)博士

  

  波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)的内科专家亚当·罗德曼(Adam Rodman)博士自信地预计,使用人工智能制造的聊天机器人将帮助医生诊断疾病。

  他错了。

  相反,在罗德曼帮助设计的一项研究中,使用ChatGPT-4和传统资源的医生只比没有使用机器人的医生好一点点。而且,令研究人员惊讶的是,ChatGPT本身的表现就超过了医生。

  “我很震惊,”罗德曼说。

  OpenAI公司的这款聊天机器人在根据病例报告诊断疾病并解释其原因时,平均得分为90%。随机分配使用聊天机器人的医生平均得分为76%。那些被随机分配不使用它的人平均得分为74%。

  这项研究显示的不仅仅是聊天机器人的卓越表现。

  它揭示了医生有时对自己做出的诊断毫不动摇的信念,即使聊天机器人可能会建议一个更好的诊断。

  这项研究表明,虽然医生在工作中使用人工智能工具,但很少有人知道如何利用聊天机器人的能力。因此,他们未能利用人工智能系统解决复杂诊断问题并为其诊断提供解释的能力。

  罗德曼说,人工智能系统应该是“医生扩展器”,为诊断提供有价值的第二意见。

  但在实现这一潜力之前,似乎还有很长的路要走。

  病例历史,病例未来

  这项实验涉及50名医生,其中既有住院医生,也有从美国几家大型医院系统招募的主治医生。实验结果上个月发表在《美国医学会杂志网络公开版》(JAMA Network Open)上。

  测试对象被告知六个病史,并根据他们提出诊断并解释他们赞成或排除这些诊断的能力进行评分。他们的成绩还包括最终诊断的正确性。

  评分员是医学专家,他们只看到参与者的答案,而不知道他们是来自有ChatGPT的医生,没有ChatGPT的医生还是ChatGPT本身。

  研究中使用的病例历史是基于真实患者的,是自20世纪90年代以来研究人员使用的105个病例的一部分。这些病例故意不发表,以便医科学生和其他人可以在没有任何预知的情况下进行测试。这也意味着ChatGPT不可能被训练过。

  但是,为了说明这项研究涉及的内容,研究人员公布了医生接受测试的六个病例中的一个,以及得分高的医生和得分低的医生对该病例的测试问题的回答。

  该试验案例涉及一名76岁的患者,他走路时腰背、臀部和小腿剧烈疼痛。疼痛是在他接受球囊血管成形术扩大冠状动脉治疗几天后开始的。手术后,他接受了血液稀释剂肝素治疗48小时。

  那人抱怨说他感到发烧和疲倦。他的心脏病专家做的实验室研究表明,他的血液中出现了新的贫血,氮和其他肾废物堆积。这名男子十年前曾因心脏病做过搭桥手术。

  案件小插图继续包括该男子的身体检查的细节,然后提供了他的实验室测试结果。

  正确的诊断是胆固醇栓塞——一种胆固醇碎片从动脉斑块脱落并阻塞血管的情况。

  参与者被要求给出三种可能的诊断,每种诊断都有支持证据。他们还被要求为每一种可能的诊断提供不支持它或预期但不存在的发现。

  参与者还被要求提供最终诊断。然后,他们要说出在诊断过程中最多要采取的三个额外步骤。

  与发表病例的诊断一样,研究中其他五个病例的诊断也不容易弄清楚。但它们也不是罕见到几乎闻所未闻的地步。然而,医生的平均表现比聊天机器人差。

  研究人员问道,到底发生了什么?

  答案似乎取决于医生如何确定诊断,以及他们如何使用人工智能等工具。

  机器里的医生

  那么,医生如何诊断病人呢?

  布莱根妇女医院(Brigham and Women 's Hospital)的医学历史学家安德鲁·利亚(Andrew Lea)博士没有参与这项研究,他说,问题在于“我们真的不知道医生是怎么想的”。

  在描述他们如何做出诊断时,医生会说,“直觉”,或者“根据我的经验”,Lea说。

  几十年来,当研究人员试图让计算机程序像医生一样思考时,这种模糊性一直困扰着他们。

  这项探索始于近70年前。

  “自从有了电脑,就有人试图用它来诊断,”李说。

  最雄心勃勃的尝试之一始于20世纪70年代的匹兹堡大学。那里的计算机科学家招募了Jack Myers博士,他是医学院内科系主任,被称为诊断大师。他有着过目不忘的记忆力,每周花20个小时在医学图书馆里,试图学习医学上已知的一切。

  迈尔斯得到了病例的医疗细节,并解释了他在思考诊断时的推理。计算机科学家将他的逻辑链转换成代码。由此产生的程序被称为内科医生-1,包括500多种疾病和大约3500种疾病症状。

  为了测试它,研究人员给出了《新英格兰医学杂志》上的病例。罗德曼说:“这台电脑表现得非常好。他补充说,它的表现“可能比人类做得更好”。

  但是内科医生一号从来没有成功过。它很难使用,需要一个多小时才能提供诊断所需的信息。而且,它的创造者指出,“目前的程序形式对于临床应用来说还不够可靠。”

  研究仍在继续。到20世纪90年代中期,大约有六个计算机程序试图进行医学诊断。没有一个得到广泛使用。

  罗德曼说:“它不仅要方便用户使用,而且医生必须信任它。”

  由于医生的想法不确定,专家们开始问他们是否应该关心。尝试设计计算机程序来像人类一样进行诊断,这有多重要?

  “关于计算机程序应该在多大程度上模仿人类的推理,存在争论,”Lea说。“我们为什么不利用电脑的优势呢?”

  计算机可能无法对其决策路径给出清晰的解释,但如果它做出了正确的诊断,这又有什么关系呢?

  随着像ChatGPT这样的大型语言模型的出现,对话发生了变化。它们没有明确地试图复制医生的思维;他们的诊断能力来自于他们预测语言的能力。

  “聊天界面是一个杀手级应用,”斯坦福大学(Stanford University)的医生和计算机科学家、这项新研究的作者之一乔纳森·h·陈(Jonathan H. Chen)博士说。

  他说:“我们可以把整个箱子放进电脑里。”“几年前,电脑还不懂语言。”

  但许多医生可能没有利用它的潜力。

  操作员错误

  在最初对新研究的结果感到震惊之后,罗德曼决定对这些数据进行更深入的研究,看看医生和ChatGPT之间的实际信息记录。医生肯定看到了聊天机器人的诊断和推理,那么为什么那些使用聊天机器人的人没有做得更好呢?

  事实证明,当聊天机器人指出一些与他们的诊断不一致的东西时,医生往往不会被它说服。相反,他们倾向于坚持自己对正确诊断的看法。

  罗德曼说:“当人工智能告诉他们不同意的事情时,他们不听人工智能的话。

  劳拉·兹旺(Laura Zwaan)说,这是有道理的。她在荷兰鹿特丹的伊拉斯谟医学中心(Erasmus Medical Center)研究临床推理和诊断错误,但没有参与这项研究。

  “当人们认为自己是对的时候,他们通常会过于自信,”她说。

  但还有另一个问题:许多医生不知道如何最大限度地使用聊天机器人。

  陈说,他注意到,当他偷看医生的聊天记录时,“他们把它当作一个搜索引擎,直接问问题:‘肝硬化是癌症的危险因素吗?眼睛疼痛有哪些可能的诊断方法?’”

  “只有一小部分医生意识到,他们可以把整个病历复制粘贴到聊天机器人中,然后让它对整个问题给出一个全面的答案,”陈补充说。

  只有一小部分医生真正看到了聊天机器人能够给出的令人惊讶的聪明和全面的答案。-?2024纽约时报公司

  ×

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读