两篇顶级论文互相矛盾:AI看病,到底靠不靠谱?

收录于 前沿科技 持续更新中
前段时间,两条截然相反的AI医疗研究新闻,接连刷屏各大社交平台。
第一条新闻让人捏一把汗:有研究指出,AI看病误诊率高达80%,智能化诊疗似乎根本经不起临床考验。没过多久,反转接踵

前段时间,两条截然相反的AI医疗研究新闻,接连刷屏各大社交平台。
第一条新闻让人捏一把汗:有研究指出,AI看病误诊率高达80%,智能化诊疗似乎根本经不起临床考验。

没过多久,反转接踵而至:另一项权威研究表明,AI在复杂急诊诊断中表现亮眼,综合能力甚至优于专业急诊医生。

两个新闻都是基于顶级学术期刊上发表的研究,“误诊80%”是4月16日发表在JAMA上:

“比急诊医生强”是4月30日发表在《科学》上:

更让人费解的是,这两项反差极大的研究,全部发表在国际顶级学术期刊。误诊率80%的研究,于4月16日刊登在《JAMA》;碾压急诊医生的研究,在4月30日发表于《科学》。两项研究仅间隔两周,研究人员均来自哈佛医学院,只是分属不同研究团队。
两份同源、同级别的权威研究,却得出近乎相悖的结论。这不禁让人疑惑:AI看病,究竟是不靠谱的“误诊工具”,还是超越医生的医疗利器?


一、看似矛盾的结论,藏着同一个底层真相

网络上曾流传一句调侃式解读:或许是急诊医生误诊率高达90%,即便AI误诊率80%,依旧能实现碾压。玩笑之外,两项研究的真实差异,才是破解矛盾的关键。二者最大的区别,在于测试场景、考核流程以及评判标准完全不同。

1、《JAMA》:严苛的全流程模拟考核

《JAMA》的研究,选用了默沙东诊疗手册中收录的29个标准化病例,病例覆盖范围远比普通急诊病例更广。不同于单一结果判定,这项研究对AI实行全流程严苛考核
研究人员模拟真实临床诊疗逻辑,循序渐进向AI推送患者信息:先给出年龄、基础病症,再逐步补充化验、检查数据。在信息碎片化、不完整的每一个阶段,AI都需要独立给出判断,从初步鉴别诊断、筛查病因,到拟定检查方案、确定最终诊疗方案,每一步判断都会被严格打分。
即便AI最后的最终诊断结果正确,只要前期任意一个判断环节出现偏差,都会被判定为失误、纳入误诊统计。网传的80%高误诊率,仅针对前期初步鉴别诊断环节;在信息完善后的最终诊断阶段,AI的失败率仅为9%-39%。
这种测试模式高度贴合真实临床场景:医生接诊时,永远只能从碎片化信息入手,依靠有限线索预判病因,再根据后续检查结果修正判断、完善诊疗方案。而这一在不确定性中逐步推理、动态修正的能力,正是当前AI最大的短板。


2、《科学》:简单的终局结果判定

反观《科学》期刊的研究,测试逻辑要简单得多。研究选取真实急诊病例,将完整电子病历、全部检查数据、诊疗线索一次性导入AI,仅考核AI的最终诊断结论是否准确。
这更像是一场“开卷考试”,所有关键线索全部平铺展示,无需AI在信息残缺时预判推演,只需要整合现有完整信息,归纳得出诊断结果。这种模式对应的是诊疗流程的终点,而非诊疗初期的摸索判断。


二、两项研究的共性:AI擅长“终局判断”,弱于“渐进推理”

抛开表面的矛盾结论,两篇顶级论文传递出一致的核心信号:当诊疗信息充足、线索完整时,AI的诊断准确率十分出色;但在信息零散、存在不确定性的诊疗初期,AI判断失误率极高
通俗来说,AI适合复盘完整病例、给出精准定论,却不擅长像真人医生一样,在接诊初期凭借有限信息试探、排查、推演。这也是目前AI医疗最鲜明的能力短板。
而大众纠结的“AI误诊率80%”“AI强于医生”,本身就是片面的标签化解读。脱离测试场景、评判标准对比研究结论,本身就是不科学的判断方式。


三、不必纠结优劣,AI医疗尚处成长初期

大众总在追问:当下的AI看病到底行不行?能不能替代医生?
其实这个问题本身,就不符合现阶段AI医疗的发展现状。目前依托大语言模型打造的诊疗AI,仍处于早期摸索阶段。反复争论“AI强还是医生强”,就像质问一名中学生能否斩获诺贝尔奖,毫无实际意义。
比起纠结当下的优劣,我们更该聚焦问题本质:AI哪里做得好、哪里有缺陷?出错的底层原因是什么?能否针对性优化改进?
遗憾的是,两篇权威论文都没有深入解答核心问题。它们只证实了AI在不同场景下表现差异巨大,却没有深挖出错根源:AI渐进推理能力薄弱,是缺少临床对话式训练样本?还是模型本身无法适配不确定性判断?
不同的问题根源,对应截然不同的优化方案。若是样本缺失,补充模拟临床对话数据即可优化;若是模型架构存在先天缺陷,单纯迭代新版本模型毫无作用,需要重构底层逻辑。
未来AI医疗的核心研究方向,不该是反复开展“AI PK 医生”的对比实验,而要精准定位错误节点、剖析出错原因、验证优化方案。唯有如此,才能打破“AI神化”和“AI贬低”的两极舆论怪圈,稳步推动技术迭代。


四、顶级AI也犯低级错误,暴露医疗应用隐患

为了进一步厘清两篇论文的矛盾逻辑,我将论文原文上传至ChatGPT、Claude两大主流AI模型,询问二者结论相悖的原因。两款顶级AI均精准捕捉到研究方法、评判标准的差异,却不约而同犯下低级事实错误,暴露了当下AI用于专业医疗领域的致命隐患。


1、ChatGPT:混淆数据属性,颠倒实验逻辑

ChatGPT将AI表现差异归因于数据质量,它误认为《JAMA》研究采用无噪音的纯净标准化数据,更适配大模型运算,理应表现更好。
但事实恰恰相反,干净规范的标准化病例,反而让AI失误率居高不下;而《科学》研究采用存在干扰信息的真实病历,AI诊疗表现却更为优异。



2、Claude:混淆模型版本,误判硬件条件

Claude则将差距归结为模型迭代差异,声称《科学》采用性能更强的o1推理模型,而《JAMA》仅使用普通大语言模型。可真实数据显示,《JAMA》不仅搭载o1模型,还测试了2025年末多款主流最新模型;《科学》同时采用GPT-4和o1,两款模型检测结果并无明显差距。



五、破除AI迷信:别盲目期待下一代模型

两款顶级AI犯下的基础事实错误,折射出行业普遍痛点:如今的AI能够条理清晰地拆解复杂专业问题,输出逻辑通顺的答案,却极易在基础事实上出现偏差。这种“看似专业、实则失真”的特性,正是AI落地医疗领域最大的安全隐患。
与此同时,大众对AI的认知,陷入了固化的思维误区。人们习惯性认为:数据越干净、模型越新颖,AI能力就一定越强。这种观点早已脱离客观事实,变成一种盲目技术崇拜。
美国国家公共广播电台(NPR)的报道,就出现了典型的主观事实错误。该报道将《JAMA》的糟糕结果,归咎于模型版本老旧,刻意营造“技术迭代后AI能力大幅跃升”的观感。但真实时间线显示:《JAMA》使用的模型,更新程度晚于《科学》的实验模型。


六、结语:理性看待AI,拒绝极端标签化

不要盲目相信AI的标准答案,更不要默认新一代模型一定优于旧版本。
当下的AI医疗,没有网传的“神乎其神”,也并非一无是处。它擅长整合完整信息、做出终局判断,却难以应对临床诊疗中充满不确定性的渐进推理;它能梳理专业论文逻辑,却频繁在基础事实上出错。
比起追捧或贬低AI,我们更需要保持理性克制:抛开流量标签,摒弃盲目崇拜,聚焦技术本身的缺陷与优化方向。唯有脚踏实地攻克底层技术难题,AI医疗才能真正走出实验室,成为靠谱的医疗辅助工具。



本文来自微信公众号: 一个生物狗的科普小园 ,作者:Y博的科普园

推荐前沿科技

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1