两篇顶级论文互相矛盾：AI看病，到底靠不靠谱？

前段时间，两条截然相反的AI医疗研究新闻，接连刷屏各大社交平台。
第一条新闻让人捏一把汗：有研究指出，AI看病误诊率高达80%，智能化诊疗似乎根本经不起临床考验。

没过多久，反转接踵而至：另一项权威研究表明，AI在复杂急诊诊断中表现亮眼，综合能力甚至优于专业急诊医生。

两个新闻都是基于顶级学术期刊上发表的研究，“误诊80%”是4月16日发表在JAMA上：

“比急诊医生强”是4月30日发表在《科学》上：

更让人费解的是，这两项反差极大的研究，全部发表在国际顶级学术期刊。误诊率80%的研究，于4月16日刊登在《JAMA》；碾压急诊医生的研究，在4月30日发表于《科学》。两项研究仅间隔两周，研究人员均来自哈佛医学院，只是分属不同研究团队。
两份同源、同级别的权威研究，却得出近乎相悖的结论。这不禁让人疑惑：AI看病，究竟是不靠谱的“误诊工具”，还是超越医生的医疗利器？

一、看似矛盾的结论，藏着同一个底层真相

网络上曾流传一句调侃式解读：或许是急诊医生误诊率高达90%，即便AI误诊率80%，依旧能实现碾压。玩笑之外，两项研究的真实差异，才是破解矛盾的关键。二者最大的区别，在于测试场景、考核流程以及评判标准完全不同。

1、《JAMA》：严苛的全流程模拟考核

《JAMA》的研究，选用了默沙东诊疗手册中收录的29个标准化病例，病例覆盖范围远比普通急诊病例更广。不同于单一结果判定，这项研究对AI实行全流程严苛考核。
研究人员模拟真实临床诊疗逻辑，循序渐进向AI推送患者信息：先给出年龄、基础病症，再逐步补充化验、检查数据。在信息碎片化、不完整的每一个阶段，AI都需要独立给出判断，从初步鉴别诊断、筛查病因，到拟定检查方案、确定最终诊疗方案，每一步判断都会被严格打分。
即便AI最后的最终诊断结果正确，只要前期任意一个判断环节出现偏差，都会被判定为失误、纳入误诊统计。网传的80%高误诊率，仅针对前期初步鉴别诊断环节；在信息完善后的最终诊断阶段，AI的失败率仅为9%-39%。
这种测试模式高度贴合真实临床场景：医生接诊时，永远只能从碎片化信息入手，依靠有限线索预判病因，再根据后续检查结果修正判断、完善诊疗方案。而这一在不确定性中逐步推理、动态修正的能力，正是当前AI最大的短板。

2、《科学》：简单的终局结果判定

反观《科学》期刊的研究，测试逻辑要简单得多。研究选取真实急诊病例，将完整电子病历、全部检查数据、诊疗线索一次性导入AI，仅考核AI的最终诊断结论是否准确。
这更像是一场“开卷考试”，所有关键线索全部平铺展示，无需AI在信息残缺时预判推演，只需要整合现有完整信息，归纳得出诊断结果。这种模式对应的是诊疗流程的终点，而非诊疗初期的摸索判断。

二、两项研究的共性：AI擅长“终局判断”，弱于“渐进推理”

抛开表面的矛盾结论，两篇顶级论文传递出一致的核心信号：当诊疗信息充足、线索完整时，AI的诊断准确率十分出色；但在信息零散、存在不确定性的诊疗初期，AI判断失误率极高。
通俗来说，AI适合复盘完整病例、给出精准定论，却不擅长像真人医生一样，在接诊初期凭借有限信息试探、排查、推演。这也是目前AI医疗最鲜明的能力短板。
而大众纠结的“AI误诊率80%”“AI强于医生”，本身就是片面的标签化解读。脱离测试场景、评判标准对比研究结论，本身就是不科学的判断方式。

三、不必纠结优劣，AI医疗尚处成长初期

大众总在追问：当下的AI看病到底行不行？能不能替代医生？
其实这个问题本身，就不符合现阶段AI医疗的发展现状。目前依托大语言模型打造的诊疗AI，仍处于早期摸索阶段。反复争论“AI强还是医生强”，就像质问一名中学生能否斩获诺贝尔奖，毫无实际意义。
比起纠结当下的优劣，我们更该聚焦问题本质：AI哪里做得好、哪里有缺陷？出错的底层原因是什么？能否针对性优化改进？
遗憾的是，两篇权威论文都没有深入解答核心问题。它们只证实了AI在不同场景下表现差异巨大，却没有深挖出错根源：AI渐进推理能力薄弱，是缺少临床对话式训练样本？还是模型本身无法适配不确定性判断？
不同的问题根源，对应截然不同的优化方案。若是样本缺失，补充模拟临床对话数据即可优化；若是模型架构存在先天缺陷，单纯迭代新版本模型毫无作用，需要重构底层逻辑。
未来AI医疗的核心研究方向，不该是反复开展“AI PK 医生”的对比实验，而要精准定位错误节点、剖析出错原因、验证优化方案。唯有如此，才能打破“AI神化”和“AI贬低”的两极舆论怪圈，稳步推动技术迭代。

四、顶级AI也犯低级错误，暴露医疗应用隐患

为了进一步厘清两篇论文的矛盾逻辑，我将论文原文上传至ChatGPT、Claude两大主流AI模型，询问二者结论相悖的原因。两款顶级AI均精准捕捉到研究方法、评判标准的差异，却不约而同犯下低级事实错误，暴露了当下AI用于专业医疗领域的致命隐患。

1、ChatGPT：混淆数据属性，颠倒实验逻辑

ChatGPT将AI表现差异归因于数据质量，它误认为《JAMA》研究采用无噪音的纯净标准化数据，更适配大模型运算，理应表现更好。

但事实恰恰相反，干净规范的标准化病例，反而让AI失误率居高不下；而《科学》研究采用存在干扰信息的真实病历，AI诊疗表现却更为优异。

2、Claude：混淆模型版本，误判硬件条件

Claude则将差距归结为模型迭代差异，声称《科学》采用性能更强的o1推理模型，而《JAMA》仅使用普通大语言模型。可真实数据显示，《JAMA》不仅搭载o1模型，还测试了2025年末多款主流最新模型；《科学》同时采用GPT-4和o1，两款模型检测结果并无明显差距。

五、破除AI迷信：别盲目期待下一代模型

两款顶级AI犯下的基础事实错误，折射出行业普遍痛点：如今的AI能够条理清晰地拆解复杂专业问题，输出逻辑通顺的答案，却极易在基础事实上出现偏差。这种“看似专业、实则失真”的特性，正是AI落地医疗领域最大的安全隐患。
与此同时，大众对AI的认知，陷入了固化的思维误区。人们习惯性认为：数据越干净、模型越新颖，AI能力就一定越强。这种观点早已脱离客观事实，变成一种盲目技术崇拜。
美国国家公共广播电台（NPR）的报道，就出现了典型的主观事实错误。该报道将《JAMA》的糟糕结果，归咎于模型版本老旧，刻意营造“技术迭代后AI能力大幅跃升”的观感。但真实时间线显示：《JAMA》使用的模型，更新程度晚于《科学》的实验模型。

六、结语：理性看待AI，拒绝极端标签化

不要盲目相信AI的标准答案，更不要默认新一代模型一定优于旧版本。
当下的AI医疗，没有网传的“神乎其神”，也并非一无是处。它擅长整合完整信息、做出终局判断，却难以应对临床诊疗中充满不确定性的渐进推理；它能梳理专业论文逻辑，却频繁在基础事实上出错。
比起追捧或贬低AI，我们更需要保持理性克制：抛开流量标签，摒弃盲目崇拜，聚焦技术本身的缺陷与优化方向。唯有脚踏实地攻克底层技术难题，AI医疗才能真正走出实验室，成为靠谱的医疗辅助工具。

本文来自微信公众号：一个生物狗的科普小园，作者：Y博的科普园