Kwseeto

比较 AI 与医生，来一场真正公平的测试司徒

Kwseeto (2025-07-10 00:17:42) 评论 (18)

比较 AI 与医生的诊断能力，我们应该设计一场真正公平的测试

司徒

最近有一项实验使用了304个来自《新英格兰医学杂志》的标准病例。AI系统与来自美国和英国、拥有5到20年临床经验的21位医生进行对比。他们被要求逐步处理这些病例，包括选择检查项目、问诊内容，以及进行鉴别诊断。

结果显示，当AI系统搭配使用OpenAI最新的大型语言模型时，能够在85.5%的病例中做出正确诊断；相比之下，这21位医生的平均准确率只有20%。

乍一看，AI似乎遥遥领先。但问题在于：AI拥有几乎整个世界的医学知识和数据库，而医生却被禁止使用任何他们平时会依赖的资源——比如同事会诊、医学书籍，甚至AI工具本身。

这样的对比根本不公平，也不符合真实医疗情境。这就像一场考试：一个人是开卷考试，另一个人却被要求闭卷，不能查资料也不能问问题。在这种设定下，结果从一开始就已经注定了。

更值得指出的是，这些病例并不是来自现实门诊的复杂情境，而是医生事先整理并润色过的教学案例。这类结构清晰、用词标准的病例，正是AI最擅长处理的，但却无法代表真实世界中病人的表现方式。

在现实生活中，病人不会说：“我左臂无力，怀疑锥体束受损。”他们往往只是说：“我胳膊感觉怪怪的。”这种“怪”，可能是疼痛、麻木、无力，也可能是心理压力或焦虑。医生不仅要理解这些模糊的表达，还要通过病人的语气、表情、行为，判断其中是否夹杂情绪、社交甚至法律层面的因素。

我觉的来一次公平的测试是必要的。真正有说服力的比较，应该是这样的：

1. 一方是由AI驱动的机器人，拥有数据、传感器和推理能力；

2. 另一方是经验丰富、具备执照的医生，合理地将AI工具融入到诊疗流程中作为辅助。

两者都必须面对真实的病人：亲自问诊、体格检查、情绪评估，在不确定中做出诊断，而不是仅仅处理整理好的纸面病例。然后再比较两者的表现。

在这样的公平实验尚未完成之前，宣称AI能够取代医生，是可能引起公众的误会。

当前的研究最多只能说明：AI在处理为它量身打造、结构清晰的标准问题时表现出色。而医生在被剥夺所有常规工具的情况下自然处于劣势，这本不令人惊讶。

医学不是纸上谈兵，也不仅仅是逻辑推理或数据匹配。医疗的本质是责任，是人对人的理解、同理心与承诺。

我们有必要认真追问：所谓“AI超过医生”的说法，是建立在怎样的测试和前提之上。否则，这些报道只会误导公众，让人错误地以为医生已经可以被AI/机器替代了。

比较 AI 与医生，来一场真正公平的测试司徒

今日热点

一周热点

Kwseeto

比较 AI 与医生，来一场真正公平的测试司徒

比较 AI 与医生，来一场真正公平的测试 司徒

今日热点

一周热点

Kwseeto

比较 AI 与医生，来一场真正公平的测试 司徒

比较 AI 与医生，来一场真正公平的测试司徒

比较 AI 与医生，来一场真正公平的测试司徒