您的位置:
文学城
» 博客
»比较 AI 与医生,来一场真正公平的测试 司徒
比较 AI 与医生,来一场真正公平的测试 司徒
比较 AI 与医生的诊断能力,我们应该设计一场真正公平的测试
司徒
最近有一项实验使用了304个来自《新英格兰医学杂志》的标准病例。AI系统与来自美国和英国、拥有5到20年临床经验的21位医生进行对比。他们被要求逐步处理这些病例,包括选择检查项目、问诊内容,以及进行鉴别诊断。
结果显示,当AI系统搭配使用OpenAI最新的大型语言模型时,能够在85.5%的病例中做出正确诊断;相比之下,这21位医生的平均准确率只有20%。
乍一看,AI似乎遥遥领先。但问题在于:AI拥有几乎整个世界的医学知识和数据库,而医生却被禁止使用任何他们平时会依赖的资源——比如同事会诊、医学书籍,甚至AI工具本身。
这样的对比根本不公平,也不符合真实医疗情境。这就像一场考试:一个人是开卷考试,另一个人却被要求闭卷,不能查资料也不能问问题。在这种设定下,结果从一开始就已经注定了。
更值得指出的是,这些病例并不是来自现实门诊的复杂情境,而是医生事先整理并润色过的教学案例。这类结构清晰、用词标准的病例,正是AI最擅长处理的,但却无法代表真实世界中病人的表现方式。
在现实生活中,病人不会说:“我左臂无力,怀疑锥体束受损。”他们往往只是说:“我胳膊感觉怪怪的。”这种“怪”,可能是疼痛、麻木、无力,也可能是心理压力或焦虑。医生不仅要理解这些模糊的表达,还要通过病人的语气、表情、行为,判断其中是否夹杂情绪、社交甚至法律层面的因素。
我觉的来一次公平的测试是必要的。真正有说服力的比较,应该是这样的:
1. 一方是由AI驱动的机器人,拥有数据、传感器和推理能力;
2. 另一方是经验丰富、具备执照的医生,合理地将AI工具融入到诊疗流程中作为辅助。
两者都必须面对真实的病人:亲自问诊、体格检查、情绪评估,在不确定中做出诊断,而不是仅仅处理整理好的纸面病例。然后再比较两者的表现。
在这样的公平实验尚未完成之前,宣称AI能够取代医生,是可能引起公众的误会。
当前的研究最多只能说明:AI在处理为它量身打造、结构清晰的标准问题时表现出色。而医生在被剥夺所有常规工具的情况下自然处于劣势,这本不令人惊讶。
医学不是纸上谈兵,也不仅仅是逻辑推理或数据匹配。医疗的本质是责任,是人对人的理解、同理心与承诺。
我们有必要认真追问:所谓“AI超过医生”的说法,是建立在怎样的测试和前提之上。否则,这些报道只会误导公众,让人错误地以为医生已经可以被AI/机器替代了。
Kwseeto 发表评论于
回复 '无名2024' 的评论 : 的确, 青年医生拿起AI会胜过不懂AI的老医生most of the time !
无名2024 发表评论于
帖主要求的公平测试本身就点明了AI的重要性:再有经验的医生没有AI就没法赢就不公平。LOL
帖子开头的测试大概也许只是意图说明AI的重要性。恐怕不是要彻底驱赶医生。
不过AI的学习能力(或人类再叠加给AI的能力)是超越医生学习能力的。特种AI代替部分医生的日子可能不远了(十年内?)比如普通日常家庭医生的工作(年度检查,看不了就转专科)。
关键是政府监管能否通过 - 医疗事故找AI追责?像家庭医生大概率不会涉及严重医疗事故的也许会先放行。
大河边的人 发表评论于
外行不要把当医生想象得太简单了,不说基本的望,听,叩,导管,光纤镜检查和门诊手术技术,很多病人脑袋根本就是没有逻辑的或表达能力有障碍,甚至根本说不出话来。没有医生的引导连个主诉都归纳不出来。计算机辅助诊断早在计算机应用初期就试过,更本代替不了人的,和数据库类似只能做个工具。
Kwseeto 发表评论于
回复 'earth2029' 的评论 : 使医生知识库迅速增长
Kwseeto 发表评论于
回复 'Yangtsz' 的评论 : AI 的确很有重 尤其在医生指导下
Yangtsz 发表评论于
我对AI诊断报有极大的期待和信心。
1. AI非常耐心而且随时服务,它可以长时间收集病人对症状的描述,包括及时更新,判断
2.AI非常专注。如果病人长期使用,它会记住所有历史数据,检查结果,以此帮助诊断
3. AI 可以自动联接其它手机应用,对病人的生活习惯,旅游地点,饮食,运动习惯了如指掌。
一般人没有能力支付个人化的顶级医疗服务,AI 就是个人医生的通用版。热切期盼医疗专用AI的诞生。
earth2029 发表评论于
应该是缩小了资深医生和普通的差别、降低了医生执业的门槛,以后医生多了医疗费用就下降了。
Kwseeto 发表评论于
回复 'hagerty' 的评论 : 使用AI也要经验 就像用听诊器一样
hagerty 发表评论于
我个人直觉,一个医学院毕业的学生精通AI的,会比一个不会AI的老医生更准确的诊断病情。或者说,一旦都用了AI,新老医生就一个水平了。所以我很想看到类似的测试。
Kwseeto 发表评论于
回复 'hagerty' 的评论 : 这个问题问得好。AI的確可以提供無數文獻與資訊,但醫療現場不是文獻的複誦比賽。真正的病人,往往不是教科書裡的標準病例。有些病徵混雜,有些疾病表現方式變異不定,有些情況即使全世界的文獻資料庫裡也找不到先例。這時候,臨床經驗,就成了關鍵。
hagerty 发表评论于
Kwseeto 发表评论于 2025-07-10 14:59:58
回复 'hagerty' 的评论 : 一定的个人经验还是需要的
====
一个人再有经验,比不过AI综合所有人类经验吧。
Kwseeto 发表评论于
回复 'cager812' 的评论 : 把AI机器人送进病房单独问病史检查和诊断,对比真正的医生(可查AI和问同事),这是较公平的对比
Kwseeto 发表评论于
回复 '北京_01link' 的评论 : 如果医生不听病人叙述就没有尽责
Kwseeto 发表评论于
回复 'hagerty' 的评论 : 一定的个人经验还是需要的
hagerty 发表评论于
我希望看到的测试是,老医生和医学院刚毕业的学生,想用AI都可以。谁的诊断更准。
如果老医生没有更准,那就简单了。未来不用专找老军医了;)
北京_01link 发表评论于
现在的医生十分依靠检查结果,而非病人的叙述。所以AI必将取代医生。至少是那些凭检查结果治病的医生。
cager812 发表评论于
“真正公平”---不可能的鉴定。
Kwseeto 发表评论于
真正的測試不是 “拥有全世界文献的AI对闭卷考试的医生,而是「AI 驅動的系統」對比「使用 AI 的有经验的專科醫師」。
兩者都應該接觸真實的病人——不是教科書裡挑出來的理想案例。他們應該親自問診、做体检、下診斷,然後再比較結果:診斷準確度、安全性、病人信任程度、長期效果。這才是公平的比較。
而事實是:我們至今還沒有真正做過這樣的測試。