美國醫學期刊研究顯示 AI 早期診斷錯誤率逾 80%
研究背景與發布
美國醫學會旗下期刊 JAMA Network Open 於本週發布一項重要研究,針對現行大型語言模型(LLMs)在臨床推理中的表現進行評估。研究指出,這些 AI 模型在早期的鑑別診斷階段存在顯著限制,錯誤率普遍超過 80%。
研究數據與分析
研究團隊分析了 21 款大型語言模型,並對 29 個臨床案例進行了測試。結果顯示:
- 早期階段表現不佳:在「檢查選擇」與「鑑別診斷」(識別可能的疾病)階段,AI 的錯誤率高達 80%。
- 後期階段表現較佳:當患者提供更多檢測結果後,AI 在「最終診斷」與「治療管理」的準確率相對較高,失敗率降至 40% 以下。
- 模型間差異:各模型整體表現仍有差距,但在不同診療階段呈現明顯不均。
研究結論
儘管 AI 在影像診斷等特定領域展現進步,但在處理複雜的臨床推理時,特別是在初步症狀分析階段,其準確度仍無法完全取代人類醫師。研究強調,在 AI 技術尚未成熟前,人類醫師在最終決策中仍扮演關鍵角色。
