7B打敗o3、GPT-5，醫學AI智能體讓模型學會“看哪裡、怎麼看”

醫學AI進化：從「看什麼」到「怎麼看」

近年來，醫學AI智能體的發展已邁入關鍵拐點。研究顯示，僅擁有320億參數的醫療AI模型，便能在OpenAI所設計的HealthBench醫療評測中，擊敗OpenAI的o3與GPT-5模型，展現出強大的臨床判讀能力。

HealthBench是由全球262位醫生共同開發的醫療AI評測標準，涵蓋5,000個真實醫療對話情境，並由專業醫生設計評分標準（rubrics），確保測試內容的真實性與臨床相關性。

面對複雜的醫學影像，傳統AI僅能提供「是或否」的判斷，而新興醫療AI則能解釋診斷依據，例如指出「這個陰影是什麼？為什麼懷疑是腫瘤？具體的醫學證據在哪裡？」這顯示AI已學會「看哪裡、怎麼看」，並能提供可解釋的診斷依據。

根據2025年11月的「多模型臨床實戰測評」，由國內頂尖臨床專家組成的MedGPT模型，以明顯優勢擊敗OpenAI-o3、DeepSeek-R1、Gemini-等國際模型，顯示中國醫療AI在實際應用中已取得國際領先地位。

專家指出，AI無法取代醫生，因為每位患者的病情都具有高度個別性與不確定性。AI的價值在於協助醫生進行診斷與決策，並提供臨床學習指南，進而提升醫療品質與效率。