
劍橋大學臨床醫學院的最新研究發現,OpenAI的GPT-4模型在眼科評估中的表現幾乎可與該領域的專家相媲美。這一突破性成果在金融時報首次報道后,引起了醫療和科技界的廣泛關注。
在這項發表在PLOS數字健康雜志上的研究中,研究人員對GPT-4及其前身GPT-3.5、谷歌的PaLM 2以及梅塔美洲駝進行了眼科知識測試。測試內容涵蓋了從光敏感到病變等各個方面的87道選擇題,難度與眼科教科書中的題目相當。五名眼科專家、三名實習眼科醫生和兩名非專業初級醫生也接受了相同的模擬考試。值得注意的是,這些題目對于LLM模型而言是全新的,因為它們之前并未接觸過相關內容。
在測試中,GPT-4展現了令人印象深刻的表現,答對了60道問題,得分高于實習醫生和初級醫生。盡管這一成績略遜于眼科專家的平均得分66.4,但已足以顯示其在眼科評估領域的巨大潛力。相比之下,PaLM 2、GPT-3.5和梅塔美洲駝的得分分別為49分、42分和28分,均低于初級醫生的平均水平。
然而,盡管這些結果展示了LLM在醫療領域的潛在應用,研究人員也警告稱,必須謹慎對待這些模型的輸出結果。他們指出,測試中的問題數量有限,特別是在某些類別中,這可能導致實際結果有所偏差。此外,LLM模型存在“幻覺”現象,即生成不相關或錯誤的事實,這在醫療領域尤為危險。如果模型錯誤地診斷出白內障或癌癥等嚴重疾病,將可能對患者造成嚴重后果。
研究人員強調,雖然LLM模型在眼科評估中展現了令人鼓舞的初步成果,但在實際應用中仍需謹慎對待。未來,應進一步探索如何提高模型的準確性和可靠性,以確保其能夠安全、有效地服務于醫療領域。
此項研究為LLM模型在醫療領域的應用提供了新的視角,也提醒我們在追求技術進步的同時,必須關注其潛在的風險和局限性。隨著LLM技術的不斷發展,我們期待未來能夠看到更多關于其如何在醫療領域造福社會的報道。
原創文章,作者:若安丶,如若轉載,請注明出處:http://www.bdzhitong.com/article/648782.html