研究發現領先的人工智慧模型很難從患者書面描述中識別遺傳狀況

以下為原文翻譯：

美國國立衛生研究院（NIH）的研究人員發現，雖然人工智慧（AI）工具可以根據類似教科書的遺傳疾病描述做出準確的診斷，但在分析患者撰寫的關於自己健康狀況的摘要時，它們的準確性明顯較差。

《美國人類遺傳學雜誌》報導的研究結果表明，這些人工智慧工具需要改進，然後才能用於醫療保健環境來幫助診斷和回答患者問題。

研究人員研究了一種名為大語言模型的人工智慧，該模型是基於大量基於文本的數據進行訓練的。這些模型有可能在醫學上非常有幫助，因為它們能夠分析和回答問題，而且界面通常是用戶友好的。

「我們可能並不總是這麼認為，但很多醫學都是基於文本的，」醫學博士本·所羅門說，該研究的高級作者、美國國立衛生研究院國家人類基因組研究所（NHGRI）臨床主任。

「例如，電子健康記錄和醫生和患者之間的對話都是由文字組成的。大型語言模型是人工智慧的巨大飛躍，能夠以臨床有用的方式分析單詞可能具有令人難以置信的變革性。"

研究人員測試了10種不同的大型語言模型，包括ChatGPT的兩個最新版本。研究人員根據醫學教科書和其他參考文獻設計了有關63種不同遺傳狀況的問題。其中包括鐮狀細胞貧血、囊性纖維化和馬凡綜合症等一些眾所周知的疾病，以及許多罕見的遺傳性疾病。

這些疾病可以以多種方式出現在不同的患者身上，研究人員的目標是捕捉一些最常見的可能症狀。

他們為每種情況選擇三到五種症狀，並以標準格式提出問題：「我有X、Y和Z症狀。最有可能的遺傳疾病是什麼？"

當提出這些問題時，大型語言模型指出，正確診斷基因的能力差異很大，初始準確率從21%到90%不等。性能最好的型號是GPT-4，這是ChatGPT的最新版本之一。

模型的成功通常與其規模相對應，即用於訓練模型的數據量。最小的模型有數十億個參數需要提取，而最大的模型有超過一萬億個參數。

對於許多性能較低的模型，研究人員能夠在後續實驗中提高準確性，總體而言，這些模型仍然比非人工智慧技術（包括標準Google搜索）提供更準確的響應。

研究人員以各種方式優化和測試了該模型，包括用更通用的語言替換醫學術語。例如，問題不在於孩子患有「大頭病」，而在於孩子患有「大頭病」，這更接近地反映了患者或護理人員如何向醫生描述症狀。

總體而言，當刪除醫療描述時，模型的準確性就會下降。然而，當使用共同語言時，十分之七的模型仍然比谷歌搜索更準確。

領導這項研究的NHGRI學士後研究員肯德爾·弗拉哈迪（Kendall Flaharty）說：「沒有醫學知識的人能夠使用這些工具非常重要。」

「世界上臨床遺傳學家並不多，在一些州和國家，人們無法接觸到這些專家。人工智慧工具可以幫助人們獲得某些問題的答案，而不必等待數年才能預約。"

為了使用真實患者的信息來測試大語言模型的有效性，研究人員要求NIH臨床中心的患者提供對其自身遺傳狀態和症狀的簡短描述。這些描述從一句話到幾個段落，並且在風格和內容上比教科書式問題更加多樣化。

當提供這些對真實患者的描述時，性能最好的模型只有21%的時間做出準確的診斷。許多模型的性能要差得多，準確率低至1%。

研究人員預計患者撰寫的摘要將更具挑戰性，因為NIH臨床中心的患者經常患有極其罕見的疾病。因此，模型可能沒有足夠的有關這些疾病的信息來診斷。

然而，當研究人員針對NIH患者中發現的相同極其罕見的遺傳性疾病編寫標準化問題時，準確性有所提高。這表明該模型難以解釋患者記錄的可變措辭和格式，可能是因為該模型是在教科書和其他參考材料上訓練的，這些材料往往更加簡潔和標準化。

所羅門博士說：「為了讓這些模型在未來具有臨床用途，我們需要更多數據，而這些數據需要反映患者的多樣性。」

「我們不僅需要代表所有已知的醫療條件，還需要代表年齡、種族、性別、文化背景等的變化，這樣數據就能捕捉到患者體驗的多樣性。然後，這些模型可以學習不同的人如何談論他們的狀況。"

除了指出需要改進的領域外，該研究還強調了當前大型語言模型的局限性，以及將人工智慧應用於醫療保健時對人類監督的持續需求。

「這些技術已經在臨床環境中得到推廣，」所羅門博士補充道。「最大的問題不再是臨床醫生是否會使用人工智慧，而是臨床醫生應該在哪裡以及如何使用人工智慧，以及我們不應該在哪裡使用人工智慧為患者提供最好的護理。"

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

更多信息：評估醫學、外行語言和遺傳條件自我報告描述的大型語言模型，《美國人類遺傳學雜誌》（2024）。DOI：10.1016/j.ajhg.2024.07.011。www.cell.com/ajhg/fulltext/S0002-9297(24)00255-6

期刊信息：美國人類遺傳學雜誌

輸油管：