谷歌：個人健康大語言模型和代理研究

原文摘要

大型語言模型（llm）可以檢索、推理和推斷廣泛的信息。在健康方面，迄今為止的大多數LLM工作都集中在臨床任務上。
然而，很少集成到臨床任務中的移動和可穿戴設備為個人健康監測提供了豐富、連續和垂直的數據來源。本文提出了一種新模型，即個人健康大語言模型（PH-LLM），這是Gemini的微調版本，用於對睡眠和健身應用的數字時間序列個人健康數據進行文本理解和推理。
為了系統性評估PH-LLM，我們創建並規劃了三個新的基準數據集進行測試
1)根據測量的睡眠模式、身體活動和生理反應得出的個性化見解和建議，
2)專業領域知識，以及
3)自我報告的睡眠質量結果的預測。
為了執行洞察和建議任務，我們創建了857個有關睡眠和健身的案例研究。這些案例研究是與領域專家合作設計的，代表現實世界的場景，並強調模型的理解和指導能力。
通過對特定領域指標的全面手動和自動評估，我們觀察到Gemini Ultra 1.0和PH-LLM與健身專家之間的性能沒有統計學差異。儘管專家在睡眠方面的表現仍然優於專家，但微調PH-LLM在利用相關領域的知識和個性化信息方面有顯著改進。
為了進一步評估專家領域知識，我們評估了PH-LLM在睡眠醫學和健身多項選擇考試中的表現。
phd-llm在睡眠（N=629個問題）和健身（N=99個問題）方面獲得了79%的分數，兩者都超過了人類專家樣本的平均分和在這些領域獲得持續信用的基準。為了使PH-LLM能夠預測報告的睡眠質量評估，
我們訓練該模型，以根據可穿戴傳感器數據的文本和多模式編碼表示來預測自我報告的睡眠中斷和睡眠障礙結果。
事實證明，多模式編碼對於匹配一組辨別模型的性能來預測這些結果既是必要的，也是充分的。儘管在個人健康的安全關鍵領域需要進一步的開發和評估，但這些結果證明了Gemini模型的廣泛知識基礎和能力，以及將生理數據用於個人健康應用（如PH-LLM）的好處。

欲了解更多詳細信息，您可以瀏覽視頻下方的連結
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

紙張：https://arxiv.org/abs/2406.06474
輸油管：