繁中

史丹福大學開發了一種幾乎不會產生幻覺的模型:維基聊天

維基聊天基於英語維基百科信息。當它需要回答問題時,它會首先在維基百科上找到相關且準確的信息,然後提供答案,確保答案既有用又可靠。

在人類和LLM混合評估中,WikiChat的事實準確率達到了97.3%,這也普遍高於其他模型。

它幾乎不會產生幻覺,具有高度對話性,延遲時間低。

(The online test address given by ⚠️ I tried a few times and it didn't work, so I can't evaluate the accuracy)

主要特點:

  • 高度準確:由於維基聊天直接依賴於維基百科(一個權威且經常更新的信息來源),因此它在提供事實和數據方面非常準確。
  • 減少「幻覺」:LLM在談論最新事件或不太受歡迎的話題時容易出現錯誤信息。維基聊天通過結合維基百科數據來減少這種信息錯覺。
  • 對話式:儘管維基聊天強調準確性,但仍然能夠保持流暢、自然的對話風格。
  • 適應性:可以適應各種類型的查詢和對話場景。
  • 高效性能:通過優化,WikiChat可以更快地回答問題,同時降低運營成本。

工作原理:

WikiChat使用模型蒸餾技術將基於GPT-4的模型轉換為更小、更高效的LLaMA模型(70億個參數),以提高響應速度並降低成本。

WikiChat的工作流程涉及多個階段,包括檢索、總結、生成、事實檢查等。每個階段都經過精心設計,以確保整個對話的準確性和流暢性。

1.檢索信息:與用戶對話時,維基聊天首先確定是否需要訪問外部信息。例如,當用戶提出特定問題或需要更全面的答案時。WikiChat生成搜索查詢以捕獲用戶的興趣,並基於此查詢從維基百科等知識庫檢索相關信息。
2.總結和過濾:檢索到的信息可能包含相關部分和不相關部分。WikiChat提取相關部分並將其總結為關鍵點,同時過濾掉不相關的內容。
3.生成LLM響應:接下來,使用GPT-4等大型語言模型來生成具有對話歷史記錄的響應。此步驟生成的內容通常很有趣且相關,但它本質上是不可靠的,因為它可能包含未經驗證或不正確的信息。
4.事實核查:WikiChat將LLM的回應分解為多個主張,並對每個主張進行事實核查。它使用檢索系統從知識庫中獲取每個主張的證據,並基於該證據驗證主張。僅保留那些有證據支持的主張。
5.形成回應:最後,維基聊天室使用經過過濾和驗證的信息來形成引人入勝的回應。該過程分為兩個步驟:首先生成回復草稿,然後根據相關性、自然性、非重複性和時機進行優化和改進。

混合人類和大型語言模型(LLM)評估方法下的性能:

1.高事實準確性:在模擬對話中,WikiChat的同類最佳系統實現了97.3%的事實準確性。這意味著當它回答問題或提供信息時,幾乎所有的回答都是基於事實和真實數據。
2.與GPT-4的比較:當談到頭部知識時(即,常見或流行話題)、尾部知識(即,不太常見或討論較少的主題),以及最近的知識(即,最新事件或信息),與GPT-4相比,WikiChat的事實準確性分別提高了3.9%、38.6%和51.0%。這表明維基聊天在處理不同類型的信息時有了顯著的改進,尤其是在處理討論較少的主題和最新信息時。
3.與基於搜索的聊天機器人的比較:與之前最先進的基於搜索的聊天機器人相比,WikiChat不僅在事實準確性方面表現更好,而且在提供信息和吸引客戶參與方面也表現更好。這意味著維基聊天能夠提供更豐富、更有趣的對話體驗。

總體而言,WikiChat在處理複雜、動態和多樣化的信息需求方面的卓越性能,特別是在準確性和客戶參與度方面,得到了顯著提高。

GitHub:https://github.com/stanford-oval/WikiChat
紙張:https://arxiv.org/abs/2305.14292
在線體驗:https://wikichat.genie.stanford.edu

返回頂端