史丹福大學和麻省理工學院的研究人員啟動搜索流

一個機器學習框架，使語言模型能夠在沒有任何外部支持的情況下通過搜索語言來學習解決問題

來自史丹福大學、麻省理工學院和Harvey Mudd的研究人員設計了一種方法，通過將搜索過程表示為序列化的字符串「搜索流」（SoS）來教授語言模型如何搜索和回溯。他們提出了一種統一的搜索語言，並通過一個倒計時遊戲進行了演示。在搜索流上對基於transformer的語言模型進行預訓練，準確率提高了25%，而通過策略改進方法進行的進一步微調，解決了36%以前未解決的問題。這表明語言模型可以通過搜索來學習解決問題，提高自己，並自己發現新的策略。

最近的研究將語言模型集成到搜索和規劃系統中，使用它們來生成和評估潛在的動作或狀態。這些方法使用BFS或DFS等符號搜索算法來制定探索策略。但LM主要用於推理，推理能力有待提高。相反，上下文演示使用語言來解釋搜索過程，允許LM相應地執行樹搜索。然而，這些方法受到演示計劃的限制。流程監督涉及訓練外部驗證器模型，為LM訓練提供詳細的反饋，LM訓練的性能比結果監督更好，但需要大量的標記數據。

以下是論文摘要：

想像一下，只看到問題的正確解決方案，但沒有看到錯誤或從中恢復。您可能會了解到問題必須一次性解決，而不是通過探索和錯誤。大多數用於訓練語言模型（LM）的數據僅反映決策過程的結果，而不是決策過程本身。LM永遠不會犯錯。他們永遠不會學會搜索、計劃或回去。複雜的決策和推理需要搜索。在本文中，我們探討了培訓LM對搜索過程的影響（包括錯誤），然後讓他們自我改進。

事實證明，基於變形金剛的自回歸模型難以應對規劃（Valmeekam等人，2024年;Pallagani等人，2023年;Momennejad等人，2024年）。最近的工作通過確定兩個主要問題來凸顯了自回歸模型的弱點（LeCun，2023;Bachmann Nagarajan，2024）：
1)錯誤越滾越大，個別錯誤可能會加劇並導致後續步驟中的性能變差（Ross等人，2011年;阿羅拉等人，2022年），以及
2)「前瞻性任務」中的困難，即模型必須提前幾步預測其行為的後果（信用分配，參見第19章）。薩頓和巴托，2018年）。
這兩個問題都可以歸因於搜索和可追溯性能力有限。雖然最近將語言模型與符號搜索算法相結合的努力（Ahn等人，2022年;Yao等人，2024）為了緩解其中一些問題，它們是有限的--僅在推理過程中補充語言模型--並且它們留下了一個懸而未決的問題：語言模型是否可以有效地獨自搜索。也許學習搜索最重要的結果是在訓練過程中（Silver等人，2018）。如果語言模型能夠在訓練中學會搜索，他們也許能夠通過自我完善發現更靈活的搜索策略。這可能會導致模型能夠更好地應對錯誤的複合和主動任務帶來的挑戰。

結果表明，基於transformer的語言模型可以通過搜索學習解決問題，同時展示如何從錯誤中恢復並通過不同的選項進行搜索。更重要的是，我們的研究結果表明，這些模型可以自我改進，自主使用不同的搜索策略來解決以前未解決的問題。最後，我們看到了一些證據，表明他們在經過優化準確性的訓練後發現了新的搜索策略。

這些操作中的每一個都可以是隱式的，影響軌跡的展開方式，或者作為搜索軌跡的一部分以語言顯式表達。當操作是隱式的時，模型更有可能內化其抽象表示，這可以通過訓練來改進。𝒯顯式操作變成LM做出的顯式推理動作。我們選擇清楚地表達當前狀態、目標狀態、回溯操作、目標檢查和軌跡中的勘探選項。我們選擇隱性啟發法、狀態價值觀和修剪策略。

@Stanford @MIT_CSAIL
論文： https://arxiv.org/abs/2404.03683
GitHub： https://github.com/kanishkg/stream-of-search
快速閱讀： https://marktechpost.com/2024/04/10/researchers-at-stanford-and-mit-introduced-the-stream-of-search-sos-a-machine-learning-framework-that-enables-language-models-to-learn-to-solve-problems-by-searching-in-language-without-any-externa/

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

視頻：