繁中

FAIR的新研究:通過多個標籤預測更好、更快的大型語言模型

Meta AI重新居間了他們的新論文,通過一次預測多個單詞來加速LLM訓練。

通常,語言模型根據已知單詞預測下一個單詞。本文建議一次預測接下來的多個單詞,而不僅僅是一個單詞。

這種方法在不增加訓練時間的情況下提高了代碼和自然語言模型處理下游任務的能力。對於較大的型號來說,這種改善更為明顯。

即使在處理大量數據時,使用4字預測訓練的模型在推理時也可以快三倍。

我們表明,用多個標記的預測替換下一個標記的預測任務可以通過完全相同的訓練預算和數據實現更好的代碼生成性能,同時還可以將推理性能提高3倍。

儘管之前曾使用類似的方法進行微調以提高推理速度,但這項研究擴展到大型模型的預訓練,顯示了這些規模下的顯著行為和結果。

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

研究論文: https://go.fb.me/wty7gj
紙張: https://arxiv.org/abs/2404.19737

視頻:

返回頂端