CMMLU由中文教科書中的選擇題組成

CMMLU由中文教科書中的多項選擇題組成。它已被用來評估中國的LLM，包括Qwen-72 B、Yi-Chat等。為了簡單起見，我們在零樣本環境中進行評估。

CMMLU是一個綜合的中文評估基準，專門用於評估中文背景下語言模型的知識和推理能力。
CMMLU涵蓋67個主題，從基礎學科到高級專業水平。
它包括：需要計算和推理的自然科學，需要知識的人文社會科學，需要生活常識的中國推動規則。
此外，CMMLU中的許多任務都有中國特定的答案，並且可能不普遍適用於其他地區或語言。因此，它完全是中國測試的中國基準。

隨著大型語言模型（LLM）功能的不斷提高，評估其性能也變得更加重要和具有挑戰性。本文旨在以CMMLU的形式用普通話解決這個問題，CMMLU是一個涵蓋自然科學、社會科學、工程和人文學科的綜合中國基準。我們對20多名當代多語言和中文法學碩士進行了全面評估，以評估他們在不同學科和環境中的表現。結果顯示，大多數現有的LLM甚至很難達到60%的準確率（中文測試的通過分數）。這凸顯了LLM的功能仍有很大改進空間。此外，我們還進行了大量實驗來確定影響模型性能的因素，並提出增強LLM的方向。CMMLU填補了在中文環境中評估大型語言模型的知識和推理能力的空白。

為此，研究人員創建了各種基準，旨在評估不同模型的能力（Wang等人，2019年b; a;林等人，2022年;澤勒斯等人，2019年;亨德里克斯等人，2021 b; Chen等人，2022）。，2021）。具體而言，Hendrycks等人（2021 a）提出了MMLU，這是一個涵蓋從基礎數學和計算機科學到管理和法律等任務的基準，可用於全面衡量LLM能力中所包含的知識。由於其多項選擇格式易於評估且涵蓋廣泛的學科領域，因此已被廣泛用作LLM編碼知識的基本評估工具。然而，該基準是英語的，這限制了其評估其他語言LLM的能力。儘管一些研究人員（OpenAI，2023）試圖自動翻譯它以評估其他語言的LLM，但該數據集對西方（尤其是美國）文化的固有偏見使得評估不同文化和語言的b1005變得不合適甚至不合適。

在本文中，我們提出了CMMLU（圖1），這是一個全面的中文評估套件，專門用於評估LLM在中文和文化背景下的高級知識和推理能力。CMMLU涵蓋廣泛的學科，包括從初級到高級專業水平的67個主題。它包括需要計算專業知識的學科，例如物理和數學，以及人文和社會科學領域的學科。由於其特定的上下文細微差別和措辭，其中許多任務不容易從其他語言翻譯。此外，CMMLU中的許多任務都有針對中國的答案，這些答案在其他地區或語言中可能不普遍適用或被認為是正確的。

我們在CMMLU上評估了GPT 4、ChatGPT和20多個高級開源多語言和中文LLM。結果顯示，大多數模型很難達到60%的準確率，而隨機準確率為25%。值得注意的是，GPT 4的平均準確率達到71%。這些發現凸顯了法學碩士在中文知識和語言理解方面仍有很大的改進空間。

此外，通過大量實驗，我們發現：（1）大多數現有模型並沒有受益於CMMLU中的思想鏈提示;（2）很少有示例幫助基本模型理解任務並增強其推理能力，但對於經過監督微調（SFT）或人類反饋強化學習（RL HF）的模型沒有幫助;（3）LLM在帶有否定的問題上的表現比沒有否定的問題更差，但最近發布的模型通過更好的預訓練數據或微調來減輕這種差異;（4）帶有子選項的問題（第4.2節）對於所有現有的LLM來說都很困難，甚至GPT 4對此類問題的準確性也下降了20%。

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

原文：https://arxiv.org/html/2306.09212v2
Github： https://github.com/haonan-li/CMMLU

視頻：