OpenAI發布SWE-長凳已驗證

用於增強人工智慧模型評估

2024年8月13日，OpenAI推出了SWE-based Verification，這是原始SWE-based基準的改進子集，旨在更準確地評估人工智慧模型解決現實世界軟體問題的能力。這個新版本包含500個手動驗證的樣本，並解決了之前在任務清晰度和評估準確性方面的缺陷。

驗證過程中的關鍵發現表明，由於問題陳述不明確或單元測試不公平等問題，68.3%的原始SWE工作檯樣本被過濾。更新後的基準允許GPT-4 o解決33.2%的任務，顯著提高了其之前在原始套件中16%的得分。

該開發涉及與93名專業開發人員的合作，他們對總共1，699個隨機樣本進行了注釋，通過嚴格的篩選過程確保了高質量的評估。此外，改進還包括使用容器化Docker環境來構建可靠的測試環境。

該計劃是OpenAI更廣泛的準備框架的一部分，該框架旨在增強模型自主性，同時解決評估複雜軟體工程任務所固有的挑戰。

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

輸油管：