用於增強人工智慧模型評估
2024年8月13日,OpenAI推出了SWE-based Verification,這是原始SWE-based基準的改進子集,旨在更準確地評估人工智慧模型解決現實世界軟體問題的能力。這個新版本包含500個手動驗證的樣本,並解決了之前在任務清晰度和評估準確性方面的缺陷。
驗證過程中的關鍵發現表明,由於問題陳述不明確或單元測試不公平等問題,68.3%的原始SWE工作檯樣本被過濾。更新後的基準允許GPT-4 o解決33.2%的任務,顯著提高了其之前在原始套件中16%的得分。
該開發涉及與93名專業開發人員的合作,他們對總共1,699個隨機樣本進行了注釋,通過嚴格的篩選過程確保了高質量的評估。此外,改進還包括使用容器化Docker環境來構建可靠的測試環境。
該計劃是OpenAI更廣泛的準備框架的一部分,該框架旨在增強模型自主性,同時解決評估複雜軟體工程任務所固有的挑戰。
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
原文:https://openai.com/index/introducing-swe-bench-verified/
輸油管: