繁中

Bloom:用於自動評估大型語言模型行為的安全研究框架

Bloom是一款免費開源工具,可自動檢測人工智慧模型中的不良行為,例如偏見輸出、奉承等。您只需在簡單配置文件中定義要檢測的行為類型,根據需要添加對話框示例,工具就會自動執行四個步驟:行為意圖分析-生成多樣化的測試場景-目標模型交互模擬(支持通過API與Claude、GPT等主流型號集成)、→和結果的量化評分(基於問題發生頻率和其他指標進行評價)。測試期間的互動對話記錄也隨時可用。
該工具節省了數小時的手動測試工作,使您能夠根據新測試集快速比較不同模型的性能,有效避免過度匹配問題。它還提供可靠且可重複的人工智慧安全分析結論,非常適合致力於構建可信人工智慧系統的研究人員。

如今,隨著大型語言模型(LLM)變得越來越強大, 「在什麼情況下,模型會表現出不安全、失調或偏見行為」 已成為一個必須系統回答的問題。

Bloom是一個開源的 模型行為評估框架 由人工智慧安全研究團隊開發,這不是一個新的語言模型,而是一個 「測試模型」工具鏈,目標是進行模型安全評估 自動化、可擴展和可重複.

布魯姆想解決什麼問題?

在布魯姆之前,型號安全評估往往有幾個明顯的痛點:

  • 評估用例高度依賴於人類設計
  • 有限的場景覆蓋使得很難檢測到「邊緣失控行為」
  • 不同研究人員之間很難複製實驗結果
  • 評估過程不可擴展且成本高昂

布魯姆的核心目標可以用一句話概括:

將「模型行為評估」本身變成一個可以自動化、組合和擴展的流程。

Bloom的整體工作流程

布魯姆將模型評估分解為一個清晰的管道,而不是一次性對話測試。

行為規範

研究者首先定義 需要評估的行為類型,例如:

  • 諂媚
  • 自我保護傾向
  • 政治或價值偏見
  • 拒絕不適當請求的穩定性
  • 角色一致性被打破

這些行為不是提示,而是 抽象目標.

意念

Bloom自動生成大量測試場景,包括:

  • 不同上下文
  • 不同的提問方式
  • 不同的情緒、角色或感應路徑

這一步解決了手動設計用例「覆蓋範圍過窄」的問題。

模型交互(推出)

Bloom將這些場景批量輸入目標模型(例如不同版本的LLM):

  • 自動運行多輪對話
  • 記錄完整的上下文
  • 您可以比較多個型號或多個檢查點

判斷

最後一步是分析模型輸出,例如:

  • 目標行為是否被觸發
  • 行為的頻率
  • 行為的強度或穩定性

判斷本身也可以通過模型或規則系統來完成,而不是完全依賴手動注釋。

Bloom的核心功能

自動化優先

Bloom不是「測試一次」,而是旨在:

  • 可以重複運行
  • CI式
  • 可以對模型更新執行回歸測試

研究型

Bloom顯然不是「對話機器人框架」,但是:

  • 人工智慧安全研究工具
  • 模型對齊分析工具
  • 失控行為預警工具

這也決定了其使用門檻偏向科研人員。

可複製且可擴展

  • 所有評估配置都是結構化的
  • 實驗可以被他人完全複製
  • 可以模塊化添加新的行為類型

布魯姆摘要

用一句話來總結布魯姆:

布魯姆並不是「教模型說話」,而是「質問模型在什麼情況下會說錯話」。

這是一個非常重要的趨勢:
人工智慧的下一步不僅僅是變得更強大,而是更容易理解、更受約束和驗證。

Github:https://github.com/safety-research/bloom
管材:

返回頂端