Bloom：用於自動評估大型語言模型行為的安全研究框架

Bloom是一款免費開源工具，可自動檢測人工智慧模型中的不良行為，例如偏見輸出、奉承等。您只需在簡單配置文件中定義要檢測的行為類型，根據需要添加對話框示例，工具就會自動執行四個步驟：行為意圖分析-生成多樣化的測試場景-目標模型交互模擬（支持通過API與Claude、GPT等主流型號集成）、→和結果的量化評分（基於問題發生頻率和其他指標進行評價）。測試期間的互動對話記錄也隨時可用。
該工具節省了數小時的手動測試工作，使您能夠根據新測試集快速比較不同模型的性能，有效避免過度匹配問題。它還提供可靠且可重複的人工智慧安全分析結論，非常適合致力於構建可信人工智慧系統的研究人員。

如今，隨著大型語言模型（LLM）變得越來越強大， 「在什麼情況下，模型會表現出不安全、失調或偏見行為」 已成為一個必須系統回答的問題。

Bloom是一個開源的 模型行為評估框架 由人工智慧安全研究團隊開發，這不是一個新的語言模型，而是一個 「測試模型」工具鏈，目標是進行模型安全評估 自動化、可擴展和可重複.

布魯姆想解決什麼問題？

在布魯姆之前，型號安全評估往往有幾個明顯的痛點：

評估用例高度依賴於人類設計
有限的場景覆蓋使得很難檢測到「邊緣失控行為」
不同研究人員之間很難複製實驗結果
評估過程不可擴展且成本高昂

布魯姆的核心目標可以用一句話概括：

將「模型行為評估」本身變成一個可以自動化、組合和擴展的流程。

Bloom的整體工作流程

布魯姆將模型評估分解為一個清晰的管道，而不是一次性對話測試。

行為規範

研究者首先定義 需要評估的行為類型，例如：

諂媚
自我保護傾向
政治或價值偏見
拒絕不適當請求的穩定性
角色一致性被打破

這些行為不是提示，而是 抽象目標.

意念

Bloom自動生成大量測試場景，包括：

不同上下文
不同的提問方式
不同的情緒、角色或感應路徑

這一步解決了手動設計用例「覆蓋範圍過窄」的問題。

模型交互（推出）

Bloom將這些場景批量輸入目標模型（例如不同版本的LLM）：

自動運行多輪對話
記錄完整的上下文
您可以比較多個型號或多個檢查點

判斷

最後一步是分析模型輸出，例如：

目標行為是否被觸發
行為的頻率
行為的強度或穩定性

判斷本身也可以通過模型或規則系統來完成，而不是完全依賴手動注釋。

Bloom的核心功能

自動化優先

Bloom不是「測試一次」，而是旨在：

可以重複運行
CI式
可以對模型更新執行回歸測試

研究型

Bloom顯然不是「對話機器人框架」，但是：

人工智慧安全研究工具
模型對齊分析工具
失控行為預警工具

這也決定了其使用門檻偏向科研人員。

可複製且可擴展

所有評估配置都是結構化的
實驗可以被他人完全複製
可以模塊化添加新的行為類型

布魯姆摘要

用一句話來總結布魯姆：

布魯姆並不是「教模型說話」，而是「質問模型在什麼情況下會說錯話」。

這是一個非常重要的趨勢：
人工智慧的下一步不僅僅是變得更強大，而是更容易理解、更受約束和驗證。

Github：https://github.com/safety-research/bloom
管材：