OpenAI 發布開放程式碼安全模型 gpt-oss-safeguard


OpenAI 團隊發布 gpt-oss-safeguard 的研究預覽版,這是用於安全分類任務的開放權重推理模型,提供兩種版本:gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。

gpt-oss-safeguard 模型利用推理在推理階段直接解讀開發者提供的策略,並根據開發者的需求對使用者訊息、補全和完整聊天記錄進行分類。開發者始終決定使用哪種策略,因此回應更加相關,也更貼合開發者的實際用例。

該模型採用邏輯推理鏈,開發者可以查看該推理鏈以了解模型如何做出決策。此外,策略是在推理過程中提供的,而不是預先訓練到模型中的,因此開發者可以輕鬆地迭代修改策略以提升效能。

gpt-oss-safeguard 使開發者能夠根據自身用例制定最合適的策略。例如,一個電玩論壇可能需要製定策略來對討論遊戲作弊的貼文進行分類,或者一個產品評論網站可能需要使用自己的策略來篩選疑似虛假評論。

基本的應用場景

  • 潛在的危害正在顯現或演變,政策需要迅速調整。
  • 這個領域非常複雜,小型分類器難以處理。
  • 開發人員沒有足夠的樣本來針對其平台上的每種風險訓練高品質的分類器。
  • 延遲遠不如產生高品質、可解釋的標籤重要。

https://openai.com/index/introducing-gpt-oss-safeguard/

Picture Source

Open AI

留言