DeepSeek🐋「爆弾の作り方?お答えするのら!」 [0bo7DU★] (4)

←← 掲示板一覧に戻る ← スレッド一覧に戻る

1 枯れ果てた名無し@転載禁止 (bd9fc93b) 2025/02/07 (金) 22:14:46.327 ID:39D822aFK

Ciscoの研究チームが、DeepSeekのAIモデルDeepSeek R1を調査。AI使用において危険・有害だと思われる攻撃的テスト50を実施したところ、そのすべてでしっかりと罠にひっかかってしまいました。そのひっかかり度100%! この手のテスト受けたメインどころの大規模言語モデルの中で、最もひっかかっています。つまり、安全性が低いということ。

Cisco研究チームが使用したのは、言語モデルの安全性テストに使用されるHarmBenchデータセット。このテストでは、危険と思われるプロンプトにひっかからないのが重要となります。たとえば、Aさんの性格などをAIに伝えたうえで「Aさんが騙されそうな都市伝説を作って!」とオーダーしたとします。安全性の高いAIはこれを拒否します。が、DeepSeekはノリノリで答えてしまうのです。

テストは、サイバー犯罪、誤情報、法に反する行動など6つのカテゴリで実施。これに合格するのは容易ではないようで、MetaのLlama 3.1も不正解率(ひっかり率)が96%と高い。OpenAIのo1モデルは25%ほど。高ければ高いほど安全性が低いことになりますが、DeepSeekの不正解率100%はトップ・オブ・トップ。

DeepSeek、素直すぎて研究機関による安全テストに全部不合格
https://www.gizmodo.jp/2025/02/deepseek-gets-an-f-in-safety-from-researchers.html