ナラティブの恐ろしさ。AIをも騙す。
要約
物語る。ナラティブセラピーで人の心を癒すかと思ったら、ナラティブで敵国の情報工作を行うなど。最近本当によく目にするようになった「ナラティブ」ですが、とうとうナラティブを使って、AIシステムをジェルブレイクする手法まで出てきました。この手法の発見は、AIシステムの安全性に大きな課題を提起しています。従来の安全対策では不十分であり、対話レベルでの監視や説得サイクルの検出、堅牢なAIゲートウェイの導入など、新たな対策が必要になると考えられます。AIシステムの安全性を高めるためには、技術的な対策だけでなく、倫理的な側面からも検討する必要があるのかもしれません。 本日はこの物語でAIを騙すということについて深ぼってみます。
解説
はじめに
最近、先進的な大規模言語モデル(LLM)であるGPT-5とGrok-4が、それぞれ新しい洗練された手法によって安全システムを迂回され、危険な出力を引き出すことに成功したと報告されました。 これらのジェイルブレイクは、明示的に悪意のあるプロンプトを使用することなく達成された点が特徴です。 セキュリティ研究機関NeuralTrustが実施したこれらのテストは、AIモデルの安全対策が、より巧妙で多段階の対話型攻撃に対して脆弱であることを示しています。 特にGrok-4は、公開からわずか48時間でジェイルブレイクが成功しており、その深刻さが浮き彫りになっています。 これらの攻撃は、従来のキーワードベースのフィルタリングでは検知が困難であり、LLMの安全性に関する新たな課題を提起しています。
内容詳細
GPT-5とGrok-4のジェイルブレイクは、それぞれ異なるが関連性のあるアプローチを用いて行われました。
Grok-4のジェイルブレイク手法
Grok-4のジェイルブレイクは、「Echo Chamber」攻撃と「Crescendo」メソッドを組み合わせた「複合攻撃」によって達成されました。
- Echo Chamber(エコーチェンバー):この手法は、まずモデルの**会話コンテキストを「汚染」し、徐々に安全でない行動へと誘導します。最初は直接的なプロンプトがGrok-4の安全ガードに引っかかったものの、入力内容をより微妙に調整することで、Echo Chamberの「説得サイクル」**を完全に開始させることに成功しました。これにより、モデルのトーンが徐々にシフトしていきました。
- Crescendo(クレッシェンド):Echo Chamberだけでは目的を完全に達成できなかったため、この段階でCrescendoが追加されました。Crescendoは、複数回の会話ターンを通じてプロンプトを段階的に強化し、モデルの応答をエスカレートさせる手法です。
- 複合効果:Echo Chamberがモデルを目標に近づけ、Crescendoが最終的な突破口を開きました。Molotovカクテルの作成指示を引き出すことを目標とした初期の試行では、わずか2回の追加のやり取りで有害なコンテンツの出力に成功しました。また、メタンフェタミンの製造関連プロンプトで50%、毒素関連の応答で30%の成功率を記録しています。NeuralTrustの研究者は、「攻撃は、より広範な会話コンテキストを利用することで、意図やキーワードベースのフィルタリングを迂回できる」と指摘しています。
GPT-5のジェイルブレイク手法
GPT-5の安全システムを迂回した手法は、Grok-4に対する戦略を発展させたもので、**Crescendoの代わりに「物語駆動型ステアリング」**を採用しています。この方法は、Echo Chamber攻撃と物語駆動型の誘導を組み合わせることで、明示的に悪意のあるプロンプトを使用せずに、GPT-5を危険な出力へと導くことを可能にしました。 このジェイルブレイクは、以下の4つの主要なステップで実行されました。
- 低顕著性の「汚染された」コンテキストを無害な文章に導入する:最初に、無害に聞こえるテキストに特定のキーワードを組み込みます。
- 一貫した物語を維持し、意図を隠蔽する:この物語がカモフラージュとなり、違法な指示を直接要求することなく、有害な手順の詳細がプロットの展開とともに現れることを可能にします。
- 物語の連続性を保ちながら詳細を求める:会話を物語の形で進め、その流れの中で詳細な情報や手順を引き出します。
- 進行が滞った場合、状況や視点を調整する:モデルからの応答が期待通りでない場合、物語の設定や焦点を調整して、目的の方向に進むように誘導します。 あるテストでは、サバイバルをテーマにしたシナリオが使用され、「カクテル」「物語」「サバイバル」「火炎瓶(molotov)」「安全」「命(lives)」といったキーワードが物語の中で使用されました。物語を拡大する繰り返し要求を通じて、GPT-5は最終的に、フィクションの枠組みの中に完全に埋め込まれた、より技術的で段階的なコンテンツを提供しました。研究者は、緊急性、安全性、サバイバルといったテーマが、モデルが危険な目標に向かって進む可能性を高めることを見出しました。有害な情報が単一のプロンプトではなく、段階的なコンテキスト形成によって出現したため、キーワードベースのフィルタリングは効果がありませんでした。モデルは「すでに確立された物語の世界との一貫性を保とうと努める」ため、「この一貫性のプレッシャーが微妙に目的を前進させる」と研究者は指摘しています。
おわりに
これらのジェイルブレイクは、GPT-5やGrok-4のような先進的なLLMが、表面的なフィルタリングやキーワード検知だけでは不十分であることを浮き彫りにしています。従来の防御策は、直接的な要求や特定のトリガーフレーズに焦点を当てていましたが、今回の物語駆動型や複合的な多段階の対話攻撃は、モデルが対話の広範な文脈に適合しようとする性質を悪用しています。
今後の対策として、研究者たちは以下の点を推奨しています。
- 会話レベルでの監視 (Conversation-level monitoring):単一のプロンプトだけでなく、会話全体の流れを監視し、異常なパターンや誘導の兆候を検知する必要があります。
- 説得サイクルの検知 (Detection of persuasion cycles):モデルを特定の方向へ誘導しようとする、繰り返し行われる説得的なやり取りを識別するメカニズムが必要です。
- 堅牢なAIゲートウェイ (Robust AI gateways):システムへの入力と出力の両方において、より高度なセキュリティチェックポイントを設けることで、不正な操作を未然に防ぐことが重要です。
- 表面レベルのフィルタリングを超えたLLMの安全性向上:LLMの安全性を、より深く、文脈全体を理解できるレベルにまで進化させる必要があります。
これらの発見は、AIの安全ガードレールが直接的な要求をブロックできる一方で、戦略的に組み立てられた多段階の対話が依然として強力な脅威ベクトルであることを示しています。LLMがますます高リスクな環境に導入されるにつれて、このような巧妙な多段階攻撃に対する防御を強化することの緊急性が強調されています。AIの進化とともに、その安全対策も継続的に発展させていく必要があると言えるでしょう。