Logo
x logo
2025-08-05

新しいサイバー攻撃手法「LegalPwn」- 一般的なAIツールを悪用し、マルウェアを安全なコードと誤認させる

要約

新しいサイバー攻撃手法「LegalPwn」が発見されました。この手法は、一般的なAIツールの弱点を悪用し、悪意のあるコードを合法的な免責事項などに偽装することで、ツールに安全なコードと誤認させるものです。研究によると、多くの主要なAIモデルがこの手法に対して脆弱であることが明らかになりました。人間による監視と介入が、AI セキュリティにとって今後ますます重要になると指摘されています。

このニュースのスケール度合い
9.0
/10
インパクト
9.0
/10
予想外またはユニーク度
8.0
/10
脅威に備える準備が必要な期間が時間的にどれだけ近いか
8.0
/10
このニュースを見て行動が起きるあるいは行動すべき度合い
8.0
/10

詳細分析

主なポイント

  • Pangea Labsの研究者が発見した新しい攻撃手法「LegalPwn」について
  • この手法は、AIツールが法的な文言を尊重する性質を悪用し、悪意のあるコードを合法的な免責事項などに偽装する
  • 12の主要なAIモデルがこの手法に対して脆弱であることが判明
  • 実際のツールでも、悪意のあるコードが安全なものと誤認されてしまう事例が確認された
  • 人間による監視と介入が、AI セキュリティにとって重要であると指摘されている

社会的影響

  • AI セキュリティにおける重大な脆弱性の発見
  • AIツールの信頼性と安全性に対する懸念の高まり
  • 人間による監視と介入の必要性が高まる

編集長の意見

この研究結果は、AIシステムのセキュリティ上の重大な課題を明らかにしています。AIモデルは、法的な文言を尊重する傾向があるため、悪意のある攻撃者がこれを悪用することができます。完全に自動化されたAIセキュリティ対策では不十分であり、人間による監視と介入が不可欠となります。企業はAIガードレールの導入や、人間による最終的な承認プロセスの実装など、多層的なセキュリティ対策を検討する必要があります。
本日はこのLegalPwnの攻撃手法について深掘りしていきます。

解説

はじめに

「LegalPwn」は、AIセキュリティ企業Pangea Labsの研究者によって発見された、生成AIツールを悪用する新たなタイプのサイバー攻撃です。この攻撃は、GitHub CopilotやChatGPTといった主要な生成AIツールが持つ、「法的な響きを持つテキストを尊重する」という設計上の弱点を突くことで成立します。具体的には、攻撃者は悪意のあるマルウェアコードを、一見すると無害な、偽の法的な免責事項やコンプライアンス要件、機密保持通知といったテキスト内に巧妙に隠蔽します。これにより、AIモデルは本来危険なはずのコードを「安全なコード」として誤分類し、ユーザーにその実行を推奨してしまう事態が発生します。これは、AIの振る舞いを操作するプロンプトインジェクションの一種として認識されており、過去に「Man in the Prompt」攻撃のような類似の傾向も確認されています。Pangea Labsの調査では、GoogleのGemini CLIがユーザーにリバースシェル(攻撃者がリモートからコンピューターにアクセスするための悪意のあるコード)の実行を推奨したり、GitHub Copilotが偽の著作権表示内に隠されたリバースシェルを単純な計算機として誤認識したりといった、開発ツールに甚大な影響を及ぼす実例が確認されています。この研究結果は、AIがセキュリティ判断に関与するシステムにおいて、人間による監視(Human-in-the-Loop)の必要性がこれまで以上に高まっていることを強く示唆しています。セキュリティコンサルタントとしては、この新しい脅威とその対策への理解が不可欠です。

その攻撃手法は?

LegalPwn攻撃の核心は、生成AIモデルが法的な文脈を持つテキストに対して持つ特有の「敬意」を悪用する点にあります。研究者らは、ソーシャルエンジニアリングの手法を用いて、AIモデルを巧妙に操作することに成功しました。この攻撃手法は、悪意のあるコードを偽の法的文書内に隠蔽するというものです。

具体的には、以下の6つの異なる法的コンテキストが、AIモデルの操作に利用されました。

  • 法的な免責事項
  • コンプライアンス要件
  • 機密保持通知
  • 利用規約違反の通知
  • 著作権侵害の通知
  • ライセンス契約の制限

これらのコンテキスト内にマルウェアを埋め込むことで、Pangea Labsは、テスト対象となった主要なAIモデルのほとんどがこの種のソーシャルエンジニアリングに対して脆弱であることを発見しました。この攻撃は、AIの振る舞いを操作するプロンプトインジェクションの一形態であり、悪意のある命令を巧妙に組み込むことで、AIが意図しない動作を実行するように仕向けます。最近では、悪意のあるブラウザ拡張機能がChatGPTやGeminiなどのツールに隠されたプロンプトを注入する「Man in the Prompt」攻撃のような類似の傾向も確認されています。

この調査結果は単なる理論に留まらず、何百万もの人々が日常的に使用する開発ツールに実世界での影響を及ぼします。具体的な脅威事例として、以下が挙げられます。

  • GoogleのGemini CLI: ユーザーにリバースシェル(攻撃者にリモートアクセスを許可するコード)の実行を推奨
  • GitHub Copilot: 偽の著作権通知内に隠されたリバースシェルを含むコードを、単純な計算機と誤認。 Pangea Labsは、これらの攻撃がライブ環境でAI駆動型セキュリティ分析をバイパスし、悪意のあるコードを安全と誤分類させたことを確認しています。

この攻撃に対して脆弱であることが確認された主要なAIモデルには、xAIのGrok、GoogleのGemini、MetaのLlama 3.3、OpenAIのChatGPT 4.1および4oが含まれます。一方で、AnthropicのClaude 3.5 SonnetやMicrosoftのPhi 4などの一部のモデルは強い耐性を示しました。特筆すべきは、AIに脅威を認識させるための明示的なセキュリティプロンプトが適用された場合でも、LegalPwn攻撃が成功するケースがあったことです。

この研究は、AIシステムにおける重大なセキュリティギャップを浮き彫りにしています。あらゆるテストシナリオにおいて、人間のセキュリティアナリストは悪意のあるコードを一貫して正確に識別できたのに対し、AIモデルは、法的テキストに包まれたマルウェアを識別することに失敗しました。これは、AI駆動型セキュリティ分析のみに依存することの危険性を明確に示しています。

Pangea Labsは、この新たな脅威から保護するために、以下の重要な推奨事項を提示しています。

  • 全てのAI支援型セキュリティ決定に対し、人間によるレビュープロセス(Human-in-the-loop)を導入する
  • プロンプトインジェクションの試みを検出する、特定のAIガードレールを展開する
  • ライブ環境での完全に自動化されたAIセキュリティワークフローを避ける

これらの対策は、組織がシステムとデータの完全性・安全性を確保するために、人間による監督が不可欠であることを強調しています。セキュリティコンサルタントとしては、これらの知見を踏まえ、AI導入における新たなリスクと、それに対する実践的な対策をクライアントに助言することが求められます。

背景情報

  • LegalPwnは、AIツールの弱点を悪用する新しい攻撃手法
  • AIモデルは法的な文言を尊重する傾向があり、これを悪用して悪意のあるコードを偽装する
  • この手法は、いわゆる「プロンプト・インジェクション」の一種であり、AIの動作を操作するものである
  • 最近では、「Man in the Prompt」攻撃と呼ばれる類似の手法も報告されている