2025-10-24

Amazon、AWSサービスの大規模障害の技術的原因を明らかに

2025年10月19日から20日にかけて、Amazon Web Services(AWS)は大規模な障害を経験しました。この障害は、DynamoDBサービスエンドポイントのDNS解決に関する問題が原因であり、約2時間35分にわたって続きました。AWSのエンジニアは、DNSの問題を特定し、迅速に対策を講じましたが、完全な復旧には15時間を要しました。Amazonは、今後同様の問題を防ぐための対策を講じるとしています。

メトリクス

このニュースのスケール度合い

9.0 /10

インパクト

8.5 /10

予想外またはユニーク度

6.5 /10

脅威に備える準備が必要な期間が時間的にどれだけ近いか

8.0 /10

このニュースで行動が起きる/起こすべき度合い

7.5 /10

主なポイント

  • AWSは、2025年10月19日から20日にかけて発生した大規模なサービス障害の原因をDNS解決の問題と特定しました。
  • 障害は約2時間35分続き、AWSの多くのサービスやAmazon自身の運営にも影響を及ぼしました。

社会的影響

  • ! この障害により、多くの企業がAWSに依存していることが再認識され、クラウドサービスの信頼性に対する懸念が高まりました。
  • ! Amazon自身のサービスも影響を受けたため、顧客の信頼に影響を及ぼす可能性があります。

編集長の意見

AWSの大規模障害は、クラウドサービスの運用における脆弱性を浮き彫りにしました。特に、DNS解決の問題は、システム全体に波及する影響を及ぼすことがあるため、今後の運用においては、DNSの冗長性や監視体制の強化が求められます。また、AWSのような大規模なインフラを運営する企業は、障害発生時の迅速な対応が重要です。今回のケースでは、エンジニアが問題を特定し、迅速に対策を講じたことが評価されますが、完全な復旧には時間がかかりました。これは、システムの複雑さを考慮すると避けられない部分もあります。今後は、障害発生時の影響を最小限に抑えるための戦略的なアプローチが必要です。具体的には、障害の影響を受けたサービスの優先順位をつけ、段階的に復旧を進めることが重要です。また、顧客への情報提供も重要であり、AWS Health Dashboardのようなリアルタイムのステータス更新が求められます。これにより、顧客は自社のシステムの状況を把握しやすくなります。最終的には、クラウドサービスの信頼性を高めるために、技術的な改善とともに、顧客とのコミュニケーションを強化することが必要です。

解説

DynamoDBエンドポイントのDNS解決障害が引き金——AWS大規模障害から見える本質的リスクと対策

今日の深掘りポイント

  • DNSはクラウドの「共通依存性」であり、単一点障害が水平に連鎖しやすいです。
  • 障害は約2時間35分ながら、完全復旧まで15時間という「長い尾」が示すのは復旧の段階性と運用制約です。
  • 影響は米国東部(us-east)に集中し、エラー率の急増が報告されています。地域集中とコントロールプレーン依存の設計リスクを再認識すべきです。
  • AWS側の緩和としてEC2新規起動を制限した事実は、流入負荷の制御(サージ回避)が大規模分散システムでは有効であることを示唆します。
  • スコアリング指標は「確率・即時性が高く、行動可能性も高い」ことを示し、直ちに適用できる具体策(DNS監視・Multi-Regionフェイルオーバー・クライアント側回復力)に投資すべき局面です。
  • 脅威シナリオとして、障害便乗型フィッシングやDNS/ネットワークDoSの増幅攻撃、障害時の防御低下を狙う行為を想定し、MITRE ATT&CKで準備を進めるべきです。

はじめに

2025年10月19日から20日にかけて、AWSで大規模な障害が発生し、根因はDynamoDBサービスエンドポイントのDNS解決問題と説明されています。影響は約2時間35分継続し、完全復旧には15時間を要したと報じられています。影響は米国東部地域のサービスに集中し、エラー率が大きく増加しました。AWSは問題特定後に対策を講じ、過負荷防止のためEC2インスタンスの新規起動を制限する措置も取ったとされています。公開報道に基づく情報です。

本件は、クラウドの集中リスクと共通依存(特にDNS)の怖さをあらためて可視化した事案です。CISOやSOCマネージャーの視点では、可用性の目標(SLO/RTO)と設計・運用のギャップ、そして障害時に誘発され得るセキュリティリスクを同時に詰める必要がある局面です。

深掘り詳細

事実(確認できていること)

  • 期間と影響: 2025年10月19日〜20日に発生し、サービス影響は約2時間35分、完全復旧まで15時間を要したとされています。
  • 根因: DynamoDBサービスエンドポイントのDNS解決に関する問題です。
  • 影響範囲: 米国東部地域のAWSサービスでエラー率が大幅に増加しました。
  • AWSの対処: 問題特定後に緩和策を実施し、過負荷防止のためEC2インスタンスの新規起動を制限したと説明されています。
  • 出典: 公開報道の概要に基づく整理です。参考: GBHackersの報道

上記は提供情報と公開報道の要旨であり、一次報告の細部(内部的なDNS故障モード、再発防止策の技術詳細など)は本稿では未確認です。

メトリクスの読み解き(示唆と優先度)

提供されたスコアリング指標を実務の優先度に翻訳します。

  • score 59.50/scale 9.00: 全体スコアは高めで、スケールの大きさ(影響面の広さ)も顕著です。可用性SLOに対する経営レベルの報告と投資判断が必要なレンジです。
  • magnitude 8.50: 単一組織を越えた甚大な運用影響が想定されます。BCP/DRと変更管理(Change Freezeやスロットリング)を含む全社レベルのプレイブック整備が必要です。
  • novelty 6.50: 新規性は中程度で、過去のDNS/コントロールプレーン起因障害の再演と見なせます。既存対策の徹底と運用の磨き込みが費用対効果に優れます。
  • immediacy 8.00/actionability 7.50: 直ちに着手可能な具体策が多い領域です。DNS健全性モニタリング、クライアントのタイムアウト・バックオフ・ジッタ設定、Multi-Regionフェイルオーバーの演習などを今四半期のMBOに落とし込むべきです。
  • positivity 3.50: ネガティブイベントであり、経営・ユーザーコミュニケーションの質が問われます。ステータス公開と影響の透明化を重視すべきです。
  • probability 8.50: 再発確率の高さを示唆します。DNSや名前解決のフェイルセーフ強化、サービス依存の明文化・可視化(SBOMならぬ「Service-BOM」)を優先すべきです。
  • credibility 8.00: 事実認定の信頼度が高めで、リスク前提の意思決定を躊躇すべきではないシグナルです。

インサイト(技術的含意と設計への影響)

  • DNSは「共有コントロールプレーン」です。DynamoDBに限らず多くのAWSサービスがDNSに依存し、エンドポイント解決の失敗は横断的なエラー率上昇を招きます。DNSのSLOは最重要の共有SLOであり、アプリ側はDNS失敗を一等市民として扱う必要があります。
  • 2時間の障害が15時間の完全復旧を要した点は「復旧の長い尾」を示します。再収束(キャッシュの温まり直し、リトライ嵐の収束、バックログの解消、観測系の安定化)に時間がかかるため、アプリ側はスロースタートやキューのドレイン制御を備えるべきです。
  • AWSがEC2新規起動を抑制した事実は、スケールイン・アウトそのものが障害増幅子になり得ることを示します。組織側も「障害時のスケーリング凍結」「リリース凍結」の運用ガードレールをプレイブックに組み込むべきです。
  • 地域集中リスクは経営課題です。us-east系の役割集中は一般論として知られており、制御面の依存は広く波及します。サービス選定とDR設計は「同一ベンダ内の多地域冗長」と「機能限定のクロスクラウド退避」の現実的折衷を詰める段階です。

脅威シナリオと影響

本件は運用障害が中心ですが、攻撃者はこうした事象に便乗・増幅させることがあります。以下は仮説に基づくシナリオであり、備えの観点を示します。

  • シナリオ1(便乗フィッシング): 「AWS障害対応のため認証情報再入力」などを騙るメールやメッセージで資格情報を窃取する動きです。

    • MITRE ATT&CK: T1566.002 Spearphishing Link / T1566.001 Spearphishing Attachment です。
    • 影響: IDP/コンソール・CI/CD・SaaS横断での有効アカウント悪用(T1078 Valid Accounts)に直結します。
  • シナリオ2(DNS/ネットワークDoSの重ね掛け): 障害で不安定なDNS経路やリゾルバに対し攻撃的トラフィックを加え、復旧を遅延・再発させる試みです。

    • MITRE ATT&CK: T1498 Network Denial of Service / T1499 Endpoint DoS です。
    • 影響: 正常化フェーズのSLA/SLOを毀損し、運用の再収束を阻害します。
  • シナリオ3(障害時の防御低下の悪用): 可用性確保のため一時的にログ出力や検査を緩めた箇所を突く行為です。

    • MITRE ATT&CK: T1562 Impair Defenses、加えて監視低下を突いた横移動・権限昇格(T1078 Valid Accounts, T1059 Command and Scripting Interpreter)です。
    • 影響: 障害収束後に発見遅延・インシデント見逃しを引き起こします。
  • シナリオ4(経路乗っ取り/中間者の試み): ネットワーク経路の不安定さに乗じ、組織内の再帰リゾルバやエッジ装置を狙った中間者化の試みです。

    • MITRE ATT&CK: T1557 Adversary-in-the-Middle です。
    • 影響: 構成ミスや一時的例外設定を突かれると、機密トラフィックの盗聴や改ざんに繋がります。

これらは仮説であり、今回の障害が攻撃起因であることを示す情報はありません。ただし障害時は「注意資源の奪い合い」により防御姿勢が脆くなるため、上記のリスクを想定した事前準備が合理的です。

セキュリティ担当者のアクション

  • アーキテクチャとレジリエンス

    • DynamoDBのMulti-Region前提設計(Global Tables等)と、アプリ側のリージョン切替ロジック・機能限定運転(読み取り専用化、遅延書き込み)を整備します。
    • DNS障害を想定したクライアント回復力を徹底します。具体的には、名前解決のタイムアウト短縮、指数バックオフ+ジッタ、コネクション再利用、失敗時のサーキットブレーカー、キャッシュの「スロースタート」運用を標準化します。
    • VPC Gateway Endpointなどの経路最適化を活用しつつ、ローカルDNSリゾルバの健全性監視とキャッシュ戦略(失敗時のstale提供を含む設計)を検討します。DNSは依然として共通依存である前提で、フェイルオーバーや段階的デグレードを設計します。
    • 障害時のスケーリング・デプロイ凍結ポリシーを定義し、スパイクによる増幅を避けます。
  • 監視・SLO/SLI

    • DNSのSLIを可視化します。例: getaddrinfo成功率、DNSクエリのP95/P99レイテンシ、SERVFAIL/NXDOMAIN比率、アプリ側のUnknownHost/NameResolutionFailure件数などを主要ダッシュボードに統合します。
    • 合成監視で重要エンドポイント(DynamoDB, S3, STSなど)の名前解決→TCP/TLSハンドシェイク→アプリ層ヘルスの階層監視を行います。
    • AWSステータス情報の自動取り込みと運用チャネル(War Room)への即時連携を整備します。
  • 運用プレイブックと演習

    • 「DNS劣化」専用のインシデントプレイブックを用意します。フェイルオーバー基準、デグレードの段階、リトライ間隔の一括調整、キュー/バッファの放流手順を明文化します。
    • 役割分担(アプリ/プラットフォーム/SRE/セキュリティ/広報)と承認フローを明確化し、四半期ごとにゲームデイで検証します。
    • ログ・検知の最低限維持ラインを定義します。可用性優先の一時的設定変更でも、コアなトレイルは残す「ディグレード時のセキュリティSLO」を設定します。
  • 脅威対策(MITRE ATT&CK連動)

    • 便乗フィッシング(T1566)を想定し、ブランド保護・メールゲートウェイの強化、障害便乗メッセージの教育・模擬訓練を実施します。
    • DNS/ネットワークDoS(T1498/T1499)対策として、リゾルバの多様化、レート制限、Anycast/冗長パスの設計を検討します。
    • 防御低下の悪用(T1562)に備え、障害時にも維持する検知ルールと緊急監査のチェックリストを整備します。
    • 資格情報悪用(T1078)を想定し、全社的MFAの必須化、リスクベース認証、異常なコンソール/API行動の行動分析を標準化します。
  • 経営・リスクコミュニケーション

    • 事業継続計画(BCP)の可用性仮説を更新し、RTO/RPOの実測と差分を経営に可視化します。今回の「2時間35分の影響/15時間の完全復旧」をベンチマークに、妥当な投資計画を作成します。
    • クラウド集中リスクの方針(同一ベンダ内多地域 vs. 機能限定マルチクラウド)を、アプリの特性別に区分し、段階導入ロードマップを引きます。

参考情報

  • GBHackers: Amazon reveals technical fault behind AWS service outage(報道): https://gbhackers.com/amazon-reveals-technical-fault-behind-aws-service-outage/

注記: 本稿は提供情報と上記公開報道を基に分析しています。一次情報の技術詳細や全容はAWSの公式発表の確認を待つべきであり、設計・運用判断は自組織のSLOとリスク許容度に即して最終化することを推奨します。

背景情報

  • i DynamoDBは、Amazonが提供する高性能なデータベースサービスであり、多くのアプリケーションの基盤となっています。DNS解決の問題により、DynamoDBへのリクエストが正しく処理されず、AWS全体に影響を及ぼしました。
  • i AWSのエンジニアは、問題を特定した後、迅速に対策を講じましたが、完全な復旧には時間がかかりました。特に、EC2インスタンスの新規起動を制限することで、システムの過負荷を防ぎました。