Aws 障害。 AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】 (2021年2月20日)

AWS大障害の真相、不具合が連鎖して冗長構成の「安全神話」が崩壊

その間、ユーザー数の増加に伴い、PayPayのシステムは不安定な状態に。

サービスを利用できない状態が続いている。

AWS障害は冷却システムの電力喪失が原因、コインチェックは全サービス停止

ミスった DNS 設定値がなぜか EBS 管理サーバの一部だけに反映される• だからと言って、「当社は法的に責任を負う立場にない以上何の対応もいたしません」では、顧客がサービスから離れていくことは間違いないでしょう。 ミクシィが運営するゲーム「モンスターストライク」もサーバの機器障害が発生したとして一時緊急メンテナンスに入っていた。 その影響を受け、多くのスマートフォンアプリが緊急メンテナンスを実施しています。

3
Nature Remoは、外出先からスマートフォンでエアコンを操作したり、スマートスピーカーから音声でテレビや照明を操作したりすることができるシステム。

AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】

メタデータの読込性能が劣化し、DynamoDB のエラー率増加• 失敗の原因であるプログラマブルロジックコントローラーをリセットすることで、ようやく冷却に成功。 複数のAZを利用する「マルチAZ」構成を組めば、こうした障害への耐性も高まる。

5
ほかにも『 アズールレーン』『 プロスピA』『 アナザーエデン』『 モンスターストライク』『 IdentityV 第五人格』といった複数のタイトルが、同様の不具合情報を告知しています。 今回の障害は、各企業のITインフラを見直すきっかけになったのではないでしょうか。

AWS「大阪リージョン」が本格始動、東西の冗長構成で災害対策しやすく

今後の対応• 発生した時になってから混乱を招かないように、常日頃からさまざまな障害を仮定した復旧リハーサルが必要です。 サードパーティー製の制御システムにおけるロジックのバグにより、この情報交換が制御システムとデータセンターのデバイス間で過度に発生し、最終的には制御システムが応答しなくなりました。

1
東京リージョンには「アベイラビリティーゾーン」(AZ)と呼ばれるデータセンターが4カ所ある。

2021年2月20日に発生したAWS障害の原因は冷却システムの電源

PLC が不具合により発電機に接続できなかった• S3 を再起動• 復旧内容• EBS スナップショットのバグもついでに見つかり、修正する• 制御システムにフェイルオーバーしないバグがあり、機器制御装置も異常動作した。 しかし、一概にそうとは言えないでしょう。 AWSの大規模障害からはちょっとずれるが、筆者が面白い発想だと思った技術をご紹介しておきたい。

10
この中で特に障害の影響が大きかったのはEC2で、こちらについては、「制御システムの障害による冷却システムの故障」によりシステムの一部がオーバーヒートしたことによるトラブル、と発表されている。

AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」(1/3 ページ)

EC2、EBS、RDS など AZ サービスが死亡• IaaS(インフラストラクチャー・アズ・ア・サービス)である仮想マシンサービスの「Amazon EC2」とストレージの「Amazon EBS」、PaaS(プラットフォーム・アズ・ア・サービス)であるリレーショナルデータベース(RDB)サービスの「Amazon RDS」の3つで障害が発生した。

7
このときフェイルセーフ機能が発動して最大冷却モードに入るはずが、ごく一部でこれに失敗します。

AWS「大阪リージョン」が本格始動、東西の冗長構成で災害対策しやすく

こうした仕組みを「カオスエンジニアリング」と呼ぶ。 Amazon Relational Database Service Amazon RDS• EBS クラスタ制御の改善• append CData description item. 手動で発電機に接続、その後電源復旧• ニュース記事• AWSで起きた障害の事例 これまでAWSで起きた大規模障害にはどのようなものがあるでしょうか。 一部ノードがオフラインとなった EBS がミラーリングのために一斉に容量確保を開始、リソース枯渇に陥る• 内部的に DynamoDB を使用している EC2 Auto Scaling、SQS、CloudWatch も連鎖的にエラー率増加• 東京リージョンを利用していた既存顧客も、東京と大阪で冗長化したシステム構成を組むことで災害対策をしやすくなる。

7
日本にも、サブスクリプションという契約関係が本格的に浸透しはじめたことにより、「建前で顧客対応、本音は責任回避」に終始しがちだった姿が大きく変わりつつある。 今後の対応• しばらくの間、接続が不安定になる可能性がございます。