ANAシステム障害の原因はシスコ製スイッチ 2016.3.30

3/30付でANAの公式な会見が開かれ、3/23に発生したAircoreのシステム障害の原因は、シスコ製スイッチの不具合であることが発表されました。

【お詫び】3月22日に発生した弊社の国内線システム不具合について

 2016年3月22日(火)の弊社国内線システム不具合により、多数の便で欠航・遅延が発生し、また航空券のご予約やご購入ができない状態となり、お客様および関係する皆様に多大なるご迷惑をお掛けしましたことを深くお詫び申し上げます。
弊社では、当事象の原因究明を行ってまいりましたが、その結果と今後の再発防止策を取りまとめましたので、以下にその概要をお知らせします。
今後、このような事態が繰り返し発生しないよう再発防止に全力で取組み、航空輸送サービスの信頼回復に努めてまいります。

  • 1.発生原因(弊社の国内旅客システムの構成図(概要)はこちらをご覧ください)
    弊社国内旅客システムは、4台のデータベースサーバーで運用していますが、このデータベースサーバー間の同期処理を中継するネットワーク中継機の故障が原因であることが判明しました。 具体的には、ネットワーク中継機で2点の故障が発生しておりました。

    • ①中継機能の故障
      データベースサーバー間の同期処理が正常に完了せず、データの整合性が保たれなくなる為、データベースサーバーを自動的に停止する機能が働きました。
    • ②「故障シグナル」の発信機能の故障
      本来であれば、ネットワーク中継機が故障すると「故障シグナル」を発信し、予備機に自動的に切り替わる設計になっておりますが、今回は故障しているにも関わらず「故障シグナル」を発信せず、予備機に自動的に切り替わりませんでした。
  • 2.再発防止策

    • ①同一事象の検知
      同一事象が再発し、ネットワーク中継機が「故障シグナル」を出さない場合でも、データベースサーバーからネットワーク中継機の故障を検知できる改善を実施しました。(2016年3月24日に実施しました)
    • ②メーカーによる改善策
      不具合のあった機器は、製造メーカーにおいて解析を実施し、故障個所が判明しております。 現在、製造メーカーにて改善策を検討中です。
    • ③信頼性向上プロジェクトチームの設置
      今回の発生原因に留まらず国内旅客システムを総点検するとともに、お客様対応の改善点を洗い出し、信頼性を向上させるべく外部の知見も活用したプロジェクトチームを設置します。(2016年4月に設予定しております)

尚、システム不具合により、3月22日(火)および3月23日(水)にご搭乗分のご予約をお持ちでしたお客様は、無償にてご予約便出発予定日より10日以内に変更・払戻しを承ります。
変更・払戻しのお手続きはANA WebサイトまたはANA国内線予約・案内センターまでお問い合わせください。
ANA国内線予約・案内センター 0120-029-662(フリーダイヤル) 営業時間 6:30-22:00

以上

2016年3月30日
全日本空輸株式会社
代表取締役社長 篠辺 修

情報源:http://www.ana.co.jp/topics/notice160331/index.html

国内旅客システム概要図

国内旅客システム概要図

個人的には、シスコのシステムもまぁ原因の一端だろうかと思うんだけど、これって拠点とか別の場所にDBが置いてあったりしたんだろうか。もし1個所にまとまっていたものが、シスコのスイッチ1つで4鯖全部稼働停止したというなら、なんかもっと別の冗長化できたんじゃないのかなとも思ったりします。

しがないWeb系エンジニアなのでこれ以上ハード面での追求は控えたいと思いますが、これ以後は社外へこの障害について得られる教訓めいたものが報道されることも無いのかな。

このシステムの圧倒的な冗長化による対策を熱く語ってくださる方いらっしゃいませんか?

システム障害に関するタイムライン

2016.3.22 03:44・・・4台あるデータベースサーバーのうち、1台が停止。3台にて運用。
2016.3.22 08:22・・・残り3台が停止し、4台すべてが停止
2016.3.22 08:59・・・1台を再起動。データベースサーバーを複数台起動すると不安定になる状態が継続して発生。
2016.3.22 09:27・・・データベースサーバー1台で運用することを決定。空港の自動チェックイン機や係員が使う端末の再開に向けた準備と確認を実施。段階的に搭乗手続きを再開する。
2016.3.22 11:30・・・搭乗手続きが通常状態に戻る。
2016.3.22 12:46・・・予約販売業務機能が復旧。
2016.3.22 20:10・・・国内線インターネットサービスが復旧。

2016.3.23 01:14・・・ネットワーク中継機を交換する。
2016.3.23 03:05・・・データベースサーバーを通常構成である4台に戻す。
2016.3.23 04:14・・・国内システムに接続する全端末および他システムとの接続を再開。全サービス復旧

情報源:http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/?SS=imgview&FD=1153259116&ST=erm

誰かこの気持ち悪さを説明してほしい!

  • 一番最初の3月22日の3:44 am時点で1台が止まって、その時なにもアラートが出なかったのか…そしてなんで8時までに1台目の再起動が行われなかったの??
  • 残り3台が停止しただんだん停止していったということだけど、誰も見てなかったの??1台ずつ停止していったら、1台ずつ再起動するんじゃないの??
  • 複数台起動すると不安定になるとわかってから30分間は稟議でもとっていたの??状況観察?1台でも業務運営に支障がないって最初からわかってるすぺっくなのに、正常稼働を無条件で選択しなかったのはなんでなの??

わかる人おしえてほしい!

Cisco Catalyst4948E

Cisco Catalyst 4948E および 4948E-F イーサネット スイッチ

実績のある Cisco Catalyst 4948 のハードウェアおよびソフトウェア アーキテクチャに基づいた Cisco Catalyst 4948E および 4948E-F は、アップリンクへの帯域を 4 個の 10 Gb イーサネット アップリンク ポートで倍増させ、ハードウェアでの IPv6 サポートを提供します。また、Cisco Catalyst 4948E は前面から背面、4948E-F は背面から前面への冷却機能を備えているため、柔軟に導入できます。Cisco Catalyst 4948E および 4948E-F は、ワイヤ スピードの動作と低遅延を可能にする、レイヤ 2 ~ 4 対応の 1 ラックユニット(1 RU)固定構成スイッチで、ラックマウント タイプのサーバ スイッチングに最適です。

Cisco Catalyst 4948E および 4948E-F は、次のような機能を備えています。

  • 高密度、高性能マルチレイヤ アグリゲーションのための卓越した性能と信頼性により、サーバとワークステーションのラックを最適化
  • ワイヤ スピードで動作する 48 個の 10/100/1000BASE-T ポート、およびオプションの 1000BASE-X に対応可能な 4 個の選択型ケーブル ポートを装備
  • Small Form-Factor Pluggable(SFP+)光モジュール対応
  • オプションの内蔵型 AC/DC 1+1 ホットスワップ対応電源装置と、ホットスワップ可能なファン トレイと冗長ファンを使用することにより、並外れた信頼性とサービス性を実現
Cisco Catalyst 4948E および 4948E-F イーサネット スイッチ

Cisco Catalyst 4948E および 4948E-F イーサネット スイッチ

情報源:http://www.cisco.com/web/JP/product/hs/switches/cat4900/cat4948E/index.html

ANAを支える運行情報とディザスタ・リカバリ

システム障害の原因が発表されてから、こんな記事を見つけました。 ANAのシステムは本当はすごいと思うけど、なんで今回のような初歩的に見える障害が発生してしまったのかわかんないなー。

日経電子版特集 先端企業が挑み続けるイノベーションの姿 事例を紹介します。

全日本空輸 高度なITシステムが支える乗客4,500万人の空の旅 航空旅客・運輸システム

ANAを支える運行情報とディザスタ・リカバリ

ANAのミッションクリティカルなシステムの開発として代表的なプロジェクトに、航空機の運航統制やダイヤ作成を行う基幹となる運航情報システム(FIS:Flight Information System)の開発がある。ANAはこれまで運航系をメインフレーム※4で運用していたが、サポート契約の終了や老朽化などの理由で、さらに効率の良いオープンシステム※5への全面的な切り替えを2006年に決断した。24時間365日の稼動を中断することなく、従来のメインフレームから新しいオープンシステムへの切り替えを行わなければならない。この非常に難易度の高いプロジェクトに加え、さらに大規模震災や障害時の業務継続に備えたディザスタ・リカバリシステム「バックアップ(OPBUP)」開発の取りまとめを東芝ソリューションに委ねることを決めた。
「日本のベンダーならではのきめ細やかさを持ちながら、全体を俯瞰し、課題にも的確に対処してくれるという信頼感があり、運航系のオープン化の取りまとめを依頼しました」と、蔵本氏は言う。そしてFISは2009年3月にカットオーバーし、現在まで安定稼動を続けているという。
その他にも注目すべき開発には、国内主要16空港に設置された約400台のANAの旅客向け総合案内表示システム「canary」がある。羽田空港の100インチを超えるディスプレーをはじめ、さまざまな利用客が空港内で運航状況を正確に把握できるよう、ユニバーサルデザインや多国語へ対応するなど工夫を盛り込んだ総合案内表示システムだ。また、基盤系の開発では、ANAの業務端末約1万台とホストシステムを接続する「ゲートウェイ(ATCP-GW:ANA Terminal Control Protocol Gateway)」システムがある。大型連休の販売開始時などには5分間で約5万アクセスを処理するなど、ANA社内の業務連携にも大きく貢献している。

※4 メインフレーム/企業の基幹業務用の大規模なコンピューターシステムのこと。ミニコンピューターやオフィスコンピューターより大型で、オープンシステムよりも各メーカーによる独自設計の比率が高い。

※5 オープンシステム/標準化された規格に準拠したソフトウエアやハードウエアを組み合わせて構築されたコンピューターシステムのこと。
情報源: 先端企業が挑み続けるイノベーションの姿|日本経済新聞 電子版特集

スポンサーリンク
hige1
hige1

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
hige1

コメント

  1. […] ANAシステム障害の原因はシスコ製スイッチ 2016.3.30 […]