ANAのシステム障害 エイブル/AirCore 顧客DBの同期トラブル

2016322日にANAの国内線システムに障害が発生しました。

全日本空輸(ANA/NH)は、3月22日午前8時20分ごろ発生した国内線予約システム「エイブル」の障害について、午後8時10分ごろ復旧したことを明らかにした。この影響で、22日はANAの国内線だけで146便が欠航し、約1万8200人に影響が出た。遅延便も391便にのぼり、約5万3700人に影響が及んだ。

羽田空港では、多くの人が搭乗手続きや手荷物を預けるため、チェックインカウンター前に列を作っていた。マイレージ上級会員向けの専用保安検査場も、多くの人が並んでいた。

他社にも波及

同じシステムを使用するスターフライヤー(SFJ/7G、9206)とエア・ドゥ(ADO/HD)、ソラシドエア(旧スカイネットアジア航空、SNJ/6J)、アイベックスエアラインズ(IBX/FW)も影響を受け、ANAと同じトラブルが発生。欠航や遅延が生じた。4社はANAとコードシェア(共同運航)も実施している。

22日はスターフライヤーでは10便が欠航し、978人に影響が出た。エア・ドゥは6便が欠航し、486人に影響。ソラシドエアは11便が欠航し、1650人に影響が及んだ。

23日も機材繰りの関係で、欠航が発生。ANAでは、広島を午前7時40分に出発する羽田行きNH672便と、松山午前8時発の中部行きNH1822便の計2便が欠航する。ソラシドエアは、宮崎を午前7時35分に出発する羽田行き6J52便の欠航が決まった。

サーバー4台が全停止

ANAによると、システムを構成する4台のサーバーのうち、22日午前3時44分に1台が停止。その後午前8時15分には新たに2台が停止し、午前8時22分には残る1台も停止した。この時に、サーバーの保守作業などは行われていなかったという。

その後1台を再起動し、2台目の再起動作業に取りかかったところ、正常に動作しなかった。このため、再起動に成功した1台のみ稼働させ、空港で搭乗手続きなどに使う「空港系システム」を午前11時30分ごろ復旧させた。

空港系システム復旧時は、サーバーの負荷を軽減するため、ANAのウェブサイト経由の航空券販売や、旅行代理店からのシステムへの接続を制限。空港業務での利用を優先したという。

同社ではバックアップ用システムも用意していたが、切り替えに1時間程度掛かることから、朝の混雑時間帯の混乱を避けるため、再起動した1台を中心に復旧作業を進めた。ウェブサイト上での国内線予約や決済、座席指定、チェックインなどに使う「予約販売系システム」は、午後8時10分ごろ復旧した。

ANAでは、4台のサーバー間で顧客データベースを同期させるシステムに障害が発生したとみて、原因究明を急いでいる。現時点では、ハードウェアとソフトウェアのどちらに問題があったかなど、特定に至っていない。

現在の国内線予約システムは、2013年7月に稼働。今回の障害発生まで、システムが停止するトラブルは起きていないという。通常期の予約販売は1台のサーバーで対応できるが、繁忙期は2台分の処理能力が必要だとして、その2倍にあたる4台でシステムを構築した。

現行の一世代前のシステムでは、2007年5月27日にサーバーのメモリ故障、2008年9月14日に人為的なミスによる障害が発生したが、今回のような顧客データベースの同期に関するトラブルではなかった。2007年のトラブルでは130便が欠航、遅延が464便にのぼり、6万9300人に影響が生じた。2008年は53便が欠航、276便が遅延し、5万4300人に影響が及んだ。

情報源: ANAのシステム障害が復旧 顧客DBの同期トラブル 7万人影響、146便欠航

2016.3.30追記
原因が発表されました↓

ANAシステム障害の原因はシスコ製スイッチ 2016.3.30

ANAのシステムはAireCore

障害の原因はほぼ人為的なものではないかと思いますが、それは発表を待ちたいと思います。

以下は情報のまとめになります。

ユニシスの技術論文がありましたので、2点掲載いたします。

国際競争時代のコスト構造改革と需要拡大を支える 航空基幹システムの世代交代「AirCore」 AirCore, New Generation of Airline Core System supporting Cost Reform and Demand Expansion in Age of Global Competition 覚, 小山田 人, 平松敦郎
UNISYS TECHNOLOGY REVIEW 88 号,FEB. 2006

http://www.unisys.co.jp/tec_info/tr88/8802.pdf

国際競争時代のコスト構造改革と需要拡大を支える 航空基幹システムの世代交代「AirCore」

※リンク先は同一のものです↑

要 約

航空業界で中核をなす基幹システムとして,航空予約システムが挙げられる.大手航 空会社にて使用されている航空予約システムの大部分は,1960 年代から 1970 年代にかけて メイン・フレーム上で開発されたものであり,長年の機能拡張により,システムが複雑化・ 肥大化している.また,使用言語が Assembler または FORTRAN 主体のため,開発,保守 を行う技術者の確保が困難でコスト高となっている.

一方で航空会社にとってこのシステム は重要な戦略システムであり,市場のニーズに迅速に対応するため,短期開発と間断の無い IT 投資が必要とされている.

米国 Unisys 社(以降 Unisys)はこの問題を解決するためオ ープン・アーキテクチャをベースとした AirCore の開発に着手した.AirCore は,コスト 削減,短期開発を可能とすると共に,より戦略的な顧客中心のシステム基盤を提供する.

ま た,サービス指向アーキテクチャに基づきアプリケーションが明確にモジュール化されてお り,他のモジュールに対する依存度を最小限にすることにより開発の容易性,保守性を確保 している.さらに開発手法として,Unisys の開発技法 URUP(Unisys Rational Unified Process)を採用しており,開発リスクの軽減と品質維持を図っている.AirCore の開発は,汎 用機で培った基幹業務系開発運用ノウハウを活かした URUP をベースにとした開発手順に 構成管理とプロジェクト管理が組み込まれているのが特徴である.本稿はこれらを簡単に紹 介する.

この論文に記載されている各サーバ、およびDBの連携トラブルが今回の障害の原因と発表がありました。

AireCore実装モデル

AireCore実装モデル

旅客システムアプリケーション Passenger System Application 水 澄 正 晴
UNISYS TECHNOLOGY REVIEW 第 118 号,DEC. 2013

http://www.unisys.co.jp/tec_info/tr118/11809.pdf

旅客システムアプリケーション Passenger System Application

※リンク先は同一のものです↑

要 約

旅客系システムとはエアライン業務の中枢システムであり,予約・発券・搭乗という 三つのサブシステムから構成されている.ここでは旅客系システムの更改が必要となった背景,新システムに求められているもの, 新システムのベースとして採用した米国 Unisys 社のエアラインパッケージ“AirCore”ソ リューション,アプリケーション開発でのポイントを紹介する.

過去の障害について

20089月14日

情報源:全日空システム障害の原因は伝達ミス http://allabout.co.jp/gm/gc/296766/

全日空から2008年9月14日(日)に発生したシステム障害の原因が発表されました。

原因は端末認証管理サーバーに設定されていた暗号化認証の有効期限切れ。発端は2005年9月に端末認証管理サーバーを導入した時に設定した有効期限でした。

発端は2005年9月に設定した有効期限

・2005年9月 端末認証管理サーバーを導入(暗号化認証機能は使わず)

暗号化認証機能の有効期限を初期設定の3年後のままに

「2008年9月14日午前1時44分」で設定される

・2007年9月 「スキップサービス」(予約客がカウンターに立ち寄らず、搭乗口でカードをかざすだけで搭乗手続きが完了)導入にあわせ、更新搭乗者の個人情報保護のため端末で暗号化認証機能を使用し始める

【システム障害発生日 2008年9月14日(日)】

・午前1時44分 暗号化認証機能の有効期限が切れる

全国51空港にある全日空と提携4社の1,556台の端末を起動しようとすると暗号化処理の認証がクリアできずエラーで起動できない状態になる

・午前3時45分 北九州空港で端末が起動しないと報告がある

・午前3時50分 センター側と北九州空港のネットワークに異常がないか確認

・午前4時28分 現地の保守要員に修理を依頼

・午前5時31分 羽田空港からも同様の報告があり、全国の空港で障害が発生していることが判明

全日空では端末と端末管理を行っているサーバーとの間で行っている日付処理に問題があると類推し、日付を確認する機能を停止する暫定手順を考える。

・午前11時12分 暫定手順を実施

全日空のシステム障害 7万人に影響

各空港の端末が順次回復しますが、羽田空港発の路線をはじめ63便が欠航、358便に遅れが出ました。

欠航などで航空機のやりくりがつかずに終日、空港は大混乱することに。社員が手作業で手続きをとるなどして対応しましたが連休ということもあり、全日空のカウンター付近は搭乗手続きを待つ人たちであふれ返ります。7万人に影響を与えました。

・2008年9月16日 国土交通省が全日空に早急な原因究明と再発防止を求めるよう指導

・2008年9月18日 全日空から国土交通省に原因と再発防止策を報告

2007年5月27日

情報源:全日空の予約・発券システムでトラブルが発生。 http://allabout.co.jp/gm/gc/296741/

130便が欠航、306便に1時間以上の遅れが出て、約7万9300人に影響を与えました。

どんなシステムトラブルだったのか、どう対策を考えればよいのか見ていきましょう。

背景には汎用機からオープン系への移行があった

全日空には国内線の予約-発券-登場手続きを行うシステム「able-D」があります。各空港のカウンターや支店、旅行会社に約1万台のabel端末が設置され、1日最大650万トランザクション処理を行っています。

「able-D」は1988年に稼働し、既に18年が経過しています。長年使い続けた汎用機システムですので、改修につぐ改修でシステムはつぎはぎだらけになっています。システム変更は容易ではありません。

また競争の激しい航空業界ですので新しいサービスを追加し他社と差別化をしなければなりません。そこで全日空では汎用機からオープンシステムに移行することを決定しました。

選んだのは米ユニシスが開発したエアライン・パッケージソフトウェア「AirCore(Airline Core Systems Solutions)」です。「AirCore」はJavaで開発されています。

メガキャリアでオープン系予約システムを構築するのは全日空が世界初になります。新しい「able-D」は2007年から順次稼働し、2012年までに全面稼働の予定です。長期に渡るプロジェクトとなり全日空では「新旅客サービスプロジェクト」と呼んでいます。

ハード面の移行は既に始まっており、abel端末のリプレースが実施され、これから汎用機からサーバーへの移行、自動チェックイン機、自動発券機等の刷新が行われます。今回のトラブルはこの流れの中で発生したようです。

全日空の予約・発券手続きが出来なくなる

まだ詳しい原因は分かっていませんが、時系列でシステムトラブルをおってみましょう。

5月27日 トラブルでカウンターは大混乱に

【5月上旬~5月24日(木)】 「abel-D」のホスト接続に使っているシステムで6台のサーバーうち3台を2週間かけて更新

【5月26日(土)】 ネットワークの調子がおかしい兆候が出始める

【5月27日(日)システムトラブル当日】

【未明】 処理能力が低下し、修復作業を行うが解決せず

【9:30】 処理能力が大幅低下し、予約や発券の手続きが滞り始める。羽田、大阪空港の発着便を中心に欠航、遅延があいつぐ。ネットワークを本番系からバックアップ系に切替

【12:30】 ホスト接続システムのサーバー3台を以前のサーバーとソフトウェアに戻し、汎用機に滞留していたデータを削除

【14:30】 ネットワークをバックアップ系から本番系に切替

【15:30】 全面復旧

【18:00】 運行を再開

ホスト接続システムは多重化対策を行っており、6台のサーバーの何台かがダウンしても残りのサーバーで対応できる設計になっていました。ところが新たに更新した3台のサーバーが誤った判断をしながら汎用機にデータを送り続けました。

3台のサーバーが稼動を続けたことで多重化対策がいかされませんでした。また3台のサーバーから汎用機に出された情報がたまり過ぎたことが原因で処理速度が低下、トラブルになったようです。

誤った判断という報道ですのでソフトウェアのバグか、ネットワーク機器などの設定ミスの可能性が高そうです。

おそらくサーバーを更新した時から不具合は発生しており汎用機にデータがたまり始め、週末に向けて利用が増えたこともあり5月27日(日)未明に限界を超えてしまったのでしょう。

さいごに

取り急ぎ、ANAのシステム障害は無事に復旧したようです。復旧不可能でなくて本当によかったですね。

日本ユニシスさんは日本で指折りの技術開発力をお持ちのようで、きちんとこうやって社内技術論文が出回っており、それについていつでも閲覧できるところは素晴らしいと思います。

これからも、こういう技術資料をぜひ更新していっていただきたいです。

それにしても、何年か前に変更する前まで、Fortranが動いていたなんて!大学の研究室で動いているのを見たのが最後です!本当に素晴らしい技術力をもったエンジニアがたくさんいるんだろうなーいいなーうらやましいなーという職場環境ですね。

スポンサーリンク
hige1
hige1

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
hige1