こんにちは。やまさんです!
東証ほどの高信頼性求められるシステムが
落ちるのは珍しいですよね^^;
現場で対応されたSEの方々、
お疲れさまです。
基幹系システム
特に金融系システムは高い信頼性が
求められます。
といっても、
システムは人間が作っているわけで・・
2020年10月1日の東証システムダウンは
CIOの方を中心に経営陣の
記者会見がすばらしいという声が
多いですが、
この記事ではシステムは
止まるときは止まる、
落ちたときどうするかが大切
という話をしたいと思います。
Contents
東証システム障害のあらまし
2020年10月1日
東証システム アローヘッドが
落ちました。
その結果、
終日売買停止状態となりました。
以下があらましです。
東証システム障害の直接原因 ハード故障時の切替失敗
東証システム(アローヘッド)の
システムダウンは
ハード故障時の切替が機能が
想定通りに動作しなかったことが
原因のようです。
故障したハードは両現用で
動いていたとのこと。
説明不要かもしれませんが、両現用というのは2つハードを用意して平常時から両方動かしておき、片方が故障したときにはもう片方で稼働し続けられるようにするシステム設計です。
両現用にはハードが2つ必要で、
とてもお金かかります。
またそれを日々保守するSEも必要で
さらにお金がかかちゃいます^^;
東証システム、アローヘッドは
株取引の中核をなすシステムなので
それほどのお金をかける価値がある、
ということですね。
根本的な原因は人為的な設定ミス
と、言わていますが、
そもそも切替失敗自体が
問題なんでしょうか。
切替失敗(システムダウン)は本当に悪なのか
東証システム アローヘッドの
システムダウンは悪なのでしょうか。
実は、NY証券取引所も2015年に
システムダウンが発生し
取引停止となったことがありました。
システムは人が作ります。
ハードウェアも中で動くソフトも
人間が作ってます。
人間が作るので失敗や
故障することもあるでしょう。
まして、ハードウェアは
物理的なものなので
壊れることもあるでしょう。
SEも止めたくて止めているわけでは
ありません。
システムダウン時にどうするか決めておくのが大切
システムは人間が作っている以上、
止まるときは止まります。
止めてはダメなシステムでも
止まります。
大切なのは
止まったときどうするかを
考えておくことだと思います。
今回、東証の経営陣は
東証システム アローヘッドに接続する
システムやユーザへの影響を考慮し、
終日システム停止、という手段を
取りました。
システムダウンが発生する前の段階で
ユーザへの影響を考えた対応方針を
考えておくことが大切だと思うのです。
システムダウンさせないための
両現用であったりの
バックアップシステムなのですが、
絶対に止まらないシステムは
ありえないです。
止まると止まるのだから
止まったときのことを
考えておく必要があります。
まとめ
東証のシステムダウンをもとに
止まらないシステムはない、
というお話をしました。
実際のプロジェクトではシステムが
止まらないようにするために
設計をするので、
止まったときの話をするのは
めちゃくちゃストレスがかかります。
でも、社内だけで、
またはインフラエンジニアなら
自分の中だけでも考えておくのは
どうでしょうか。
優秀なSEは仮説をたてて考える力が
とても高いです。
仮説思考のようなビジネススキルは
デバックのときや東証レベルでないにしろ、
システム障害時に原因調査で
とても役に立ちます。
やまさんが出会った優秀なSEの共通点を
以下の記事にまとめていました。
ぜひ読んでみてくださいね!
それでは!