URL

「ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:ITpro」のグラフ

ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:ITprohttp://itpro.nikkeibp.co.jp/atcl/news/16/033000936/
月のグラフ

コメント

(2018/08/21 15:18:49 更新)
  • 虫じゃなかった:ykanadan2017-03-31 09:44:09
  • スイッチのバグであんなことになってしまうとは恐ろしい。。そりゃ半導体ベンダーへの要求も厳しくなるな、、:palmyra2016-05-10 18:54:27
  • Ciscoのスイッチで、不幸中の幸いだったのでは。これで、マイナーなメーカの製品だったら、ほら見たことか的な袋叩きにあいそう:estragon2016-04-04 15:25:28
  • “システムは必ず止まるという前提で”:rytich2016-04-04 13:48:42
  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:munenaga2016-04-03 10:19:52
  • 冗長スイッチ関連?:(http://int128.hatenablog.com/entry/20110107/1294402397) (http://software.fujitsu.com/jp/manual/manualfiles/m140021/j2uz5303/08z200/j5303-00-03-02-01.html)(http://www.oracle.com/technetwork/jp/products/clusterware/interconnect-vlan-06072012-1657506-ja.pdf):natu3kan2016-04-03 02:08:47
  • アナログでも機構が複雑なものだと同様の問題が出ないとは限らんから、両方積むのが普通よね:peppers_white2016-04-03 01:18:57
  • スイッチが死んで、冗長化してたのに(スイッチのバグで)機能せず、徐々にDBサーバがダウン、という経緯だったらしい。泣けすぎる。こんなのどうしようもなくない?:natroun2016-04-02 01:57:20
  • スイッチが完全に停止したわけではなく、不安定ながらも動作していたのが、事態悪化の一因。:adsty2016-04-01 23:44:09
  • 世界初か・・・・:natsutan2016-04-01 19:34:01
  • Ciscoが絶対安全安心というのは幻想 それでも大手SIerはCisco使うんだろうな:mitsuru8882016-04-01 14:37:56
  • うちの代理店だとスイッチの不完全な故障なんか1週間かけても見抜けそうにないな:Kukri2016-04-01 12:38:19
  • スイッチが複雑になればなるほどこういう障害増えそ。昔みたいにバカハブに回帰しよう:deloreanmc122016-04-01 12:01:34
  • "信頼性を高める努力を続ける一方で、システムは必ず止まるという前提で事業継続性をどうデザインするかが新たな課題になりそうだ。":nakamura1952016-04-01 10:27:00
  • クラウド移行が進みそうな事案?:kamemoge2016-04-01 09:56:37
  • スイッチのバグじゃ仕方ないよねと思うんだけど、なんで全日空にだけ世界でもたぐいまれなるバグが何度も起きるんだろ(何か潜んでいるんじゃないの?):bn2islander2016-04-01 08:08:09
  • 中継装置の集積回路とか歯にものが挟まったような言い方してると思ったら、やっぱりCiscoだった:wushi2016-04-01 00:01:04
  • おそらくだけど、4948がスイッチングできない状態になったけどリンクダウンはしていなかったんだと思う。なので、副系nicに切り替わらず.... 故障シグナルってのは謎だが、恐らくsnmp-trapではないはず。:blackapple2016-03-31 21:29:12
  • 満点に近い事後対応:kowagari2016-03-31 19:16:56
  • シスコ<我々を上手く扱えない日本人がわるいキリッ:yuka7rin122016-03-31 19:05:59
  • 「スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。」「旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった」:arajin2016-03-31 18:03:12
  • 人命がかかるミッションクリティカルシステムでは装置故障判定をその装置のシグナルに「のみ」依存することは御法度である。対応は妥当だけど、いい加減スイッチ関係のFTA,FMECAを根本からやり直したほうがいいでは。:amori2016-03-31 17:37:50
  • 自分のプログラムでも最初に出たバグは世界初を名乗っていいですか?:hhungry2016-03-31 17:30:10
  • ANAのトラブル対応は素晴らしいのだが、前回もシスコのスイッチトラブルだったことを考えるとシスコ何やってるのって感じはする。シスコ以外の選択肢がこういうとき余り無いのがなあ…:raitu2016-03-31 17:05:59
  • 833:garage-kid2016-03-31 16:53:52
  • 未報告バグ 「4台のデータベース(DB)サーバーをつなぐ米シスコシステムズ製イーサネットスイッチの故障」「Catalyst 4948E」「「故障シグナル」を発信しなかった」:betelgeuse2016-03-31 16:23:06
  • たいへんそうだ。:shag2016-03-31 15:40:02
  • 問題発生後の対応が素晴らしい。こんなに早く調査から対応方針決定まで行けるもんなんだね。:ikd96842016-03-31 15:31:30
  • 「同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった」:yyamaguchi2016-03-31 14:54:26
  • HSRPのバグってことかな。:shea2016-03-31 14:48:08
  • こわい:motchang2016-03-31 14:42:25
  • 既知のバグが原因でした!とかあるんかよ。:akikonian2016-03-31 14:39:56
  • Oracle RACのインターコネクトのL2スイッチが1台ってのは推奨構成じゃなかったような気がする:gorimaru72016-03-31 14:08:51
  • 結局原因はなんでしょう?記事では起きた事象の話しかしていないように思えます。今回の事象が起きた時に事故となる原因が書かれていないですよ。設計者なのか会社の体質なのかコストと天秤にかけたからとか?:ntanigawa302016-03-31 13:55:40
  • 的確な判断、迅速な原因の切り分け、見事だなあ。さすがだ。:irasally2016-03-31 13:36:38
  • ワールドファーストですからという世界最強のごまか…もとい免罪符来ちゃったな:hiby2016-03-31 13:36:15
  • 原因がスイッチの未知のバグと特定して2日後に対策も実装してるのすごいし、事故後の運用もきっちりしてるし、バグのせいでもトップの報酬減額とANAの対応すごい。:mutouj2016-03-31 13:32:02
  • これ報酬減らさなくてもいいような。もしくは同額をシステム保守されてた方々のボーナスにしてあげて:todo9876543212016-03-31 13:31:06
  • ユニシスのエンジニア(実際は下請けかな)が偉すぎ。あとANAも理解のありそうな客で良かったように思える。:bb_river2016-03-31 13:21:11
  • 問題切り分けだけじゃなく対策も一通り終わってんのかはええ。死ぬギリギリまで頑張るやつホント邪魔だからとっとと白旗上げて交代申請してほしい:legnum2016-03-31 13:10:01
  • レベルの高いトラブルシューティングだ:trashtoy2016-03-31 13:09:40
  • よく検証環境をすぐ検証に使えるように保守していたものだなあ。コストもかさむだろうに。技術者側も凄いが、顧客側もきちんとお金を払っていたわけだ。:junorag2016-03-31 13:06:37
  • これほど短期間で、ネットワーク機器障害と断定でき、代替製品を導入。さらにDB同期処理変更完了って、大変な技術力。:iwryokka2016-03-31 13:00:08
  • CISCOお得意の宇宙線とかニュートリノとかの影響で何だかよくわからないけど止まりました。じゃなかった:zanac-ai2016-03-31 12:50:45
  • 思い返せば様々な製品由来の『世界初のバグ』には数百回単位で出会ったことあるなぁ(白目:asuka08012016-03-31 12:50:08
  • よくわかっていない・・・故障した装置が自分で故障シグナルを発する? それともハード監視みたいなものか > 具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。:masakanou2016-03-31 12:46:09
  • トラブル後の原因究明・対応力凄い:ANNotunzdY2016-03-31 12:44:37
  • 運用を止めないための冗長構成なのにフェイルオーバーするための機能がバグっててフェイルオーバーできなかったってことか。これはつらい。というかシスコのレアな不具合に2回も遭遇するとはANA不遇すぎる…:ardarim2016-03-31 12:42:30
  • ANAの対応に落ち度はないように思える。1台だけでサービスを再開したのはむしろ良い判断。トップの報酬減額はやり過ぎではないのか。:nippondanji2016-03-31 12:01:04
  • スイッチは多重化してたけど故障を検出出来ずに切り替わらなかったのか。中途半端に故障するのが一番怖いね。対策のDBサーバ側でSW故障検知とはpingで生存確認的なやつ?:petitbang2016-03-31 11:59:51
  • ANAも凄いしベンダーも凄い。素晴らしすぎて惚れる(笑):negi_11262016-03-31 11:58:17
  • 「システムは必ず止まるという前提で事業継続性をどうデザインするかが新たな課題になりそうだ」:carl_s2016-03-31 11:58:01
  • まがりなりにも小さい会社の社内システム保守やってた人間からすれば、これほどの障害をこの短時間である程度の原因まで見極めてしかも復旧まで持ってったところに驚愕する。:nonameblog2016-03-31 11:56:51
  • Catalyst 4948E 世界で4万3000台“世界初のバグ”:lowpowerschottky2016-03-31 11:52:40
  • 久しぶりにリアルで「へぇ」って声出た。こんなんテストやっても見つからんやろー。ANAは当然シスコ相手に訴訟するんだよな?:killerQueen2016-03-31 11:51:19
  • CISCOの機器ってロット単位で不良品の山を築いているのを聞いた事があるのでさほど信頼してはいない / 死活監視は複数の経路を持っていてもDBのデータ通信系は単一経路で障害時に切替えという構成でそこでやられたか?:jiro682016-03-31 11:43:15
  • 世界初のバグがじわじわくる。:taguch12016-03-31 11:36:13
  • なんだかんだでANAすげぇよ(´-`):toaruR2016-03-31 11:34:00
  • スイッチ構成がレイヤ2なのか3なのかが気になる。再発防止はどうすんのかね。:shinjukukumin2016-03-31 11:27:44
  • SSRハードのバグ引いてしまったのか:kumokaji2016-03-31 11:11:51
  • 正しくトラブルに対応することは評価を上げるチャンスであることを改めて認識できた。:migrant7772016-03-31 11:11:36
  • "実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった" 確かに似てるよねコレ:halfrack2016-03-31 11:00:20
  • ANAのトラブルはCat4948Eの故障が原因。故障を検出できない不具合があった。:metroq2016-03-31 11:00:09
  • これは…:wwbw_qss2016-03-31 10:55:02
  • ANAはどうか知らないけど、ネットワーク屋とシステム屋がユーザ側で完全に分かれてて、風通しが悪い所が多い気がする。/ 世界初のバグ、うちもしょっちゅう踏み抜いています。ユーザーさんにはホントかよと思われてる:spacefrontier2016-03-31 10:53:19
  • 各DBサーバは個別にDBを保持して同期していて、同期が取れなくなったサーバはデータ保証できないので落ちる、という構成か。共有ディスクによるクラスタ構成にしておけばよかったのでは。:sawarabi01302016-03-31 10:49:19
  • お前ら褒めてるけど、この裏で人が死んでるかもしれんねんで:aodifaud092016-03-31 10:48:24
  • あぷり鯖に NIC 複数載せてすいっちも多重化されてたらせーふだったのかなぁ? これだと VM じゃ再現できない状況だし物理的にもまったくおんなじな動作確認環境っていいなぁ・・・ (ーω【みかん:mumincacao2016-03-31 10:42:03
  • いろいろ学びたい/オープン系システムでリアルタイムOS(というか落ちたら困るシステム)難しいんかなあ:namikawamisaki2016-03-31 10:22:08
  • 報酬減額してできたお金はどこへ?:mas-higa2016-03-31 10:18:28
  • 『世界初のバグ』モヤモヤする表現だなぁ:shimooka2016-03-31 10:17:57
  • どんだけ多重化してもそれを分けるところでエラーが起こるのは避けられないってことか:timetrain2016-03-31 10:14:26
  • あとでよむ:hilde2016-03-31 10:13:03
  • たまにはこんなこともあるでしょ。縮退対応や、順次復旧含めて素晴らしいのでは。:tolkine9999h2016-03-31 10:10:19
  • なかなか理解して貰えないけど、ホントコレ→『システムは必ず止まるという前提で事業継続性をどうデザインするか』at:ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:ITpro:world_standard2016-03-31 10:06:50
  • 日本のSEはネタにされがちだが、巨大案件やるようなところの解析能力(人+機材)はすごい:moccos_info2016-03-31 10:05:01
  • 予備機があっても予備ネットワークはなしか。スイッチやNICの半死にってホントやっかいなんだよねぇ。:okusa752016-03-31 10:01:32
  • 物理的なスイッチの限界か?/ANAのような巨大システムの中核にあるサーバスイッチがCatalyst 4948Eなのは意外と普通:kaiton2016-03-31 09:57:17
  • スタック構成かなと思ったけど4948はできないっぽいな。まぁこれはすべてのDBが同じスイッチに乗っかってたのが問題っぽいけど、中途半端に生き残るスイッチさんはマジ厄介ですね……。:yutamoty2016-03-31 09:55:43
  • スイッチの故障じゃなくてバグだったの:niship_08222016-03-31 09:55:15
  • 今年はGMOが電源設備で落ちたし、ANAはスイッチで落ちたから、この流れで数カ月後にハードウェアトラブルでまた大きなサービスがなんか落ちるのでは / シスコ幻滅しました…YAMAHAのファンになります:arisane2016-03-31 09:55:12
  • 医者としては、人間でも同じようなテスト環境があればなぁ<って、ES細胞の研究はそれを目指しているのだった:izsatoshi2016-03-31 09:49:44
  • あら、2007年の時と同じ様な不具合だったのね。とはいえ究明と対策の発表が早いのは素晴らしい。次はまた9年後に!:style_blue2016-03-31 09:49:25
  • ?「あー、これじゃ実機テストできんやんけ、ジャンパーでほいほいっと」:kuippa2016-03-31 09:49:02
  • 生き死にの確認をH/Wの信号だけに頼ってはだめ!異常系のテストが甘かったんだな。:charlestonblue2016-03-31 09:48:30
  • “(”:speed_star_992016-03-31 09:46:39
  • 日経BPの別記事では世界で4例とあるらしい(伝聞)ので、世界初なのかどうかはともかく、レアケースではあるみたい。(まだ読んでない:lovely2016-03-31 09:38:50
  • 対応の早さに頭が下がる:enomo102016-03-31 09:34:39
  • キリキリする...:kimzo2016-03-31 09:30:08
  • 今回のANAの一連の対応を見て、私の中の株価が爆上げになってしまった:boxmanx992016-03-31 09:29:39
  • 世界初じゃないバグがあんのかw:thenkun2016-03-31 09:28:41
  • うひょーCatalyst4948E[ http://www.cisco.com/web/JP/product/hs/switches/cat4900/cat4948E/index.html ]"2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売しているが、今回の不具合は初めて"(´;ω;`)…:longroof2016-03-31 09:28:21
  • 「Bashっぽい何かではなく、VM上の動作でもなく、「Windows Subsystem for Linux (WSL)」を介したネイティブ動作」こんなもんいつの間に...。:khtno732016-03-31 09:25:15
  • 今回もまたシスコのスイッチ不具合を踏み抜いたとのこと。『本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現』さすがにちゃんとすぐテスト出来るようにしてる。:stealthinu2016-03-31 09:24:53
  • インフラハードの問題だったのか。それはそれはご愁傷さま。:snjx2016-03-31 09:22:14
  • 「切符」対応もだけど改修含めて対応力すごいな…|「いっそ頼むから死んでくれよ半端に頑張んなよ…」っていうのあるあるすぎる…:tetzl2016-03-31 09:21:04
  • スイッチが故障した場合の故障シグナルが故障していたのが原因なのか。:Jxck2016-03-31 09:20:49
  • 素人考えだけど、むしろよくこの状況で24時間で全サービス復旧まで持ってったなぁ…(@ω@) #クロス #モニクロ:holly_d2016-03-31 09:20:04
  • そんな。こんなのどうしようもないじゃん。。:typex22016-03-31 09:19:26
  • シスコのスイッチ故障とか疑えないかもなぁ。ただ、DB間の連携失敗で全停止っていう設計思想はどうかと思うけど、それもいろいろトレードオフか。:mackey132016-03-31 09:18:37
  • id:regularexception 同期が取れなくてデータに不整合が起きる方が大問題なので、同期できなくなったら停止で正解です:cryks2016-03-31 09:18:33
  • 「システムは必ず止まるという前提で事業継続性をどうデザインするかが新たな課題になりそうだ」:ume-y2016-03-31 09:17:32
  • 役員が報酬減額したりすぐに再現させるスキルがあったり、いいチームのように見える。事業継続性設計はDRだけじゃないのは昔から言われてることだから最後の締めはテンポ落ちてるけど…。:TearTheSky2016-03-31 09:15:07
  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:kgrock2016-03-31 09:12:51
  • さすがの冗長性、可用性。ほんでテスト環境も双子で用意していて即検証、原因究明、縮退運転の決行とか。システム構成として理想的じゃないの。:oldguys2016-03-31 09:12:44
  • 「故障シグナルを発信しない」「不安定ながらも動作」ってところがまずかったっていう話だろうか。ブラック企業で不平を堪えて体壊しながら頑張った結果最悪のミスを犯した社員の話みたいだ。:odoratec2016-03-31 09:10:07
  • これが中国なら「アメリカの工作だ」という事になりそう(笑)(ファームに細工をされている恐れがある、という事で米国製スイッチを採用していない。なお、米国は中国製を似た理由で採用していない。):deep_one2016-03-31 09:06:44
  • 軟着陸させましたね:y-shinozw2016-03-31 09:03:25
  • ANAはブランディングがうまいなー、信者がごろごろいるわ:ichiro20152016-03-31 08:59:48
  • 大規模システム作ってると有名ベンダー製品でも世界初のバグなんてしょっちゅうひくので世界初のバグを出来るだけひかないような設計&テストと引いた時の対応がやっぱ大切だなー:GARAPON2016-03-31 08:59:42
  • 「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現した」←ちゃんとしてるなあ〜:kukky2016-03-31 08:59:41
  • ありがとうANA!そしてありがとう!:negima19762016-03-31 08:58:20
  • 「故障シグナル」ってSNMP trapかsyslogじゃないの?これが飛ばないというより、「ちゃんと死んでくれない」が主原因だと思うなー。そしてこんなもんは世界初でもなんでもないし、設計ミスのような気がしないでもない。:ikedas2016-03-31 08:57:12
  • 「世界初のバグ」を覚えた:Bosssuke2016-03-31 08:55:34
  • おつかれさまです、、:kinushu2016-03-31 08:53:17
  • たった2時間で一部でも運用再開できてるっての素直にすごいと思う。:otom2016-03-31 08:51:30
  • 2007年は世界で4例目とか言ってたけど、そこ強調するところかね #zp:tachi39272016-03-31 08:51:10
  • 「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現した」:sugimo22016-03-31 08:48:57
  • 最近のCisco SWは取り立てて品質も高くないのに何でこんなにありがたがって使われるのかナゾ。その上未だにtelnet接続がメインだし:monochrome_K22016-03-31 08:46:36
  • スイッチの半死にって比較的よくある話のような気がするんだけど。。。この機種では世界初ってこと?:oooooo41502016-03-31 08:41:09
  • ”4時間40分かけて4台が次々停止” オカルト好きが反応しそうな感じ:f-chyren2016-03-31 08:39:45
  • テスト機なしは:vanish_l22016-03-31 08:39:04
  • コンピューターとまっても手動で飛ばせるようにアナログないろいろを残していたのは興味深かったでふねぇ>この件:You-me2016-03-31 08:37:56
  • 短時間でよくここまでってすごい。そして、公開か//世界初は結構あり触れてるので困りよね。。。顧客の怒りをものすごく浴びるの技術者だからな(; ̄ー ̄A:watuki2016-03-31 08:37:28
  • スイッチのバグってか?:s_nagano2016-03-31 08:37:22
  • シスコにもANAはあるんだよな・・・:sds-page2016-03-31 08:37:05
  • 4台同期できないと落ちるっていう設計は問題ないのかしら。なんのための4台なのか:regularexception2016-03-31 08:36:14
  • 世界初のバグか…まぁ表に出せないこともいろいろあるだろうしな。対応のスピード感なんかは鮮やかな印象。中の人お疲れ様でした。まだまだ終わってないと思うが。:kitaj2016-03-31 08:33:37
  • まさかスイッチの不具合とは... 同期不良はなんとなく想像ついたけど。まあ、スイッチの中でも、自己診断と障害報告書の機能の不具合だから、なかなか動かないところではあるんだろうな。:Rinta2016-03-31 08:32:27
  • どんなに確率が低くとも運用の際の処理数が桁違いだとどこかのタイミングで発生する可能性は潰せないのか。確かに「お祓い」ぐらいしか有効な対策が思いつかないな。:Galaxy422016-03-31 08:31:23
  • 起こらないことが起こる世界:kenzy_n2016-03-31 08:29:07
  • ブコメ見て、会員登録して記事よみたくなった:totttte2016-03-31 08:29:05
  • 地上のバグで助かった。:instores2016-03-31 08:27:24
  • シスコのせいとか設計が悪いとか現場の人はしらねぇよって感じだろうしお疲れっす:shngmsw2016-03-31 08:26:54
  • 「世界初のバグ」っていうのが不思議な響き:larker2016-03-31 08:24:57
  • スイッチ半死にでalertが出なくてサーバダウンの状況を考えると、復旧早い方という気がする。絶対DB側疑うよね…:yusukem2016-03-31 08:24:43
  • DB担当のホッとした感:hiroharu88642016-03-31 08:21:47
  • "まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日にシステム改修を終えた" ふぁっ!?:sato04272016-03-31 08:18:41
  • そんなことあるのか。:tomodora2016-03-31 08:15:03
  • いろいろ興味深い。:anon-c2016-03-31 08:14:49
  • システム屋さんたちのコメントが熱い。:stellaluna2016-03-31 08:14:23
  • 犯人はCISCO。:tukanana2016-03-31 08:13:04
  • 言い方:advblog2016-03-31 08:08:04
  • 短期間でここまで突き止めたシステム屋ゴイスー。:iasna2016-03-31 08:06:05
  • L2スイッチなんて壊れたり異常起こして当たり前ってことを織り込んでないシステム設計の責任だろう。機器ベンダだけが悪いと思った人は今後システム設計に関わらないで欲しい。:spiral2016-03-31 08:05:08
  • これ、全日空は(補償されるされないは別にして)シスコ側に損害賠償訴訟起こしても許されるレベルの話なのでは?:guldeen2016-03-31 08:03:03
  • バグってハニー:weep2016-03-31 08:02:04
  • 保守に金払う重要性を理解したかおめえら。渋ってんじゃないよお金ちょうだい。:buko2016-03-31 08:01:09
  • "世界初のバグ" これから2週間くらいは使えそうなフレーズだなw:manFromTomorrow2016-03-31 07:58:50
  • サーバ室に御札を貼るべき(弊社は貼ってます・・・):Harnoncourt2016-03-31 07:55:59
  • わりとANAをdisり気味でニュースを見てたが、毎回スイッチ等に泣いてるのか。:th_62952016-03-31 07:55:42
  • なにこれつらい 対応するとしたら死活監視自体を二重三重にするんですかね。。。:don_ashill2016-03-31 07:55:37
  • 中途半端にしなられるの困るよな。それと世界初バグあるある(´・ω・`):yogasa2016-03-31 07:55:34
  • このスピード感は素晴らしい。どこかの会社も見習ってほしい。あぁ、胃が痛い。:gakushi92016-03-31 07:55:17
  • “国内線システムはアプリケーションとシステム基盤を含め、日本ユニシスが構築を担当” こういうのってシステムベンダーの名前は出さないものかと思ったら最後のほうでしっかり書いてあった。:altar2016-03-31 07:40:55
  • バグって断言するくらいだからIOSのverが原因なんだろうな。記者発表までのスピードに懐かしい胃痛を思い出す。:Sediment2016-03-31 07:39:11
  • Cat4948Eなんてメジャーなコアスイッチなのに。今流行りのSTPフリー構成とかでも、スタックしてスイッチまたぎのLAGってだけど、スイッチのソフトのバグには弱いからなー。故障シグナルってSNMPかな?:Cald2016-03-31 07:39:05
  • 安全に壊れるのは難しい。:hogetahogeko2016-03-31 07:37:27
  • 落ちようとしても落ちきれないって「なれる!SE」のどっかの話でもあったな。:ayagane2016-03-31 07:35:11
  • この会社、何かあるといつも「世界初のバグ」なんですが…【ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン】:fmht72016-03-31 07:32:37
  • 逝くときは逝くからなぁ。止まらないシステムって難しい。ボトルネックがあったわけだけど、開発/テスト環境でも再発したのならば、代替機に切り替わっても…。現場の修羅場を想像するにご愁傷様です。:paku76512016-03-31 07:29:25
  • 世界初なんていうから、てっきりどっかに虫が紛れ込んで起こしたのかと……:kuro_pp2016-03-31 07:27:07
  • ネットワーク機器に関して現状これ以上のソリューションが簡単に見つからんだろうことに闇を感じる:PowerEdge2016-03-31 07:25:44
  • また7年前の記事が回っていて… と念のため確認したら今回もANAの障害はCISCOスイッチであった:takeim2016-03-31 07:23:59
  • ANAのシステム障害、Cisco製スイッチの世界初のバグでDBサーバーが全停止。むー、冗長化していても落ちる時は落ちるんだなぁ。:rxjun2016-03-31 07:20:21
  • DB4台だけなんだと言うことと、またシスコですか。他社に交換出来ないのかねぇ:Pasirin2016-03-31 07:15:31
  • あー、わし氏も引いたことあるわ。世界初。VLANを「複数」定義しようとしたら、ある他の機能が動かなくなるやつ。ちな、顧客は「セキュリティのため1人、1VLAN」で定義したかった模様。OK, 助走してドロップキックな?!:remix-cafe2016-03-31 07:10:17
  • この前にベンダー、SIerとの綱引きがあっての公開情報なんだから、ぜんぶ鵜呑みにして外野からあーだこーだ言うのはただの井戸端会議だよなーw:sho2016-03-31 07:06:13
  • スイッチの故障はごくたまにあるよ。ファン障害が多めかなあ。あとは光モジュールの故障とか。/ 故障の話をしてるのをみると、SNMP trapが飛ばなかったんだと思う。断続的なパケットロスは確かに気付きにくい。:ryun_ryun2016-03-31 07:04:55
  • 御愁傷様でした…:miragestlike2016-03-31 07:03:57
  • 公式発表はや:edechang2016-03-31 07:01:47
  • スイッチのせいでしたか。よく、特定できましたなあ:pmobiuse7772016-03-31 06:59:42
  • ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:ITpro:nilab2016-03-31 06:55:59
  • マジックワード。:yhira02022016-03-31 06:55:21
  • >スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」:zoidstown2016-03-31 06:50:26
  • マイナンバーのシステムで使ってるスイッチは別の機種だろうか?:Cujo2016-03-31 06:43:08
  • こんだけ大規模なシステムの障害切り分けがかなり速くてすごい。:chokovi2016-03-31 06:29:37
  • 各社が自社部分の潔白を証明しようとした結果のこのスピードでの発表だろうが、世界初のバグとやらが頻発してたりして。:taruhachi2016-03-31 06:28:22
  • スイッチの故障ってよくあることなのかな。:atotto2016-03-31 06:26:55
  • この対応速度ぱない。私が担当だったら障害発生直後に自殺するレベル。:tydk272016-03-31 06:25:02
  • シスコのせいで 業務が 死すことに。:blueboy2016-03-31 06:22:49
  • 辛い戦いだ。トップが減給するのは、今回に繋がる文脈がないと違和感。今後の現場やユニシスに対する締め付けが。システムを信じない前提のスーパースーパー堤防みたいな対策にならないことを祈ります。:f-shin2016-03-31 06:19:59
  • スイッチが故障していたが、エラーを吐かなかったと。冗長化構成だからって、油断できないねー。:hideooya2016-03-31 06:11:50
  • ハード故障かもしれない段階で「バグ」と表現することの違和感すごい / ハード原因で一定確率でパケット壊れるみたいなことも(理想では)想定すべきだから、シスコではなくシステム設計側でどうにかすべきなんじゃ:kazuhooku2016-03-31 06:06:17
  • 結局、半死にチェックはアプリケーション層でしかできなかったということだよな。アプリケーション層の自己チェックで、それによるフェイルオーバーをやるしかないみたいな。:rti77432016-03-31 05:55:42
  • も〜スイッチ関連には交通安全のお守りでしょ〜:m4fg2016-03-31 05:53:20
  • “実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった”:hiroomi2016-03-31 05:51:44
  • cat4948e そうか、サーバー側はどうやって冗長してんのかな。データ同期、サービス、ハートビートで物理スイッチ分けてない?仮想環境だったにしては微妙なレンジのスイッチ?:ya--mada2016-03-31 05:45:55
  • ほええすげぃな。よくあんな短時間で切り分けできたもんだわ。:strangedoll2016-03-31 05:36:40
  • 4948Eは十分枯れてると思うけど「世界で4万3000台、うち日本で8700台を販売」との事で、売れてるとはちょっと言い難いと思う。機器選定は本当に難しいね。:yachimon2016-03-31 05:29:52
  • 結局、釣られた2007年のネタとおんなじような障害だったのか。。。:launcher2016-03-31 05:25:28
  • いくらDBサーバー、しかもSuperDome4台あってもこれじゃあなあ。pingだけ応答かな。 でも縮退を一時間で決定は早いなあ。:kenchan32016-03-31 05:22:50
  • 1時間程度で運用方針を決めて再開にこじつけている・・・!?感服するわ。。:diveintounlimit2016-03-31 05:19:30
  • 航空管制システムそのものの不具合でなくてよかった。。:pukarix2016-03-31 05:00:27
  • もっと枯れたの使えば〜?:ttop2016-03-31 04:19:07
  • "本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテスト" テスト環境のスイッチは別もんだったってことでしょ?『テスト』が不十分だったねという印象。不完全な冗長化が足を引っ張ったケースかな。:oktnzm2016-03-31 04:15:04
  • ハブが壊れたらシステムが止まるってなんのために冗長化してるんだか、ところで人為ミスだってドヤ顔してた人まだ息してる?:quwachy2016-03-31 04:14:21
  • 故障したスイッチが故障シグナルを出せず、予備機に切り替わらなかった。まあ、故障してますしね(納得の理由だ)。:burnoutdog2016-03-31 03:51:33
  • スイッチじゃないけど、俺もこないだ、クラスタ化してあるシステムが一部機能停止して業務停止したけど、完全に落ちていないから切り替わらなかったことがあった。再起動したら取りあえず、業務復旧したけど。:neco22b2016-03-31 03:45:22
  • ミッションクリティカルシステムをお持ちの皆様方にはぜひここに着目していただきたい>「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテスト」 頼むからケチらず揃えてください…:kbt32016-03-31 03:32:28
  • ハードウェア構成図を見たらスイッチ逝ったらヤバイなーと言うのが丸わかりだよね。:stk2k2016-03-31 03:32:27
  • バカ高い使用料金のかかるシスコ。業務停止の補償はするんでしょうかね?:gomaberry2016-03-31 03:01:30
  • 「スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」」:cloudliner_tweets2016-03-31 02:50:56
  • 対応した人々に拍手送りたい:dentaro2016-03-31 02:34:54
  • ふむふむ毎度原因はシスコのバグか!:iR32016-03-31 02:33:01
  • 担当者の首が飛ばなくて良かった:kaionji2016-03-31 02:19:23
  • 症状が不安定なのが一番辛い。こんなのよく短時間で見つかったなぁ…:wiz72016-03-31 02:18:45
  • ちょっとこれは後でよく調べておこう…うちには関係ない機種だと思うが…:ming_mina2016-03-31 02:17:41
  • スイッチのバグなんて、前例の経験がないと、絶対思いつけない自信がある。そんな経験もあることが、ある意味すごい。:you1_t322016-03-31 02:15:24
  • 半死半生で動作する装置は質が悪いってのはわかるけど、障害発生の2日後にシステム改修が出来るなら、最初からシステム設計に盛り込んでおけよって話だとは思う。:kz782016-03-31 02:05:00
  • メンヘラには絶対に言えない「死ぬならとっとと、尚且つ完全に死ねよ」が機械に対しては乱れ飛ぶ修羅の世界……(ホント大変やった思います。縮退にして事業継続したのマジ素晴らしい):alovesun2016-03-31 02:00:48
  • ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:ITpro -: 同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにも..:toshi196501042016-03-31 01:58:43
  • 運用的には中途半端に不具合が、起こるのが1番厄介。いっそのことストンと逝ってくれた方が復旧が早かったりする。 "スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」:tiida262016-03-31 01:51:04
  • 高機能を要求される業務用SWのOSは実は結構バグがある。長年インフラエンジニアやってれば何度か自分がメーカー報告した事象が次のアプデで直ってた経験あるはず。CISCOはユーザーが多いからバグFIXマシな方。:Shin-JPN2016-03-31 01:49:04
  • システム落ちても,対応によって信頼が増すこともあるんだなあと.さすがANA.:kana03552016-03-31 01:49:01
  • NWの冗長化なし?とか、ステージングで再現したなら待機系のスイッチに切り替えて復旧進めれたんじゃない?とか、死にかけ状態再発だとDBから監視しても検知漏れあるんじゃない?などなど:supra2016-03-31 01:46:41
  • Cat4948EはミッドレンジL3スイッチのベストセラーだね。僕も問題になったケースをほとんど知らないし確かにレアなんだろう。つか図を見て驚愕したんだがまさかその「予備機」ってコールドスタンバイじゃないだろうな?:napsucks2016-03-31 01:45:48
  • スイッチは複数社のものを用意したほうがいいのでは?一つのバグで全滅するぞ:Iridium2016-03-31 01:39:49
  • 4948Eってかなり優秀なスイッチだから、古いOSか新しすぎるOS使ってそうだな。versionないとなんとも言えない:kizuki10102016-03-31 01:37:39
  • ここでCiscoを脱却した途端に勝手の違いから二次被害が生まれるかどうか:hatomugicha2016-03-31 01:36:05
  • 全力で同情するわ。:fumi3282016-03-31 01:35:37
  • 涙が出そうになる "1台での縮退運転を決断":masutaka262016-03-31 01:34:26
  • 航空会社って超高精度な機械の保守運用を生涯やり続ける業種なので、ある意味手慣れたものなのだろうなあ。死に損ないパーツの怖さ、原因切り分け、対処法…整備士もパイロットもタワーの人もみんな熟知しているはず:Falky2016-03-31 01:32:28
  • 有能:tnakamura2016-03-31 01:31:24
  • s/世界初/未報告/:kuenishi2016-03-31 01:27:48
  • 実は既知の問題であっても周知の遅れとか諸々を突っ込まれないように世界初と言うしかないわな。:itpcfg2016-03-31 01:27:14
  • だが世の中にはそれがバグなら世界初だからバグではないと宣うユーザーサポートが実在する:nakag07112016-03-31 01:25:32
  • 対応の鮮やかさを感じるなあ:yooks2016-03-31 01:24:42
  •  ちゃんと公表してくるのか:chess-news2016-03-31 01:17:01
  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン(ニュース)  全日本空輸(ANA)は2016年3月30日、3月22日に発生した国内線システムの不具合について、原因や再発防止策などを公表:minonet2016-03-31 01:13:22
  • 「実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった」:konishika2016-03-31 01:12:18
  • DBサーバーは4台の多重構成なのに、SWは1台なんだ…。 > ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:ITpro::toresebu2016-03-31 01:11:19
  • 切符のもぎり運用ができたのが凄い:f-miyaji2016-03-31 01:10:16
  • 世界初のバグとかめっちゃ不憫w:yaaamaaaguuu2016-03-31 01:10:05
  • いくらCiscoでもその部分一般的に使われてる機能だったの?とか、そういうところが問題だと思うん...:iqm2016-03-31 01:01:02
  • 自分もシスコのハブは使ったことあるけど、その辺の量販店で売っているバッファローとかのハブの方が安定しているイメージがある。値段を高くするためにいろいろ付けけすぎなんじゃないの?:ichinotani2016-03-31 00:50:29
  • 確かに死に損ないは扱い難しいけど、障害検出に監視対象自体の発するシグナル(の有無)を信用しちゃだめでしょう。:notae2016-03-31 00:50:23
  • これはつらい:maruware2016-03-31 00:46:30
  • これはつらい:jijibabahuuhu2016-03-31 00:46:30
  • ハードの機能が完全に死んでない状態、ってのが怖いんだよなあと再認識したケース。製品が仕様通りに動かないことも見越すのがシステム屋の腕の見せ所だが、ANAの場合はそれよりなによりBCPが素晴らしかったと思う。:six132016-03-31 00:45:02
  • すごいな:tofu-kun2016-03-31 00:42:38
  • スイッチに塩とか撒いておいたほうがいいんじゃない(やめて下さい):megazalrock2016-03-31 00:40:41
  • 2016年3月30日、3月22日に発生した国内線システムの不具合:kanai62742016-03-31 00:40:03
  • なんだこの理想的な障害対策と障害対応は。ANA半端ねえな。:homarara2016-03-31 00:35:11
  • “スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」”:otiai102016-03-31 00:34:37
  • よくもまあこの短時間で切り分けできて公表までもってけたよな。そのへんはすごいわ。:K-Ono2016-03-31 00:30:13
  • うーむ:daybeforeyesterday2016-03-31 00:29:59
  • 知ってるか?どんなバグでも最初は世界初なんだぜ。。。:jtw2016-03-31 00:21:42
  • CISCOが単一障害点になってる印象:a_micchan2016-03-31 00:20:38
  • 典型的なsplit brainか。:nminoru2016-03-31 00:19:41
  • 日本で米国製品が故障→「仕様です」 米国で日本製品が故障→「停止したビジネスの逸失利益と時価総額減少分と、それを倍した懲罰払え」 って印象が:REV2016-03-31 00:17:59
  • こういうのだとネットワークも多重化してあるんじゃないのかな:lizy2016-03-31 00:14:13
  • 死に損ないハードはタチ悪いな、しかし同じような珍しい障害がまた発生してしまうとは不幸すぎる:Hiro01382016-03-31 00:10:20
  • メーカーはいつも「世界で初めて出たバグです」っていうよ:moons2016-03-31 00:10:03
  • この図怖いわ、予備機動つながってるよね?サーバ側が検知・切り替えってlinkdown検知ってこと?せめてサーバ2台ずつで正副タスキにしてスイッチ2台とも活かしておけばよかったのに(詳細ミランとわからん:dogusare2016-03-31 00:06:34
  • Ciscoから世界初をもぎ取ってて逆に格好よく見える:K2ICE2016-03-31 00:06:02
  • 対応はやいな、て逆に感じた、逆にANAのほうが安心か、と思うくらいだた:masayuki51602016-03-31 00:04:36
  • またネットワークか。なんか呪われてるとしか思えんな。:t-tanaka2016-03-31 00:04:05
  • すごいオペレーション:solidstatesociety2016-03-31 00:03:05
  • しょうがナいね:jt_noSke2016-03-31 00:02:06
  • 何故「今」?ハード障害?:houyhnhm2016-03-31 00:00:20
  • 対応としては素晴らしいように見えるね。:tengo19852016-03-30 23:58:54
  • 『シスコ製スイッチの「世界初のバグ」』こういう時に世界初っていうものなのかどうか/『DBサーバーが停止した理由は「正常に機能が働いた」(ANA広報)ため』これを言えるのえらいなあ…:Akkiesoft2016-03-30 23:53:01
  • 動き早くてスゲーな:pandaman642016-03-30 23:49:47
  • 日経コンピュータ記事。 ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:Ichinoseki2016-03-30 23:49:26
  • 同期ができないって話だったからcache fusion用のvlan繋いでるciscoスイッチの問題なんだろうな。ディスク側も同じスイッチで繋いでて全ノードが投票ディスク読めなくなったってことか。:beerbeerkun2016-03-30 23:47:15
  • ANAのトラブルの詳細:belgianbeer2016-03-30 23:46:29
  • ANAのシステム障害、原因はシスコのCatalyst 4948Eだそうな。スイッチの故障で4台あるDBが同期できなくなって、DB側が自動停止したとか。:sync_sync2016-03-30 23:45:01
  • これはもう不運としか言いようがない……:mu_hal2016-03-30 23:44:53
  • 前回もスイッチ→http://itpro.nikkeibp.co.jp/article/NEWS/20071029/285786/ 前々回はルータ→http://itpro.nikkeibp.co.jp/free/NCC/NEWS/20030324/6/ いくらサーバを強固にしても毎回スイッチ関連で悩まされるANA:masahiror2016-03-30 23:32:16
  • DB全停止から1時間で縮退運用を決定し、そこから2時間で運用再開できてるだけでも充分だと思うなあ。:sohju2016-03-30 23:31:21

関連エントリ