URL

「半年かかったバグ調査の顛末は - Cybozu Inside Out | サイボウズエンジニアのブログ」のグラフ

半年かかったバグ調査の顛末は - Cybozu Inside Out | サイボウズエンジニアのブログhttp://blog.cybozu.io/entry/2016/01/08/080000
月のグラフ

コメント

(2018/07/17 09:22:25 更新)
  • RAIDコントローラの不具合:moerrari2016-01-29 16:02:09
  • よく突き止めたなぁ。これ系のバグはここが怪しいというところまで調査したら怪しい箇所全部へ対処して終わることが多い(狭い観測範囲)ので執念がすごいし、時間をかけられる周囲の理解もすごい。:wkubota2016-01-14 20:01:41
  • ハード絡みで再現性低いとつらい。:progrhyme2016-01-13 16:15:16
  • ハード絡みで再現性低いとつらい。:key_amb2016-01-13 16:15:16
  • RAIDコントローラの不具合……、これは辛い。お疲れ様でした。:richard_raw2016-01-12 16:06:23
  • 下位レイヤーは本当に大変;WallBはDigital Forensics用途にも使えそう:vanbraam2016-01-11 19:25:05
  • 信頼性を上げようとRAIDを使う人がいるがこれは逆。RAID使えば間にコントローラーが入るので信頼性は逆に落ちる。そして壊れる時は最悪全DISKが死ぬ。:ladyjanymo2016-01-10 21:56:16
  • はずRAID:DustOfHuman2016-01-10 03:52:31
  • 周りを見回すと、「RAIDのおかげで助かった」ことより、「RAIDコントローラのせいでヒドい目に遭った」っていう人の方が多いという実感はある。:ozuma2016-01-10 00:39:49
  • 「複数同時にデータ書き込みを行うと、その書き込みが完了したのに、そのデータが実は書き込まれずにロストすることがあるというRAIDコントローラの不具合だとわかりました。 」:arajin2016-01-09 14:13:03
  • 「複数同時にデータ書き込みを行うと、その書き込みが完了したのに、そのデータが実は書き込まれずにロストすることがあるというRAIDコントローラの不具合だとわかりました。」何処のコントローラだろう:W53SA2016-01-09 13:41:56
  • わあ:side_tana2016-01-09 11:04:23
  • 半年かかったバグ調査の顛末は - Cybozu Inside Out | サイボウズエンジニアのブログ:nilab2016-01-09 08:49:08
  • 半年かかったバグ調査の顛末は - Cybozu Inside Out | サイボウズエンジニアのブログ 熱い。解決して良かった:shiwork2016-01-09 08:29:35
  • 問題の切り分けが大事:dekaino2016-01-09 05:50:16
  • 再現性のないバグの困難さよ、、、:kakipo2016-01-09 05:29:42
  • mdはその点きわめて枯れてるソリューションだが、パフォーマンスや拡張性、冗長性の点ではHW RAIDコントローラや専用ストレージヘッドに軍配が上がるので痛しかゆし。:napsucks2016-01-09 01:07:51
  • すごいなぁ:muddydixon2016-01-09 00:56:48
  • RAIDコントローラの不具合: 半年かかったバグ調査の顛末は - Cybozu Inside Out | サイボウズエンジニアのブログ:gikazigo2016-01-08 22:54:48
  • つらそう:craf2016-01-08 22:52:45
  • バグが低頻度だと何が条件か絞り込むのが大変そう。Raidコントローラーにも冗長性を!(混乱:natu3kan2016-01-08 21:56:29
  • 初期不良を引いたときとかによく感じるんだけど、再現性が低い不具合が一番困るんだよな……。壊れてるなら最初から動くなよ、という。:RPM2016-01-08 21:38:35
  • コントローラのベンダにお金もらおう:damedom2016-01-08 21:24:43
  • RAIDコントローラのバグとは:takeishi2016-01-08 21:15:34
  • 最近RAIDで痛い目にあった:curion2016-01-08 21:07:04
  • 記事(答え)読めばなるほど、となるけど担当者は本当にキツイ。キモは再現性向上の部分でしたね。ツール気になる:wiz72016-01-08 20:47:42
  • 知見だ:uva2016-01-08 20:29:43
  • もっと面白いトラブルがたくさんあるけど、SIだと表に出せない。:lovevoiceryu2016-01-08 20:06:03
  • えぐい:oscdis7652016-01-08 19:54:23
  • HPEのサーバーはOS不安定時の原因の大半がRAIDコントローラーのバグなので何かあると真っ先にRAIDを疑うようになってしまった。。:monochrome_K22016-01-08 19:40:21
  • 一番見つけにくいバグだな。再現性がないか少ないと難しい:atsushifx2016-01-08 19:31:32
  • こりゃ原因突き止めるの難儀ですわ:takc9232016-01-08 19:26:26
  • ハードのバグを追える人はわかりやすくエンジニア感が出るね。すげーと思う:Dy662016-01-08 19:22:02
  • この調査してるだけなら)楽しそう!:naquamura2016-01-08 18:47:18
  • 書かれている技術的な内容はよくわからないが、おもしろかった。:tailwisdom2016-01-08 18:43:20
  • 半年かかったバグ調査の顛末は - Cybozu Inside Out | サイボウズエンジニアのブログ:fire_02182016-01-08 18:28:25
  • id:bamch0h つれいども結構辛そうですがいかがでしょう?:theatrical2016-01-08 18:24:20
  • 「複数同時にデータ書き込みを行うと、その書き込みが完了したのに、そのデータが実は書き込まれずにロストすることがあるというRAIDコントローラの不具合」:raitu2016-01-08 18:23:33
  • ちなみに上の人が技術的困難度に理解があると精神的辛さは激減します:todo9876543212016-01-08 18:16:36
  • レースコンディションが原因のハードウェアのバグは辛すぎる……:rryu2016-01-08 17:48:58
  • 結果(バグ)からブラックボックスの過程を読み解いていく…いつもはトンチンカンな事ばっか言ってるけどたまに鋭いことを言うハゲのペアプログラマーがいたら古畑任三郎のようだ:kitamati2016-01-08 17:43:04
  • プログラミングの事は分からないけど、大変だぁ。:bigwave-john2016-01-08 17:42:16
  • バグではないのだけど、サーバのリプレースでマシンのスペックを全体的にあげたのに、パフォーマンスが前より悪くなってしまっていて、その原因がRAIDコントローラーだった、ということはあった。:te2u2016-01-08 17:29:51
  • "安易に他人のせいにするわけにはいきませんでした。"ほんとこれ。安易に他人のせいにすると迷宮入りするし、そういうよく調べずに決めつける人に限って優秀な人はいないし。/良くこんなバグを見つけ出せたな-。:Lat2016-01-08 17:18:18
  • 1.再現頻度を上げるテストプログラムを書く 2.同じような処理を行う他のプログラムで試す 3.負けない心:MARQUE2016-01-08 17:17:54
  • 頻度低いと辛いやね。:ysync2016-01-08 17:16:01
  • まず読んで、すげぇと思ってため息ついて、ブコメ読んで、社内 slack に共有して、もう一度読み直して、末尾のリンク記事も読んで再びため息。すげぇ。:kazuya0302016-01-08 17:10:36
  • 原因不明で心折れそうな案件…:motch1cm2016-01-08 17:04:28
  • RAIDコントローラーの型番書いて欲しい・・・:OKIIZO2016-01-08 16:58:22
  • うひょああああ!!!:halfrack2016-01-08 16:12:25
  • RAIDをはさむことによってRAIDコントローラが飛ぶと全部死ぬ、油断するなということは学生時代叩き込まれましたが、似たようなノリですか。いざ遭遇すると辛そう。:kimutansk2016-01-08 15:21:11
  • コツコツと積み重ねが必要そうだ:kenzy_n2016-01-08 15:18:25
  • 半年かかったバグ調査の顛末は - Cybozu Inside Out | サイボウズエンジニアのブログ: 2016 - 01 - 08 半年かかったバグ調査の顛末は Linux インフラ プログラミング…:digitalglm2016-01-08 15:14:31
  • これはつらい。ほんとによく見つかったなーというか、RAIDコントローラーを作る側の人は日常的にこんなことを…?:kkamegawa2016-01-08 15:10:24
  • 特定に半年かあ。:dekasasaki2016-01-08 15:10:19
  • これは怖いなー……。こんなん分からんわ……。:joker10072016-01-08 14:58:55
  • こういう技術レポートは会社にとって大きな財産だよなあ:yamadadadada22016-01-08 14:58:51
  • よく原因究明できたな。流行ってないサービスだったりすると発覚すらしないレベルの不具合だし、やっても謎のおまじないパッチ(リトライとか)あてて見なかった事にできたかもしれないのに。:smita2016-01-08 14:56:35
  • はぁ〜... ひぇ〜...:koyancya2016-01-08 14:54:46
  • こんなバグでも追跡できるんだな…:a2ikm2016-01-08 14:43:52
  • つらすぎる:sora_h2016-01-08 14:31:58
  • ひー:tagomoris2016-01-08 14:30:11
  • うちだと再現性低いので対応しませんで終わりそう:kaipu12242016-01-08 14:25:57
  • 信頼性を上げようとRAIDを使う人がいるがこれは逆。RAID使えば間にコントローラーが入るので信頼性は逆に落ちる。そして壊れる時は最悪全DISKが死ぬ。コントローラーによるリスクはちゃんと勘案すべき。:xevra2016-01-08 14:16:04
  • 差し支えなければRAIDコントローラの詳細教えていただきたいですね:niship_08222016-01-08 14:12:16
  • 素晴らしい記事だった。で、どこのRAIDコントローラ?w:Rinta2016-01-08 14:03:04
  • これはつらい、他人事じゃない…:notae2016-01-08 13:52:42
  • これはつらい……。:muamqm2016-01-08 13:40:42
  • うわー、これは大変。超つらい。RAIDコントローラのバグか。てことはすんごいまれな頻度でそのRAID使ってるとデータ壊れてるってことだよね。:stealthinu2016-01-08 13:30:45
  • これはつらい... よく調査完了したなぁ:DecoyMaker2016-01-08 13:23:06
  • これ、よんでるとすごいけど、当事者だとツライ:niwaringo2016-01-08 13:14:41
  • 半年掛かってもちゃんと調査しきってるのがすごい:YuichiTanaka2016-01-08 13:05:55
  • どのRAIDコントローラだろう...:xaicron2016-01-08 13:05:10
  • 「負けない心が大事」:sugyan2016-01-08 12:51:39
  • RAIDは「レイド」って読むんだよ!「つRAID」ってダジャレは「つらい」に掛っているようでかかってないからね!:bamch0h2016-01-08 12:48:11
  • 低レイヤー開発はつらい…:erukiti2016-01-08 12:47:16
  • ツRAID?:weep2016-01-08 12:37:22
  • すごい/環境構築はボトムアップが大事だと再認識:wordi2016-01-08 12:36:59
  • これはきついなぁ…:mongrelP2016-01-08 12:35:28
  • しんどい。:taguch12016-01-08 12:28:46
  • 20日に1度のエラーとか特定むずそう。。。:tohima2016-01-08 12:27:46
  • 凄い、推理小説を読むようなワクワク感がある。:kawa-_-kawa2016-01-08 12:24:47
  • 半年間気が気じゃなかっただろうな...。こういう不具合は胃にキツイ。:sifue2016-01-08 12:24:21
  • 歌でも聞いて和もう http://httq.hatenablog.jp/entry/20100809/1281359694:REV2016-01-08 12:23:46
  • 読むだけでお腹痛くなってきた。。。:Dolpen2016-01-08 12:10:04
  • 昔どうやっても原因がわからない障害がひょんなことからSCSIドライバのバグだってことが判明した仕事があったなあ:NOV19752016-01-08 11:56:24
  • すげー。:yumu192016-01-08 11:47:36
  • ここから絞り込んでいく流れすごい “しかしエラーが20日に一度ぐらいしか起きないのでなかなか進展しません”:lesamoureuses2016-01-08 11:44:09
  • これはつらい:kinushu2016-01-08 11:41:58
  • うはあ、超絶面倒臭ー:houyhnhm2016-01-08 11:35:50
  • すごい:hide_o_552016-01-08 11:33:15
  • Arrayコントローラつらい話がこんなとこにも… つらい:Makots2016-01-08 11:19:24
  • しゅごい…:k_enoki2016-01-08 11:05:53
  • これは時間のかかるやつ:s-wool2016-01-08 10:42:47
  • 数年前だけど、RAIDのフラッシュ時にデータが消える症状が出て、メーカーの情報を見たらCriticalレベルのパッチが出てたという経験をしたことがある。:koemu2016-01-08 10:34:05
  • 大変な仕事だ:katzchang2016-01-08 10:30:41
  • サイボウズラボ光成さんによるkernelレベルのデバッグ苦労話:teppeis2016-01-08 10:21:02
  • Cool:nishidy2016-01-08 10:15:04
  • つらい。どこのRAIDだろう..:kazeburo2016-01-08 10:00:49
  • RAIDコントローラーが原因だったと。:zoidstown2016-01-08 09:58:26
  • これは辛い:kazuhooku2016-01-08 09:51:24
  • "@knok RAIDコントローラーのバグとか辛そう…" via https://twitter.com/knok/status/685241209263009792:causeless2016-01-08 09:37:31
  • すごい。正しい執念、大事だなぁ:yoshiko_pg2016-01-08 09:31:37
  • 星野さん超苦労してた。本番投入も間近かな。:ymmt20052016-01-08 08:50:08

関連エントリ