01


1: 記憶たどり。 ★ 2020/10/06(火) 11:19:43.53
https://www.itmedia.co.jp/news/articles/2010/06/news063.html

東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、
4日中に修正したと発表した。

障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。
メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。

no title

東証のニュースリリースより

arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。
1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。

調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。
設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。


稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。

1日の障害では、東証の全取引が終日停止した。

83: 不要不急の名無しさん 2020/10/06(火) 11:39:41.31
>>1
>>稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。

じゃなんで設定が変わってたんだ?

237: 不要不急の名無しさん 2020/10/06(火) 12:03:26.54
>>83
悪意の内部者によるテロの可能性は?(´・ω・`)

392: 不要不急の名無しさん 2020/10/06(火) 12:28:37.38
>>83
いろんな状態を想定して何ケースもテストするんだよ
いろんな障害を模擬した設定を数通り用意する。

その後に、最終的に、本番用の設定に揃えるんだけど、
いろんなテストの為に設定をいじくり回したあとに戻し忘れたんだろうw

637: 不要不急の名無しさん 2020/10/06(火) 13:27:25.53
>>83
本番機でやらずに、
本番環境に似せたテスト環境でやったんだろ

>>4日にシステムに適用し、
>自動切り替えが動作することを確認したという。

これも修正自体は本番環境に適用してるけど、自動切換えが動くかどうかの確認は、テスト環境だけでやってるはず

776: 不要不急の名無しさん 2020/10/06(火) 14:51:23.10
>>637
今回は形振り構わず本番環境で確認したと思う。

780: 不要不急の名無しさん 2020/10/06(火) 14:53:39.20
>>776
と、思うじゃろ?w
シミュレーションだけなんじゃよw

661: 不要不急の名無しさん 2020/10/06(火) 13:38:46.78
>>83
想定してない部分で故障が発生したと思われる

756: 不要不急の名無しさん 2020/10/06(火) 14:32:17.14
>>83
障害が起こった時自動的にシステムが設定を変えた
連続障害が起こらないように
そうなら理屈は通る 間欠障害でもありうるしアラーム出さずそのままにしてた事もあるだろう

91: 不要不急の名無しさん 2020/10/06(火) 11:41:22.16
>>1
外注丸投げのバカどもww
なんの為のGUIなんだよw
いつまでもCUIで「俺ってすげぇぇだろ?」ってバカやってるからこうなる
システム変数を見える化しときゃいいだけのこと
数日で出来るだろ
それすら構築できないバカどもw

115: 不要不急の名無しさん 2020/10/06(火) 11:44:49.82
>>1
FAXで確認しろよ

197: 不要不急の名無しさん 2020/10/06(火) 11:56:42.37
>>1
原発レベルで絶対止まっちゃいけないシステムなのにあらゆる事態想定出来てなかったって事だよな
別の業者に変えろ

322: 不要不急の名無しさん 2020/10/06(火) 12:16:30.05
>>1
前回のテストはいつですか?
今は亡きワトソン博士はなにやっていたんですかね

644: 不要不急の名無しさん 2020/10/06(火) 13:29:17.03
>>322
Windows7までは名誉顧問として就任なさっていましたが
その後勇退なさいました
https://support.kaspersky.co.jp/common/diagnostics/489

325: 不要不急の名無しさん 2020/10/06(火) 12:16:51.72
>>1
パイロットみたいにチェックリストを作って毎回確認しろ

385: 不要不急の名無しさん 2020/10/06(火) 12:27:25.39
>>325
何しても無駄
結局、勝手な事する奴が一人でもいて、事が起きたらただの無駄
全員馬鹿だと思って対策取らないとこの先も同じ事起きる
SEではないが、トヨタ関連でいつまで経っても人死になくならないのと同じ

351: 不要不急の名無しさん 2020/10/06(火) 12:22:16.26
>>1
で? その切替用の設定数値ってのは手動なの?
それとも自動で変動するの?

前者なら話は変わってくるぞ。

364: 不要不急の名無しさん 2020/10/06(火) 12:24:26.30
>>1
完全に人災だな、パラメータ1個でこの惨状のパターンか

413: 不要不急の名無しさん 2020/10/06(火) 12:30:28.69
>>1
システムテストの手順が間違ってたんじゃないかな
何らかの理由で切り替えないパターンを追加でやっちゃったとか

510: 不要不急の名無しさん 2020/10/06(火) 12:47:25.13
>>1
「メモリ故障が起きたら切り替える?Yes/No」
みたいなそのものズバリな設定じゃなくて
「どんなイベントが起きたら切り替える?」
みたいな設定じゃねーかなと予想

596: 不要不急の名無しさん 2020/10/06(火) 13:11:29.66
>>1
じゃなんでリリースしたの?

631: 不要不急の名無しさん 2020/10/06(火) 13:23:29.08
>>1
構築ミスというか検証ミスだろ。
誰が賠償に応じるんだコレ?

652: 不要不急の名無しさん 2020/10/06(火) 13:32:10.07
>>1
どうせまたやる
想定外だろ

762: 不要不急の名無しさん 2020/10/06(火) 14:38:10.60
>>1
へえー 10/1にそれが偶然おきたんだー へえー へえー

763: 不要不急の名無しさん 2020/10/06(火) 14:39:32.47
>>1
切り替え設定が無効になってたのに当日気付かず、今の今まで誰も気がつかなかったん?

769: 不要不急の名無しさん 2020/10/06(火) 14:46:06.64
>>763
あんただって毎日Windowsのコンパネやらスマホ設定なんてみないだろ。
このくらいのシステムの設定なんてインストール時に設定してほったらかしてのがほとんどだよ。

771: 不要不急の名無しさん 2020/10/06(火) 14:48:31.91
>>769
いやいやいやいやいやいや、個人のPCと比べていいようなシロモノじゃあないない

772: 不要不急の名無しさん 2020/10/06(火) 14:49:22.31
>>769
障害出て切り替わらないなら何で切り替わらないなか真っ先に確認するでしょ
当日は原因不明って言ってたしさ

779: 不要不急の名無しさん 2020/10/06(火) 14:53:32.22
>>772
「当日は原因不明」てのはマスコミ発表にそう発表したてだけで、内部的には速攻分かっていたと思うよ。
数日調査して結論が設定ミスでしたなんてどんなアホが調査したんだよwwww。

784: 不要不急の名無しさん 2020/10/06(火) 14:56:04.74
>>779
じゃなおさらそんな単純ミスで終日止めた理由にならんがな

786: 不要不急の名無しさん 2020/10/06(火) 14:56:54.18
>>763
設定項目が何個も何箇所も分かれてる上に
オンオフでは無く時間などで細かく設定されている箇所だったんじゃね?

>>773
ガチでドイツのシーメンス製の可能性あり

770: 不要不急の名無しさん 2020/10/06(火) 14:47:15.11
>>1
設定したのはどこのドイツよ

773: 不要不急の名無しさん 2020/10/06(火) 14:49:25.86
>>770
そーだったのか! ドイツのせいね!
国際電話でメルケルに文句いわなきゃ!

821: 不要不急の名無しさん 2020/10/06(火) 15:30:05.41
>>1
そのテストは実稼働舞絵にやっておくべきだろう?
東証だぞ?子供の仕事じゃねーか
システム担当は全部総取っ替えせんとあかん基本姿勢がなってない
これは検証の担当部署分課に通ずるはずだ他の大手金融じゃあり得んミスだ

839: 不要不急の名無しさん 2020/10/06(火) 15:57:12.90
>>1
しかし、根本原因の究明はあきらめちゃったのかいな?

途中の原因-スイッチがOffの状態だった 
根本原因-なぜスイッチがOffの状態だったのか、誰がいつOffの状態にしたのか(HW納入されたときからなのかも含め)

根本原因わからないと、責任の所在も再発防止も
できひんでー。
おら、心配でアローズ使えなくなっちゃう

860: 不要不急の名無しさん 2020/10/06(火) 16:53:34.23
>>854
そもそも最終納品物と言っても、こういう一点物のシステム物は、納品後からが本番的なところもあるからな。

898: 不要不急の名無しさん 2020/10/06(火) 17:53:01.36
>>1
富士通と東証は定期的にトラブルシューティングしてないの?
どう責任を取るつもりなんだろ

3: 不要不急の名無しさん 2020/10/06(火) 11:21:24.97
その設定ファイル誰がイジったんだろう

120: 不要不急の名無しさん 2020/10/06(火) 11:45:27.90
>>3
多分納入時の最初から
設定値は作ったけど応答なくなった場合は自動切り替えする仕組みだったんだろうけれども
ここの設定値の方が優位持ってたとかそんな落ちでしょ

275: 不要不急の名無しさん 2020/10/06(火) 12:08:20.28
>>3
支那のスパイやがな。

404: 不要不急の名無しさん 2020/10/06(火) 12:29:38.16
>>3
ファイルではないぞ

508: 不要不急の名無しさん 2020/10/06(火) 12:46:59.06
>>3
初期値のまま設定してなかったんじやね?
設定しないと駄目なのに
納入時に検査してないの?

605: 不要不急の名無しさん 2020/10/06(火) 13:15:09.77
>>3
初期値のままだったのか誰かが手を加えたのかで話が大きく変わってくるな

624: 不要不急の名無しさん 2020/10/06(火) 13:21:07.50
>>3
>>605
設定ファイルとかそういうものではなく、ここでいう設定というのは複合的なソフトウェアの仕組みの事だよ
いわゆるシステムと呼ばれるもの

679: 不要不急の名無しさん 2020/10/06(火) 13:48:17.75
>>3が思いつきで勝手に「ファイル」とか言うから話がややこしくなってるな。

682: 不要不急の名無しさん 2020/10/06(火) 13:49:13.07
>>3
config.sys なら、私が。

5: 不要不急の名無しさん 2020/10/06(火) 11:21:31.97
マヌケだな
これは責任問題になるんじゃないの?

7: 不要不急の名無しさん 2020/10/06(火) 11:23:06.37
なんでちゃんとテストしないのか 学校でと避難訓練とかしてるよ 誰か教えてあげて

336: 不要不急の名無しさん 2020/10/06(火) 12:19:33.69
>>7
待避系のテストなんて本番はこんなもんだ
段取り上まともにテストさせてもらえん

795: 不要不急の名無しさん 2020/10/06(火) 15:07:23.79
>>7
普段はセキュリティのため非常扉に鍵かけてて
災害時に扉開かないってありそうじゃない

9: 不要不急の名無しさん 2020/10/06(火) 11:24:08.36
テスト仕様書作った奴の責任

13: 不要不急の名無しさん 2020/10/06(火) 11:25:15.20
>>9
指摘しなかったレビュアも同罪

198: 不要不急の名無しさん 2020/10/06(火) 11:56:43.02
>>13
見過ごしに気づけない管理職の責任だな

248: 不要不急の名無しさん 2020/10/06(火) 12:04:57.90
>>13
マイカルでは結合テストの漏れの癖に
末端のコーダーにイチャモンつけるために偽装請負の親会社の偉いさんにクレームつけて
こっぴどく怒ってたなあw
お前ら馬鹿かと
そんなんだから潰れるんやで

307: 不要不急の名無しさん 2020/10/06(火) 12:13:25.00
>>13
うちのシステムも、レビュー後に問題・改善点をリストアップしたけど、なんだかんだ理由つけられて直してもらえなかったぞw

314: 不要不急の名無しさん 2020/10/06(火) 12:14:24.33
>>307
相手は最初から言えバカと思ってるだろうな

409: 不要不急の名無しさん 2020/10/06(火) 12:30:08.67
>>314
さすがにそれはないだろ
注文通りになってないこともあるからなぁ

319: 不要不急の名無しさん 2020/10/06(火) 12:15:13.76
>>307
あるある
要するにレビューの意味無い

335: 不要不急の名無しさん 2020/10/06(火) 12:19:27.62
>>307
改善点によるけど、お客さんはこれ直すだけ、と思っている事でも、
実際には1から作り直したほうが早いレベルのものも結構ある。

そしてそういうレビューって、基本的に無償でやってくれるんだろという意識がある。

なのでとにかく出来ない理由をつけて断ることになる。

427: 不要不急の名無しさん 2020/10/06(火) 12:32:06.45
>>335
納得しながらレス読んでて、最後の行でズッこけたよw

349: 不要不急の名無しさん 2020/10/06(火) 12:21:16.86
>>307
結局はお金の問題なんだと思う

438: 不要不急の名無しさん 2020/10/06(火) 12:34:54.78
>>349
>>398
それができりゃ苦労しなかったんだけど、予算と納期確定してたから追加できなかったから金で解決しなかった…

398: 不要不急の名無しさん 2020/10/06(火) 12:28:56.54
>>307
追加工数代金支払って納期延長してたらやってもらえたと思うけど

383: 不要不急の名無しさん 2020/10/06(火) 12:26:56.66
>>13
だから損害賠償求めないって話なんだろうね

10: 不要不急の名無しさん 2020/10/06(火) 11:24:13.62
アホかよw
実際に故障を模してチェックしていなかった
ってことだわな。

15: 不要不急の名無しさん 2020/10/06(火) 11:25:39.43
>>10
何を今更
Cocoaで散々見てるだろ
しっかり金入れない体質から来てるんだろなぁ

23: 不要不急の名無しさん 2020/10/06(火) 11:27:28.32
>>10
本当これ
普通に考えたらメモリが壊れたときの試験くらいやるだろう

31: 不要不急の名無しさん 2020/10/06(火) 11:29:01.29
>>23
メモリのフォールトインジェクションは難しいよ
ハード開発ならまだしも SI ではやってないケース多いと思う

32: 不要不急の名無しさん 2020/10/06(火) 11:29:42.60
>>31
難しいからという理由で試験をしないの?
システム開発するだけの能力がないだけじゃん

38: 不要不急の名無しさん 2020/10/06(火) 11:30:37.49
>>32
お金次第だね

224: sage 2020/10/06(火) 12:00:48.57
>>32
最初から壊れたメモリー積んでテストは意味がない。
稼働中に壊れる様な事象を発生させるのが難しいだろう。
ハードウェアレベルの仕込みが必要だからな。そう言うメモリーを作るのと同じ事になるから、お金次第よ

249: 不要不急の名無しさん 2020/10/06(火) 12:05:05.27
>>224
能力なさそうだ

604: 不要不急の名無しさん 2020/10/06(火) 13:15:07.69
>>249
無料で働く能力?それビジネス的・会計的に無能では?ww

600: 不要不急の名無しさん 2020/10/06(火) 13:12:35.81
>>32
まるで自分は全てのケースを考慮してるみたいな書き方だけど、それならなんで非正規なんかやってるの?

88: 不要不急の名無しさん 2020/10/06(火) 11:40:43.52
>>31
1日2兆円以上処理する、日本経済の心臓やで?
メモリー交換なんてホストコンピューターなら無停止で交換できるレベルだぞ?
出きんないんだったら、ホストコンピューターからリプレースするんじゃねーよ。

540: 不要不急の名無しさん 2020/10/06(火) 12:53:32.84
>>31
文系理系で解釈の異なる「難しい」だよね
350台ぐらいの規模で、さらに毎日テストをやってたと言うから、毎日1式潰す程度のお金が必要=難しい
と解釈した

670: 不要不急の名無しさん 2020/10/06(火) 13:43:30.45
>>31
簡単じゃん 動作中にメモリをぶっこ抜けばいい

677: 不要不急の名無しさん 2020/10/06(火) 13:47:10.22
>>670
そうするとノード停止するから確実に切り替わる
今回はおそらく ECC で訂正不能なエラーが出ていて、半死状態になったと想定

688: 不要不急の名無しさん 2020/10/06(火) 13:51:40.89
>>677
装着するメモリにはテスト用のECC半死スイッチをつけること!
っていうのが解決策?

692: 不要不急の名無しさん 2020/10/06(火) 13:52:48.35
>>688
実はそういうテスト用のものはあるが、極めてレアではある。

693: 不要不急の名無しさん 2020/10/06(火) 13:52:56.47
>>688
憶測でしかないけど、訂正不能エラーでたら、ノードが自爆する設定をしておく必要があった

711: 不要不急の名無しさん 2020/10/06(火) 13:59:46.42
>>688
一応、ソフト的にそれを誤認識させるツールはある。
今はHPに吸収されたはずのNonstopだとそれでSE検証を実施してた

223: 不要不急の名無しさん 2020/10/06(火) 12:00:42.52
>>23
某基地局の試験してたけど、ちゃんと試験してたよ。

671: 不要不急の名無しさん 2020/10/06(火) 13:44:17.44
>>223
制御系はするやろうね。
業務系は記事にもある通り、ハートビートを監視して一定時間応答無かったら切り替わるで良い。
色んな原因があるにせよなんか問題があったら予備機に切り替わるようにする事で停止を回避するからな。
その監視箇所が甘かったという「超初歩的なミス」ということ。

395: 不要不急の名無しさん 2020/10/06(火) 12:28:51.42
>>23
メモリ故障は、難しいんじゃないかな。
今から故障させますって、やれなさそう。

271: 不要不急の名無しさん 2020/10/06(火) 12:08:10.84
>>10
日本企業舐めんなよ?

560: 不要不急の名無しさん 2020/10/06(火) 13:00:08.23
>>10
そういうこと

818: 不要不急の名無しさん 2020/10/06(火) 15:28:00.78
>>10
テストはしたんだと思うよ
別のテストをするときに臨時で設定を変えて戻し忘れたとか
そんな感じだと思う

情けない話だけどね

822: 不要不急の名無しさん 2020/10/06(火) 15:32:02.03
>>818
テストのためにシステムの設定を変えたら、何をテストしたことになるんだろうね。
本番で使う状態の設定のままでテストしないと意味ないんじゃね?

825: 不要不急の名無しさん 2020/10/06(火) 15:34:21.95
>>822
では、何故自動切換えOFFみたいな設定があるんだろうね

827: 不要不急の名無しさん 2020/10/06(火) 15:39:24.50
>>825
自動切換えするかしないかのテストなんて富士通が工場でするものだよ。
ユーザーが、自動切換えの設定をいじって自動切換えするかどうかのテストなんてしないわwww。
あんただってクルマ買ったらハンドルを右に切ったら右に曲がるかなんてチェックしないだろwww。
東証が自動切換えで使うて言うなら導入時に自動切換ONにしてそれでおしまい。
自動切換の設定をいじる必要性はないわ。

830: 不要不急の名無しさん 2020/10/06(火) 15:42:01.08
>>827
私は彼らを擁護しているわけではないよ
でも話が合わないから、これで終わりにする

11: 不要不急の名無しさん 2020/10/06(火) 11:24:58.80
現場猫のIT版だな

他の人が設定チェックしたと思ったから
自分はチェックせずOK出した

14: 不要不急の名無しさん 2020/10/06(火) 11:25:34.11
富士通は、何も責任取らないの?
東証は被害者?

26: 不要不急の名無しさん 2020/10/06(火) 11:28:15.52
>>14
責任は感じるもの

141: 不要不急の名無しさん 2020/10/06(火) 11:48:57.34
>>26
感じるくらいじゃダメ、痛感しないと

174: 不要不急の名無しさん 2020/10/06(火) 11:53:16.29
>>14
試験は東証側がやるものだからな。富士通が代行してるだけで。

379: 不要不急の名無しさん 2020/10/06(火) 12:26:37.96
>>14
被害者は世界中の投資家と日本国民全員だろ

879: 不要不急の名無しさん 2020/10/06(火) 17:25:13.80
>>14
不治痛は何かトラブル起こるとすぐに
下請に責任転嫁するから

17: 不要不急の名無しさん 2020/10/06(火) 11:26:01.12
だから、何でそんな設定値になっていたの?

34: 不要不急の名無しさん 2020/10/06(火) 11:30:00.24
>>17
私の推測では
テストするために設定値を書き換えて
テスト終了後に元に戻して無かったんじゃないかな?

37: 不要不急の名無しさん 2020/10/06(火) 11:30:15.13
>>34
あるある

54: 不要不急の名無しさん 2020/10/06(火) 11:34:19.04
>>34
それだな

132: 不要不急の名無しさん 2020/10/06(火) 11:48:05.93
>>34
これだろ

280: 不要不急の名無しさん 2020/10/06(火) 12:09:15.99
>>34
テストしてないらしいぞ

285: 不要不急の名無しさん 2020/10/06(火) 12:09:40.07
>>34
富士通製品ってデフォ値が変なの多いんだよね
バックアップが初期値無効とか普通にある

300: 不要不急の名無しさん 2020/10/06(火) 12:11:52.71
>>285
有効にする場合他の設定値も含めて検討する必要があるからじゃね?デフォルト無効ってのはそういうことだろ。

382: 不要不急の名無しさん 2020/10/06(火) 12:26:56.49
>>300
例えばRAIDカードにバッテリーバックアップが付いててもデフォルト値無効なんだぜ
他にもメモリの割当が初期値128Kを1024Mに変更とかマニュアルに記載してたりする

291: 不要不急の名無しさん 2020/10/06(火) 12:10:34.15
>>34
まさにこれ

340: 不要不急の名無しさん 2020/10/06(火) 12:19:50.18
>>34
初期値のまんま変えてないんじゃね

814: 不要不急の名無しさん 2020/10/06(火) 15:24:49.17
>>34
これだな

22: 不要不急の名無しさん 2020/10/06(火) 11:27:12.95
Linux だと panic_on_unrecovered_nmi かな
デフォルト 0 の罠パラメーター

144: 不要不急の名無しさん 2020/10/06(火) 11:49:00.13
>>22
カーネル設定としたら、カーネルリビルドですか。
それは再テストの範囲大きいねぇ。
カーネルですもの。

163: 不要不急の名無しさん 2020/10/06(火) 11:51:19.54
>>144
まあ、ストレージ装置なんで、Linux ではなく独自 OS だろうけど。
Linux なら無停止で変更可

25: 不要不急の名無しさん 2020/10/06(火) 11:28:11.20
こういうのって定期的にチェック入れるもんじゃないの?
稼働前にテストしたっきりで以後ずっとノーチェックだったのかな

30: 不要不急の名無しさん 2020/10/06(火) 11:28:59.63
>>25
稼働させたら後は知らなーいくらいのノリだったんだろ
定期的に障害発生しても問題ないかのテストを行うべきだったね

29: 不要不急の名無しさん 2020/10/06(火) 11:28:54.85
えー
テストしてないの
他にもしてないテストあるだろう
正直に言いなさい

47: 不要不急の名無しさん 2020/10/06(火) 11:33:01.55
>>29
設定値があるって事はテストしてるはず
つまり想定されてた障害のケース

33: 不要不急の名無しさん 2020/10/06(火) 11:29:45.34
設定値変えても記録残さない
ITあるある

81: 不要不急の名無しさん 2020/10/06(火) 11:39:33.17
それがイジられたのがいつか
ログ見りゃわかるだろ?
ミスなのかサボタージュなのか
さっさと調べろ馬鹿

101: 不要不急の名無しさん 2020/10/06(火) 11:42:22.21
>>81
no title

82: 不要不急の名無しさん 2020/10/06(火) 11:39:39.76
ほら、故障したのはサムスン製メモリだろ

89: 不要不急の名無しさん 2020/10/06(火) 11:40:53.99
記憶装置のバックアップシステムはSANとかあるけど
メモリのバックアップシステムとかないの?

97: 不要不急の名無しさん 2020/10/06(火) 11:41:46.03
よーわからんのは

自動でエラーを検出して設定値によってバックアップに切り替わるとしたら
東証は事故おきて動かないのなら、何故「手動」ですぐ切り替えなかったの?

そしたら15分以内に解決じゃん

つまり自動が動かない時に手動でこうやって切り替えて動かそうという危機マニュアルからも漏れてたわけでしょ?

114: 不要不急の名無しさん 2020/10/06(火) 11:44:45.64
>>97
手動での切り替え自体は出来た
しかし不整合が発生しうるほどのダウンタイムを経過してたので、ストップさせた

147: 不要不急の名無しさん 2020/10/06(火) 11:49:14.97
>>114
だからつまりテストしてなかったって事でしょ

というか不整合が発生するかもしれないほど落ちるというシステムの設計がそもそもミス
つまりバックアップが機能しなかった設計になってるのは設定値を間違えようが同じ事

169: 不要不急の名無しさん 2020/10/06(火) 11:52:23.89
>>147
完璧にしようとすると何でもお金が掛かるんすよ

121: 不要不急の名無しさん 2020/10/06(火) 11:45:35.73
>>97
手動切り替えなんてやらないのが正解。
トラブル時に無理に生かそうとすると余計にハマる。

2回目3回目の停止に追い込まれるくらいなら本日店仕舞、の方が賢い。

206: 不要不急の名無しさん 2020/10/06(火) 11:57:42.04
>>97
手動ではできたけど
大事をとって前日取引停止

209: 不要不急の名無しさん 2020/10/06(火) 11:58:19.78
>>97
基本的に一つ問題が起こったら、
他の設定値は問題がないか調査する必要がある。
なんで、時間がかかる。

100: 不要不急の名無しさん 2020/10/06(火) 11:42:16.32
これぞジャパンクオリティー
そもそも障害自体が想定外だからな

529: 不要不急の名無しさん 2020/10/06(火) 12:51:37.42
>>100

「障害発生は有ってはならない」が故にトラブルシューティングマニュアルを作らない

真顔でこういう論法を説く奴がいたから怖い...まあ25年前の話やけどな。

102: 不要不急の名無しさん 2020/10/06(火) 11:42:22.86
オペレータが設定間違ったんだろうな

103: 不要不急の名無しさん 2020/10/06(火) 11:42:49.30
完全故障は切り替わるけど
性能劣化では切り替わらんってことかw
システムの設計ミスだな

107: 不要不急の名無しさん 2020/10/06(火) 11:43:20.91
ケアレスミス一個で起きたってことでOK?

112: 不要不急の名無しさん 2020/10/06(火) 11:43:56.75
>>107
設計ミスかもしれない

118: 不要不急の名無しさん 2020/10/06(火) 11:45:02.55
>>112
ケアレスミス一個で止まるシステムなら
当然、設計も欠陥品だろうな

117: 不要不急の名無しさん 2020/10/06(火) 11:44:54.79
>>107
そういう作り話しにしようとしてるってことでOK

129: 不要不急の名無しさん 2020/10/06(火) 11:47:58.50
>>124
富士通「引き渡し後に東証側がやると思った」
東証「そう設定されて設置してくれたと思った」

140: 不要不急の名無しさん 2020/10/06(火) 11:48:51.65
>>129
東証側はこんなところ触らないでしょ
どう考えても富士通側のケアレスミス

156: 不要不急の名無しさん 2020/10/06(火) 11:50:35.17
>>140
って言う作り話しだよこれ

166: 不要不急の名無しさん 2020/10/06(火) 11:51:58.29
>>156
作り話だと思う理由は?

175: 不要不急の名無しさん 2020/10/06(火) 11:53:17.30
>>166
なんで富士通に責任は無いって
「原因(?)」が分かる前に言ったの?
わざわざ記者会見開いてwww

213: 不要不急の名無しさん 2020/10/06(火) 11:58:39.85
>>175
市場運営の責任の所在が東証にあるといっただけじゃん
作り話とする根拠がそれだけならガバガバすぎでしょ

160: 不要不急の名無しさん 2020/10/06(火) 11:51:16.73
>>129
あれ思い出したわ
現場猫のオアシス運動w

226: 不要不急の名無しさん 2020/10/06(火) 12:01:11.24
>>160
これやな

オ…オレじゃない
ア…アイツがやった
シ…シらない
ス…スんだこと

393: 不要不急の名無しさん 2020/10/06(火) 12:28:39.37
>>160
富士通っぽくてワロタ

133: 不要不急の名無しさん 2020/10/06(火) 11:48:14.07
>稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていた

テスト後に「切り替え用設定値」を誰かが変更したということか?
そうなると、
1 稼働前のテストはいつ行ったのか?
2 稼働前のテスト以降、システムの更新は行われたのか?
3 テスト環境から本番環境への切り替えはどのように行われたのか? (一部のパラメータがテスト用のままというのは、よくあるミス)
などの疑問が生じる。

そもそも
4 「自動切り替えできない設定値」の場合、共有ディスク装置の制御機構はどのような挙動をするのか、例えば
 a 業務サーバとの連携はどうなるのか?
 b どのようなアラームが出るのか?
などなど、わからぬことだらけの報道発表だな。

134: 不要不急の名無しさん 2020/10/06(火) 11:48:14.83
スレタイ見て「はあぁ⁉︎」って声出ちゃっただろ
恥ずかしい

135: 不要不急の名無しさん 2020/10/06(火) 11:48:22.04
ちゃんとやれとかしっかりやれとか確認したのかとか自分で何一つやらずただやれと命令するだけ
そういう連中が現場の手を動かす人間の三倍の数いて妨害に等しい割り込み処理をずっとしてくる
日本は本当におしまい。老人が消え去る15年後ぐらいにやっと持ち直せるかどうか…

136: 不要不急の名無しさん 2020/10/06(火) 11:48:28.96
PCサーバーなんかで手工業的にシステムを組むから
トータルで高可用性設計のアーキテクチャの製品を使わないとw

145: 不要不急の名無しさん 2020/10/06(火) 11:49:07.23
> 稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。

切り替え出来てた事を確認してるのに切り替えしない設定に変わってた

188: 不要不急の名無しさん 2020/10/06(火) 11:55:23.29
>>145
死活監視の途絶なんて理想的条件
もっとハードよりの泥臭い条件のテストすべきだった

146: 不要不急の名無しさん 2020/10/06(火) 11:49:09.46
これ1日に故障したのはたまたまなん?

161: 不要不急の名無しさん 2020/10/06(火) 11:51:18.53
>>146
壊れないハードは無いという大前提だしね

171: 不要不急の名無しさん 2020/10/06(火) 11:52:47.36
>>146
中国のイベントと思っちゃうよな

148: 不要不急の名無しさん 2020/10/06(火) 11:49:30.23
またARROWSか

149: 不要不急の名無しさん 2020/10/06(火) 11:49:33.44
東証ってそのうち「うちのお父さんが危篤なんです!」とか
「寝てないんですよ我々だって!」とか
「こんなに一生懸命やってるのにみんなボクらの気持ちを分かってくれない!」とか言って泣くとか
やり出すと思うw

150: 不要不急の名無しさん 2020/10/06(火) 11:49:51.18
動作確認しないのか?
それか、設定確認とかしないのか?

151: 不要不急の名無しさん 2020/10/06(火) 11:49:53.20
冗長性を確保して、協議多数決システムを採用しないと

157: 不要不急の名無しさん 2020/10/06(火) 11:50:39.37
>>151
上座に忖度する日本人には無理

152: 不要不急の名無しさん 2020/10/06(火) 11:49:53.09
日本はどの業界も新設には熱心だけど改修メンテは二流の仕事って意識があるからな

162: 不要不急の名無しさん 2020/10/06(火) 11:51:18.59
>>152
2流とは失礼な。
3流ならまだマシ、現実はボッタクリや、詐欺師扱いだよ。

153: 不要不急の名無しさん 2020/10/06(火) 11:50:07.74
分からないでもないが
なぜ東証の人間と打ち合わせができてなかったんだろう

154: 不要不急の名無しさん 2020/10/06(火) 11:50:11.63
設定を変更したログみたいなのはないのか
稼働前のテストも何か怪しいな

165: 不要不急の名無しさん 2020/10/06(火) 11:51:56.75
外資企業のシステムガーとか言ってたのは何だったのか

167: 不要不急の名無しさん 2020/10/06(火) 11:52:10.17
銀行システムはもっと作りが酷いんだぞ
タンス預金最強だぞ。

234: 不要不急の名無しさん 2020/10/06(火) 12:02:46.57
>>167
やめろよ
銀行システムだって切り替わるとき全支店に保守員派遣して問題がないことを24時間監視してってやってんだぞ
関係ないのに予行演習やらされる支店もあるんだぞ!
東証よりましだろ

172: 不要不急の名無しさん 2020/10/06(火) 11:53:01.68
設定値ってどういう値でリリースするか設計書あるよね

182: 不要不急の名無しさん 2020/10/06(火) 11:54:58.45
>>172
なんでこういう設定にしてあったか知らないけど、
デフォルトが自動切り替えしない設定で、
それを知らずにデフォルトで使ってたんじゃね。
ユーザーはデフォルトが自動切り替えするものだと勘違いとか。

218: 不要不急の名無しさん 2020/10/06(火) 11:59:43.27
>>182
テスト時にはきちんと切り替えできてるからそれはない

236: 不要不急の名無しさん 2020/10/06(火) 12:03:16.53
>>218
なんかのバージョンアップ時に設定がデフォに変わったとかよ、
意図せずに設定が変わってたとかあるよ。

176: 不要不急の名無しさん 2020/10/06(火) 11:53:32.17
とりあえず富士通が潰れるくらいの賠償をさせるべき
低品質なシステムを作り出す温床となっている会社は社員ごとシステム開発の仕事から追放したほうが良い

177: 不要不急の名無しさん 2020/10/06(火) 11:53:39.90
再発防止にはデジタルエキスパートのデジタル庁しかないのであります

186: 不要不急の名無しさん 2020/10/06(火) 11:55:18.68
>>177
USBがなんなのか説明できる庁ならいいな

225: 不要不急の名無しさん 2020/10/06(火) 12:00:49.98
東証がわざと切り替え出来ない設定にするタイミングなんて無いでしょあんの?

239: 不要不急の名無しさん 2020/10/06(火) 12:03:29.07
>>225
切り替わらなかったらどうなるか(まさに今回の事例)の試験をやるには、切り替わらないという設定が必要。

258: 不要不急の名無しさん 2020/10/06(火) 12:05:44.88
>>239
稼働前にテストしてるって書いてあるんだけど

264: 不要不急の名無しさん 2020/10/06(火) 12:07:22.49
>>258
異常系のテストなんてとことん抜けるよ
テスト仕様書に書かなければやらんからよ

289: 不要不急の名無しさん 2020/10/06(火) 12:10:05.52
>>264
正常系以外は全部異常扱いにするシステムじゃないと駄目だわな
let it dieってやつ

278: 不要不急の名無しさん 2020/10/06(火) 12:09:06.62
>>258
稼働前に、「切り替えのテスト」と「切り替わらなかった時のテスト」でどちらを先にやったか次第。

後者→前者がこういう事故が少ないのは確かなのだけど、
前者はシステム構築の終盤、後者はシステム完成後の運用マニュアル作成時に行うから、
設定戻し忘れで、という事態が起こる可能性は十分ある。

273: 不要不急の名無しさん 2020/10/06(火) 12:08:11.65
>>225
外部設定できるって事は東証がイジった可能性もあるね
納品物のコピーがあれば富士通は助かるかもね

227: 不要不急の名無しさん 2020/10/06(火) 12:01:19.70
完全にFのボだなー
設定誤りの問題というより検出されてないことが問題。
定期的なBCPテストとかもやってないことが明確に分かった。
休日は取引無いから比較的テストしやすいはずなのに。

228: 不要不急の名無しさん 2020/10/06(火) 12:01:26.38
自動切り替えのテストを省きました

231: 不要不急の名無しさん 2020/10/06(火) 12:02:05.47
BCPテストしてないのは東証の問題だけど。

232: 不要不急の名無しさん 2020/10/06(火) 12:02:29.27
ホットスタンバイが有って自動切り替えするとか贅沢運用なので待機系は通電しないは割とある。ホットスタンバイだと2個ライセンスが必要だが止めて有ればライセンスは一個で良い類い。だからiOのエラー割り込みとかデフォルトでパニックダンプ取っておしまいとか多い。

245: 不要不急の名無しさん 2020/10/06(火) 12:04:15.54
>>232
東証レベルでそれやるかね?

233: 不要不急の名無しさん 2020/10/06(火) 12:02:36.91
リカバリテストか何かして設定前のデータ戻したのかな

235: 不要不急の名無しさん 2020/10/06(火) 12:02:52.99
「自動切り替えできない設定値になっていた」という原因はなんだろう?

240: 不要不急の名無しさん 2020/10/06(火) 12:03:42.77
手動で再起動出来なかったのはその日の9時前に受け付けた取引が消える恐れがあったとか
約定は翌日になったら全部失効することになるから
後で面倒なことにならないように全日取引停止にした可能性あるぽい

ハード・ソフト面の問題もあるけどそれ以上に運用面のデメリットが大きかったと

250: 不要不急の名無しさん 2020/10/06(火) 12:05:09.31
>>240
これもシステムの設計ミス
溜まった注文が副系に透過的に行ってない時点でおかしなシステム

243: 不要不急の名無しさん 2020/10/06(火) 12:04:04.60
新聞にはメモリーの故障テストはやらなかった書いてたぞ

252: 不要不急の名無しさん 2020/10/06(火) 12:05:19.29
>>243
想定してないから対策もしてないんだな
原発の電源喪失と同じだな

260: 不要不急の名無しさん 2020/10/06(火) 12:06:25.27
>>243
○○テストはやらなかったのか?ってのは部下に責任擦り付けたい上司が使う常套手段だぞ。

279: 不要不急の名無しさん 2020/10/06(火) 12:09:07.69
>>260
あぁうちの上司もそれ言った!
だから

「では皆さんのなかでそれを想定できていた
という人がいたら手を上げてください」

って言ったらみんなダンマリ

上司が自分の馬鹿を晒しただけで俺はおとがめなし

290: 不要不急の名無しさん 2020/10/06(火) 12:10:21.12
>>279
それってその場では気持ちいいかも知れないけど、終わってる奴がすることだよなw

301: 不要不急の名無しさん 2020/10/06(火) 12:12:00.11
>>290

それやらなかったら、逆に終わるだろ?

自己主張は大事だよ?

316: 不要不急の名無しさん 2020/10/06(火) 12:14:46.21
>>301
これから先、上手くやれるといいね
これが自己主張?とやらかは知らんが、どっちも責任回避してるだけで建設的ではない
まぁとりあえず自分語りはその辺にしとけよ

341: 不要不急の名無しさん 2020/10/06(火) 12:20:03.89
>>279
ワロタwww
それは、上司や他のメンバーが
こいつダメだと思ってるからやでw

能力ないなら、
時間が無駄だから黙っとけw

451: 不要不急の名無しさん 2020/10/06(火) 12:36:01.43
>>279
あんたがだめな人間なのはわかった

474: 不要不急の名無しさん 2020/10/06(火) 12:41:15.41
>>279
「想定すんのがお前の仕事やろ?」

487: 不要不急の名無しさん 2020/10/06(火) 12:43:03.71
>>279
「では皆さんの中でそれを想定できていなかった
という人がいたら手を挙げてください」


でも、結局まわりはだんまりだろw

246: 不要不急の名無しさん 2020/10/06(火) 12:04:21.52
テストした後設定ファイル戻すの忘れたんだなwwww

255: 不要不急の名無しさん 2020/10/06(火) 12:05:34.65
>>246
逆だろw
テストした後戻したんだよ

284: 不要不急の名無しさん 2020/10/06(火) 12:09:39.44
>>246
テスト時ってのは納入設定でのテストなんで普通設定値は触らんとです
例外として設定値はこれでと指定ある場合に限り設定値を変更してそれができることを確かめてから設定値を戻すと言う作業になります

259: 不要不急の名無しさん 2020/10/06(火) 12:06:09.54
システムエンジニアが恐れているやつ!!
設定一行で、数字1文字の間違いで
こんなことになっちゃう!!

261: 不要不急の名無しさん 2020/10/06(火) 12:06:47.53
本番で動いてるシステム触ってテストとか戻し間違えても動かなくなるかもしれないから相応の金を貰えないならやらない

297: 不要不急の名無しさん 2020/10/06(火) 12:11:24.83
>>261
普通に考えたら、本番機の設定値をわざわざ「自動切換不可」にして自動切換え出来ない事を確認するなんて怖い事しないからなw
東証が本番環境でそんなアホなことするとは到底思えない

306: 不要不急の名無しさん 2020/10/06(火) 12:13:08.84
>>297
機器のファームレベルの設定値をユーザーがいじるのかね?
個人で使ってるPCじゃあるまいし。
普通は納入時に自動切り替えONにしてそのままいじらんぞ。

317: 不要不急の名無しさん 2020/10/06(火) 12:14:55.28
>>306
こういうとき記者会見に突っ込めるような専門家を臨時で雇えばいいのにねえ
なせマスコミはそういうことしないんだろう

323: 不要不急の名無しさん 2020/10/06(火) 12:16:36.15
テストは時給1500円ぐらいの派遣にやらせてるからな
ドキュメントに名前書いてあるけどもう他行ってるだろうし

331: 不要不急の名無しさん 2020/10/06(火) 12:18:50.80
>>323
しかも東証だしな。何人ものSEが死んだ噂は業界にいたら一度は聞いたハズだ。

344: 不要不急の名無しさん 2020/10/06(火) 12:20:21.36
>>323
派遣ってもグループ会社だろうから
辞めてさえいなければ追えるぞ
流石にこの辺のはガチ外部使わない、普通は!

426: 不要不急の名無しさん 2020/10/06(火) 12:32:05.85
>>344
全然別の会社もざらに居るぜ
あと転職してるのも

324: 不要不急の名無しさん 2020/10/06(火) 12:16:40.92
切り替えテストは行っていた
定期メンテナンスで誤って設定を入れ替えた模様
複数の業者に委託しており現在調査中

328: 不要不急の名無しさん 2020/10/06(火) 12:18:02.31
>>324
切り替えテストが本当に切り替わるテストだったか?

333: 不要不急の名無しさん 2020/10/06(火) 12:19:17.64
>>328
そのように報告を受けている

355: 不要不急の名無しさん 2020/10/06(火) 12:22:50.66
>>333
その報告が裏付けは無いわけね?

339: 不要不急の名無しさん 2020/10/06(火) 12:19:50.04
>>324
怖すぎwIT土方のファイルの管理クッソ汚いからな気を付けないとね

348: 不要不急の名無しさん 2020/10/06(火) 12:21:14.95
>>339
取引始まって以来のミゾユウの事故なので有ります

381: 不要不急の名無しさん 2020/10/06(火) 12:26:54.94
>>339
いくら案件単価は月80万でも、年収は残業込み額面300万円台だからな
そこはサービス外ですわ、請負元委託元で整理しろってこと

373: 不要不急の名無しさん 2020/10/06(火) 12:25:54.66
>>324
どこの情報?

352: 不要不急の名無しさん 2020/10/06(火) 12:22:23.90
あー本番機の設定漏れ?
テスト機の修正が、本番機に反映されて無かったとかかな
混乱してる時期だろうからなあ
まあ、プロジェクト管理に失敗したってことだな

371: 不要不急の名無しさん 2020/10/06(火) 12:25:30.27
>>352
それか、本体とサブが実際切り替わると
何か不都合があって設定を変えていたとかか?


「危険度99超えないと、私は出撃しないぞ!」みたいなw

574: 不要不急の名無しさん 2020/10/06(火) 13:04:26.73
>>371
単純に後で追加されたとかで、設定漏れじゃないかなあ

353: 不要不急の名無しさん 2020/10/06(火) 12:22:32.87
しかしなんで日本はお金出さないのかね?
オーナー企業なら自分の金だけどこの手の企業って自分の金じゃないじゃん?
外資なんか他人の金だからとガバガバ金くれるのに

354: 不要不急の名無しさん 2020/10/06(火) 12:22:42.64
中途半端に死んでるときってバッチが動いてる途中でも強制的に切り替わるの?

359: 不要不急の名無しさん 2020/10/06(火) 12:23:40.77
>>354
バッチというかトランザクションをキャンセルして、
切り替えてから再実行。

396: 不要不急の名無しさん 2020/10/06(火) 12:28:54.08
>>354
システム的に運用ができているなら切り替わらない
処理速度が一定値以下に落ちた場合切り替わる
この場合保守に連絡しろという話になっている、俺の知ってるとこは

458: 不要不急の名無しさん 2020/10/06(火) 12:38:14.52
>>354
ケースバイケースじゃなかろうか。
俺の知ってるのだと
「中途半端に死んでるときは管理に連絡して手動で対処してもらうこと」

管理が手動で対応するため、自動的なロールバックは行われない

「中途半端に死んでるときは自動ロールバックが行われない」だけが一人歩き
「管理に連絡して手動で対処してもらうこと」が忘れ去られる

数年後、障害発生時「なぜ自動的にロールバックが行われなかったんだ! これは不具合だ!」

378: 不要不急の名無しさん 2020/10/06(火) 12:26:36.83
故障じゃねーじゃん。人災じゃん。

380: 不要不急の名無しさん 2020/10/06(火) 12:26:46.62
しょーもない原因だなぁ

399: 不要不急の名無しさん 2020/10/06(火) 12:29:11.55
>>380
システムって完全なロジックだから、最終的な原因はそういうもんだよ。
ただ、表向きには簡略化するために「設定値」つってるだけで、単純な1/0のスイッチとは思えないけどね。

384: 不要不急の名無しさん 2020/10/06(火) 12:26:57.00
> メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。

この文だと単なるケアレスミスだったのか、今回の事象に対応できない設定値だったのかがわからん
閾値設定って結局のところ経験則に基づくから難しいのよね

405: 不要不急の名無しさん 2020/10/06(火) 12:29:51.96
>>384
しっかりしたところだったら設定ファイルを配布するにしても
他の設定値が変わっていないことを示すエビを求められたりするよ
東証はそういう運用になってなかったということ
要はいい加減な現場だったってこと

467: 不要不急の名無しさん 2020/10/06(火) 12:39:44.24
>>405
元の設定自体が今回の事象に耐えうるパラメータじゃなかったとも読めるんだよねこの記事
テスト時にはたまたまうまく行くパラメータだったけど今回の事象は想定外でした、みたいな

まあ、>>418 のような場合は、>>405 の指摘するとおり

418: 不要不急の名無しさん 2020/10/06(火) 12:30:53.69
>>384
どうせオンオフ程度の話っしょ、メンテ時にcfgファイルにbackup=falsって書いたけど戻し忘れたとかさ

389: 不要不急の名無しさん 2020/10/06(火) 12:28:03.55
普通はデフォルトのママで使うのが一番で、設定なんていじらないはずなんだけどね。
設定をいじれば必ずミスが起こる。

390: 不要不急の名無しさん 2020/10/06(火) 12:28:10.96
少なくともシステム管理者権限が無いと数値変えられないだろ
ディスクのキャッシュメモリのエラー見て切り替えるんだから
そうとう上のやつだなこのポカやった責任者w

391: 不要不急の名無しさん 2020/10/06(火) 12:28:19.83
自動切り替えができない設定があるのは良い設計だな保守点検もあるあろうから
ただちゃんと確認するマニュアルや手順書注意喚起がないと仇になるな

417: 不要不急の名無しさん 2020/10/06(火) 12:30:50.03
>>391
保守点検で設定なんていじるのかよwww。
どういう機械だよwww。
設定なんていじらなくても保守点検できるようになってるものだぞ。

402: 不要不急の名無しさん 2020/10/06(火) 12:29:18.85
IT業界って頭が悪い人が上の方にいると、やらかした時の重大さを考慮せずに適当に作業割り振るからな、
作業の難易度より重大な作業かどうかのさじ加減が分からんとすぐ集中力切らしてミスるよ

459: 不要不急の名無しさん 2020/10/06(火) 12:38:16.85
>>402
頭悪いとかじゃないな。
重大な作業ばかりする人に対して即時にその対価を払うことができるならそうすうだろうさ。

408: 不要不急の名無しさん 2020/10/06(火) 12:30:08.10
ザルすぎだろ
掃除のおばちゃんが電源コード抜いたくらい
おまぬけな結果だったな

411: 不要不急の名無しさん 2020/10/06(火) 12:30:15.50
記事にある「稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。」をガン無視する奴等

425: 不要不急の名無しさん 2020/10/06(火) 12:32:05.82
>>411
お、そうなのか失礼

442: 不要不急の名無しさん 2020/10/06(火) 12:35:18.36
>>411
稼働前しかテストしてないんだからいざって時に動かない
いずれ起きた障害だね

416: 不要不急の名無しさん 2020/10/06(火) 12:30:48.58
パッチ当てて初期値に戻ってたりとか?

430: 不要不急の名無しさん 2020/10/06(火) 12:33:45.54
>>416
あるあるだが、パッチ箇所以外は
変わってないことを確認するのが当たり前だから
やっぱり普通は起こらないだろう
低次元すぎる

448: 不要不急の名無しさん 2020/10/06(火) 12:35:38.80
>>430
おれもそれを疑ってるけど。
デフォルトが自動切り替えしないていうのもな仕様だけどな。

453: 不要不急の名無しさん 2020/10/06(火) 12:36:19.04
>>416
フツーパッチ当てたら最初に見るものは設定だからネーナw

435: 不要不急の名無しさん 2020/10/06(火) 12:34:32.65
RAID障害の場合ならありうる設定だけど、RAIDのメモリーコントローラとRAMの障害ならフェイルオーバーしないとダメだろ

439: 不要不急の名無しさん 2020/10/06(火) 12:35:01.19
ちゃんとしたシステム運用やってる会社なら
品質管理グループみたいな部署があって、設定ファイルなどを更新する際は
設定に間違いが無いかレビューで第三者チェックする体制が整ってる
東証&富士通はそうではなかったのだね

441: 不要不急の名無しさん 2020/10/06(火) 12:35:04.82
つーか最初のメモリ云々の説明って何だったの?思い込み?

454: 不要不急の名無しさん 2020/10/06(火) 12:36:39.09
>>441
ハードの故障原因とシステム停止の原因は別

471: 不要不急の名無しさん 2020/10/06(火) 12:40:30.99
>>441
メモリ故障は起きてる。それが起因なのは変わらない。

故障って厄介なんだよ。頭の隅に置きながら対処して、ロジックに問題ないことを確認しながら徐々に確信に変わるという

444: 不要不急の名無しさん 2020/10/06(火) 12:35:23.56
このあと設定全チェックするんだろ

456: 不要不急の名無しさん 2020/10/06(火) 12:36:52.67
>>445
1号機「よくわからんが、まぁ動いてるからヨシ!」

446: 不要不急の名無しさん 2020/10/06(火) 12:35:29.69
原因が特定出来ないから設定ミスにするパターンだろ
設定とか停止した時にすぐ確認するから

東証のゴミが原因特定して報告書出せってうるさいからな

452: 不要不急の名無しさん 2020/10/06(火) 12:36:15.47
ディスクシステムのメモリーエラーらしいけどディスクシステムはどんな状態だったんだろう? ディスクシステムからエラーが帰ればさすがにフェイルオーバーは作動するだろう

455: 不要不急の名無しさん 2020/10/06(火) 12:36:40.38
プロマネだがこの手の話はよくある話で原因は予想通り
しかし事故ゼロは現実的に難しく、そんな会社があったら教えて欲しいぐらい
最終的には運、不運の問題ってのが私の結論

464: 不要不急の名無しさん 2020/10/06(火) 12:39:11.91
>>455
原因が何であれ、何かがおかしいという判断は最終的にできるわけだから
監視の正しい閾値を設定すれば自動切り替え等はできてエラーを包括的にカバーできる

505: 不要不急の名無しさん 2020/10/06(火) 12:46:21.36
>>464
人間がやる作業に100%は無いって話

目の前に押してはいけないボタンと認識してても押す人は押してしまうからね

530: 不要不急の名無しさん 2020/10/06(火) 12:52:12.70
>>505
100%はないのはその通りだけど、富士通は2012年にも類似の障害引き起こしてんだよなあ
監視設計が正しくなかったんじゃないのかってこと

535: 不要不急の名無しさん 2020/10/06(火) 12:52:48.53
>>530
あれ類似か?違うだろ

543: 不要不急の名無しさん 2020/10/06(火) 12:54:44.06
>>505
それで人が死んだら人間のやることだから仕方ないは通用しないよ。今回はそのレベル。

反対売買出来ずに追証払えず自殺した人がいてもおかしくないレベルよ。

553: 不要不急の名無しさん 2020/10/06(火) 12:57:52.74
>>543
その理屈が通るなら
自動車も飛行機も全部止めないとな

556: 不要不急の名無しさん 2020/10/06(火) 12:59:02.50
>>553
まあじっさい737MAXは全部止まって大変なことになってるわな

488: 不要不急の名無しさん 2020/10/06(火) 12:43:12.50
>>455
ド素人の素朴な疑問だが、
こういう設定ってフールプルーフに出来ないものなのか?

515: 不要不急の名無しさん 2020/10/06(火) 12:48:04.70
>>488
ある程度は出来るが100%は難しいね

559: 不要不急の名無しさん 2020/10/06(火) 12:59:08.28
>>515
サンクス

517: 不要不急の名無しさん 2020/10/06(火) 12:48:13.44
>>488
デフォルトの設定値を自動切り替えONにしてデフォルトのまま使うようにすりゃええんだけどね。
マトモなメーカーの機器は普通そうなってる。
こんな設定値を客も富士通CEも普通はいじらないものだよ。
納入して設置して終わり。
何も設定をいじらない。
そうじゃなくて誰かが設定をイジる必要があるならそんなメーカーは潰れるべき。

524: 不要不急の名無しさん 2020/10/06(火) 12:50:46.12
>>517
単純にON/OFFするだけの設定値ならそうだろうな
まあそんなわけないな

547: 不要不急の名無しさん 2020/10/06(火) 12:55:46.82
>>524
東証の書き方からして、そんな単純なわけではないだろうね。
用意された設定とは限らないし、こうすれば含められるって検討した結果のもんだとはおもう。

誤検知との戦いになりそう。

500: 不要不急の名無しさん 2020/10/06(火) 12:45:35.64
>>455
社長の話だと当日中に復旧は見込めたがホルダー含めて相談した結果、混乱させないように1日落としたらしいから、起因は明らかになってはいたと思う。
当日午後には復旧できることを確認済みだったろうさ。
リカバリーが出来ただけ良いと思うよ。

576: 不要不急の名無しさん 2020/10/06(火) 13:04:47.98
>>455
あんた2流だな
1流は事故を予測して行動するんだぜ

587: 不要不急の名無しさん 2020/10/06(火) 13:08:11.43
>>576
自分の脈拍止まったら
昇天なう
ってツイするやつ思い出した。

457: 不要不急の名無しさん 2020/10/06(火) 12:38:14.38
下請けに丸投げ丸投げで
実際にコードを書いてるのは
専門学校卒の最底賃金の派遣奴隷だからな

IT業界の闇よ

460: 不要不急の名無しさん 2020/10/06(火) 12:38:17.43
テストシナリオが全然パターン網羅してないんだろう。

HPならありえないわな。日本は多重下請け構造だからテスト実行したのも外注だしな。

461: 不要不急の名無しさん 2020/10/06(火) 12:38:40.30
日本の会社は利益にならないところは限界まで削る悪い癖があるんだよ
レビュー体制の不備ってのは大概の日本の会社に言えること

462: 不要不急の名無しさん 2020/10/06(火) 12:38:45.45
設定ミスが富士通にとって一番被害が小さいのかな

482: 不要不急の名無しさん 2020/10/06(火) 12:41:51.73
>>462
個人的には、何か理由があって自動的な切り替えをしないようにしてた、
っていう可能性があるんじゃないかと思った。

470: 不要不急の名無しさん 2020/10/06(火) 12:40:14.36
その設定値が想定外だったという可能性は無いの?
単純に富士通側のケアレスミスならその部分に関わった担当者は病みそうだな

472: 不要不急の名無しさん 2020/10/06(火) 12:40:42.58
死活監視殺して切り替えはしてたけど
メモリ故障で切り替わるかは試験してない。

ここまでは理解したけど、

じゃあ、切り替わらない設定に設計したのは誰?

その設定値は確認したのか?した人は誰?

確認したとして、その値(もしデフォルトならデフォルト)で良いと判断した根拠は?

確認者は何故その判断を謝ったのか?

その判断の誤りを組織として確認する体制、プロセスになっていたのか?

とかどんどん深ぼる必要があるね。

483: 不要不急の名無しさん 2020/10/06(火) 12:42:06.73
>>472
おそらくマニュアル記載ないパラメーター

499: 不要不急の名無しさん 2020/10/06(火) 12:45:17.46
>>472
 中の人達は今頃大変だな。

506: 不要不急の名無しさん 2020/10/06(火) 12:46:35.46
>>472
一冊本が出ると思う。

513: 不要不急の名無しさん 2020/10/06(火) 12:48:01.98
>>472
どうせうやむやにするんだろ
誰も責任を取らない
それが日本

476: 不要不急の名無しさん 2020/10/06(火) 12:41:32.91
フェイルオーバー先が開発環境
フェイルオーバー(英: Failover)は、現用系コンピュータサーバ/システム/ネットワークで異常事態が発生したとき、自動的に冗長な待機系コンピュータサーバ/システム/ネットワークに切り換える機能を意味する。 これに対して、何らかの異常を察知して、人間が手動で切り替えを行うことをスイッチオーバーという。

出典:Wikipedia

478: 不要不急の名無しさん 2020/10/06(火) 12:41:39.62
信頼できるシステムならそんな設定に絶対しねーよw
まともにテストしてないんだろ

798: 不要不急の名無しさん 2020/10/06(火) 15:12:44.54
富士通のミスだろうが、そのミスを見つけられなかった東証にも問題ある
何もかも富士通に丸投げで殿様商売やってたのなら糞

801: 不要不急の名無しさん 2020/10/06(火) 15:14:34.75
>ストレージ内でメモリ故障

家庭用PCに当てはめるとどの部分?
SSDのDRAMキャッシュとか?

807: 不要不急の名無しさん 2020/10/06(火) 15:19:27.40
>>801
SSDがRAID1になっていて、パラレルで書き込む部分の
キャッシュメモリーが壊れたが一番イメージが近い。
パソコンだと一部品で動作設定は既定値だけだけど、
今回だと19インチ2Uぐらいあって、動作設定も
マニュアルが50ページぐらいある機器になる。

808: 不要不急の名無しさん 2020/10/06(火) 15:20:27.78
>>801
まあSSDのDRAMキャッシュでも間違ってはないが、
家庭用PCでいうならこんなような装置の中にあるメモリエラー。
https://www.qnap.com/ja-jp/product/ts-453d

で、企業用のやつはメモリエラーが起きても内部的に処理されて止まらない。

803: 不要不急の名無しさん 2020/10/06(火) 15:14:58.98
メモリエラーだったらストレージ関係ないんじゃないの

831: 不要不急の名無しさん 2020/10/06(火) 15:46:18.26
日経xtech がちょっとだけ詳しい記事出してる。

これ、active-active 構成の2ノードクラスターのNASらしい。
NASの設定ミスと言ってるが、どういう設定かは無料範囲内では読めないけど、
もともとの設定項目にはあるもので即日変更適用したようだ。

835: 不要不急の名無しさん 2020/10/06(火) 15:53:16.33
>>831
これけ?
no title

837: 不要不急の名無しさん 2020/10/06(火) 15:54:41.26
>>835
これにちょっとだけ付加情報が付いた程度。
ここから読み取れる複数の可能性のうち、どれかっていうのを特定してくれたぐらい。

838: 不要不急の名無しさん 2020/10/06(火) 15:56:18.96
>>837
1号機の下から1号機用ディスクと2号機用ディスク両方につながっているっていう図なのがよくわからないな

843: 不要不急の名無しさん 2020/10/06(火) 16:03:04.11
>>838
これ、1号機用ディスク、2号機用ディスクという書き方がわかりにくくて
複数の構成の可能性があるんだが、

Active-Active のNASの場合、
両系が動いている状態では
主に1号機でサービスする領域、2号機の領域とかいう具合に負荷分散されていて、
片方が落ちた場合でももう片方がその領域を格納しているディスクを引き継いで
サービスを継続するという構成がとられたりする。
(こう解釈する場合は、ディスクレベルでの冗長化は図示されていないということになる)

たぶんそれを表しているのだと思うが、もしかすると別の冗長化方式の図かもしれない。

862: 不要不急の名無しさん 2020/10/06(火) 16:57:25.15
>>838

https://library.netapp.com/ecm/ecm_download_file/ECMP1659142

この資料の「HAペアの接続とコンポーネント」、「HAペアとクラスタの関係」に
書いてあるような接続ですね。

実際の結線は「HAペアの設置とケーブル接続」を順番に読んでいくと
54~56ページあたりに書いてます。

869: 不要不急の名無しさん 2020/10/06(火) 17:08:36.83
>>862
12ページみたいな構成になっているのか
資料ありがとうございます

865: 不要不急の名無しさん 2020/10/06(火) 17:02:41.39
>>838

https://library.netapp.com/ecm/ecm_download_file/ECMP1659142

67、70ページのほうが分かり易いかも

868: 不要不急の名無しさん 2020/10/06(火) 17:08:18.10
>>835
これはサムスンのメモリが原因だわ
https://xtech.nikkei.com/atcl/nxt/column/18/00001/01929/

847: 不要不急の名無しさん 2020/10/06(火) 16:15:52.68
もともと、メモリ故障による障害発生は考慮してなかったんじゃね?
富士通的には仕様通りなんだろ。
多分、要件定義に出てなかったからやってないだけ。

857: 不要不急の名無しさん 2020/10/06(火) 16:40:42.43
しかしメモリ故障リカバリの実績なんで派手な宣伝材料にもならんし公表もしないだろ
低品質メモリ使っているからだのひんしゅく買うくらいか
しかし高速運転中と比較的夜間の通常運転時とでも分けてシステム造りしてるのかな

858: 不要不急の名無しさん 2020/10/06(火) 16:48:21.16
>1人のデバッガーが退職したら、その後上から「バグが減った」「完成までの時間短縮」と『評価』されて多数の人が他部署へ栄転した

861: 不要不急の名無しさん 2020/10/06(火) 16:53:39.41
>>858
ええ話やーw

863: 不要不急の名無しさん 2020/10/06(火) 17:00:06.76
システムの異常を検知したら代替機に切り替わるスイッチを、故障の原因ごとに設定しているの?

864: 不要不急の名無しさん 2020/10/06(火) 17:00:30.66
メモリエラーってα線源置けばテスト出来るんじゃないかな?

866: 不要不急の名無しさん 2020/10/06(火) 17:03:09.91
インフラ等の24時間365日稼働してるシステムと違って
いくらでも検査やチェックができるのにこんな事態を引き起こしたのは怠慢以外の何物でもない

867: 不要不急の名無しさん 2020/10/06(火) 17:03:36.40
こんな流れ?
東証停止→HDD故障→富士通のメモリフェイルの実テスト不足では?→東証の設定ミスでした

871: 不要不急の名無しさん 2020/10/06(火) 17:13:50.15
ハードなんてあり得ないと書いたら真っ赤になって否定するヤツがいたわ
富士通の誰かだったんだろうか
国内ベンダーは外資系ベンダーに原因押しつけて自社製品売りつけたり責任転嫁するから顧客は気をつけた方がいい
もっと気をつけるべきは国内コンサルw

873: 不要不急の名無しさん 2020/10/06(火) 17:16:16.85
>自動切り替えできない設定値になっていた

じゃあけっきょくハードの故障が原因じゃないじゃんシステム全落ちの原因
普通に仕事のミスじゃん

876: 不要不急の名無しさん 2020/10/06(火) 17:19:08.92
>>873
トリガーはハードウェア障害。
それを復旧出来なくしたのは
運用側の責任か構築側の責任か半々。

878: 不要不急の名無しさん 2020/10/06(火) 17:22:19.28
また想定外とか恥ずかしい言い訳すんの?w

884: 不要不急の名無しさん 2020/10/06(火) 17:32:24.35
>>878
もともとNASの設定項目にはどうなったらフェイルオーバーするかの
設定項目があって、設定次第では今回のケースにも対応できたみたいだから、
設計の想定内ではあったようだ。

設定をどう選択するかの段階での検討ミスだったように今までの説明からは思える。

882: 不要不急の名無しさん 2020/10/06(火) 17:31:25.24
こう言うのって毎年監査受けてんじゃ無いの?危機管理対策として当然の事でシミュレー結果も証票として提出するはずだよ?結局は国の監査もガバガバって事だよ

883: 不要不急の名無しさん 2020/10/06(火) 17:32:16.82
https://library.netapp.com/ecm/ecm_download_file/ECMP1659142

このURLの20ページ抜粋
テイクオーバーが発生する状況
HAペアのノードでパニック時のテイクオーバーが有効になっており(デフォルト)、
そのノードでソフトウェアまたはシステムの障害が発生してパニック状態になった場合

「パニック時のテイクオーバーが有効」この設定が無効になっていたのかも?

メモリのアンコレ(修正不可能)が発生⇒パニックリブート⇒設定が無効の為テイクオーバーせず。

889: 不要不急の名無しさん 2020/10/06(火) 17:38:35.46
>>883
障害は起きたがパニックではなかったんでしょ
大幅な遅延であって動いてたみたいだし

891: 不要不急の名無しさん 2020/10/06(火) 17:41:26.78
>>889
おいらはパニックだったよ。
売り注文が固まったままだから、PTSで売ることができなかったよ

895: 不要不急の名無しさん 2020/10/06(火) 17:46:55.43
>>889
ああ、メモリのコレクタブルエラーが起きすぎて動けなくなってるような状況で
死んでないがまともに動けない状況でどうするかっていう設定が
フェイルオーバーしないという設定になってたというなら理解できなくもない。

887: 不要不急の名無しさん 2020/10/06(火) 17:33:49.56
1号機がダウンした時は2号機に切り替えますのチェックボックスに
チェック入れてなかったw
その設定ミスの責任は?東証?富士通?

運用だから東証か?

892: 不要不急の名無しさん 2020/10/06(火) 17:42:18.11
>>887
2号機がダウンしたときに1号機に切り替わるテストはしたけど
1号機がダウンしたときの設定が漏れてたとか

897: 不要不急の名無しさん 2020/10/06(火) 17:50:03.82
>>887
そんなチェックボックスついてるとは信じ難い

896: 不要不急の名無しさん 2020/10/06(火) 17:48:19.84
メモリの生殺し状態だったんだろうな




引用元: ・【arrowhead】東証、システム障害の原因を特定「自動切り替えできない設定値になっていた」 [記憶たどり。★]