お客様 各位
2018年2月9日(金)18:30から配信リストを生成するシステムが不安定な状態となりましたため、クラスターサーバ群のプロセス再起動を行い18:55に復旧しました。
障害発生期間
2018年02月09日(金)18:30〜18:55
障害内容
HadoopクラスタのHDFSデータの不整合が発生。これに起因してSQLエラーが発生したため配信リストが生成できず、配信エラーとなった。
影響を受けた機能
- コミュニケーションの配信(メール、LINE、WEBプッシュ、SMS)
- 外部システム連携(すべての外部システムへの連携)
- 管理画面へのログイン(クラスター再起動時)
19:00以降に設定していたメッセージ配信や連携は影響を受けること無く正常に配信が完了しています。
また、障害発生期間中もログの受信は正常に動作していため、ログが欠落することはありません。
対応内容
クラスターサーバ群のプロセス再起動。
直接的原因と対策
xross dataが利用する分散クエリエンジンシステムの設定として転送スレッドの最大数がありますが、現状は4096 に設定されています。
今回の障害は、転送スレッドの最大数がその値を超えたことにより転送コネクションが切断され、スレーブノード間でデータの受け渡しができず、負荷分散クエリパラメータのデーモンでエラーが発生しました。
今回の障害を経て、転送スレッドの最大数の適正値を再計算し、設定値に反映させることで今回の事象を回避する予定です。
以上