お客様各位
平素は格別のご高配を賜り、厚く御礼申し上げます。
2017年06月13日(火)、システム障害により集計遅延が発生しましたので以下の通りご報告致します。
障害期間
2017年06月12日 17:51:40 〜 2017年06月13日 13:17:26
障害内容
アナリティクス機能の集計バッチ実行を制御するワークフローの専用DBが稼働するサーバにて、試験的に導入した機械学習機能のバッチが、想定以上のデータサイズのログを処理し、CPU/メモリを占有したことにより、過負荷状態に陥り、DBプロセスがダウンしました。
この影響を受けて、アナリティクスの日次集計バッチ用ワークフローがすべての集計バッチを実行しない状態となりました。
これに起因しまして、コミュニケーションオプションおよび外部メール連携で、行動ログをトリガーにした「カート放棄」や「ブラウザ放棄」などのターゲットリスト生成ができない状態が発生しました。
障害における影響範囲
- ライブモニター機能
- アナリティクス機能のうち、2017/06/12集計分に関わる全機能
- アナリティクスの集計値によるセグメント条件に該当したリスト生成
- コミュニケーションのメッセージ配信
- 外部メール配信システム連携
障害の経緯
2017/06/12 17:51:40 | 機械学習による集計バッチのサーバ過負荷によりDBプロセスダウン |
2017/06/13 07:00頃 | 日次バッチの完了通知未達で障害検知、調査開始 |
2017/06/13 07:27:23 | 機械学習機能のバッチ停止 |
2017/06/13 07:27:56 | DBサーバの実行開始 |
対応内容
2017/06/13 07:27:56 | DBを手動で起動し、すべてのバッチの実行が再開 |
2017/06/13 07:40頃 | ライブモニター機能およびリアルタイム系が正常状態に復帰 |
2017/06/13 12:57:07 | コミュニケーションおよび外部システム連携に必須な集計が完了 |
2017/06/13 13:17:26 | 管理画面のアナリティクス機能の全集計が完了 |
今後の対応策
他DBサーバと同様に、当該DBサーバの死活及びプロセス監視を強化し、障害発生時には即時に検出できる状態にいたします。
また、機械学習機能のバッチの設計を見直し、バッチ用ワークフロー管理サーバのDBプロセスに影響が出ないようにすること、および同一サーバ上で機械学習機能のバッチ集計稼働を見合わせます。
本日発生した集計遅延により、お客様には多大なるご迷惑をお掛けしましたこと、誠に申し訳なく、深くお詫び申し上げます。
以上