お客様 各位
2017年07月15日(土)データベースサーバで障害が発生しましたのでご報告致します。
障害期間
2017年07月15日(土)09:13〜10:42(1.5時間)
障害内容
データベースマスターサーバへの接続障害によるトランザクション実行不可
影響範囲
コミュニケーションでのメッセージ配信
- 9:14〜10:34までのメッセージ配信は実行されましたが、配信後のフリークエンシー登録、ユーザーに紐付くメール送信アクション登録、効果測定レポートの配信数の登録が行われませんでした。
外部メール配信システム連携
- 9:14〜10:34までのスケジュールは実行されてデータの連携は正常完了しましたが、配信後のフリークエンシー登録、メール送信アクション登録が行われませんでした。
障害の経緯
09:13 | sshログインエラー発生 |
(★サービス障害発生) | |
09:38 | 各種アラートを検知しはじめる |
09:47 | マスターサーバが自動的に再起動開始 |
09:54 | データセンターより障害の連絡受付 |
10:05 |
サーバ再起動完了 障害復旧作業開始 |
(スレーブサーバ〜参照モード〜での稼働) |
|
10:42 | マスターサーバ復旧完了 |
障害原因
エラー発生時には、本来であればスレーブサーバへの自動切り替えが実行され、スレーブサーバがトランザクション実行ができるマスターサーバになるのですが、何らかの原因により正常に切り替えができず、参照モードのままスレーブサーバへ接続されました。
マスターサーバの障害発生原因ですが、HWに残るログには何も記録されておらず、不明です。
現象から推測すると一時的にRAIDカードに異常が発生したものと判断しております。
対応内容
- マスターサーバの復旧作業およびクラスター再構築
- フリークエンシー登録(外部システム連携のみ)
今後の対応
RAIDカードを含めた筐体交換を検討しております。
尚、障害発生期間中もログの受信は正常に行われているため、データの欠落はありません。
以上