障害対応がひと段落しました

この前納品したサービスが公開されたんですが、初日に障害が出て大変でした。
1つ強くなった気がします。ってことで振り返り。

発生した事象

メールが届かず、アカウント登録できないユーザーが頻発。運営会社に問い合わせが殺到。

もう少し詳しく

  • 正常に登録できているユーザーもたくさんいる
  • とはいえ届かないユーザーが相当数いるので、メールアドレスがRFC違反とかそういう問題じゃなさそう。
  • ◯時移行に試したユーザーはみんなメールが届かない、など時間的な偏りがある

調査したこと

  • メール配信サービスのログを確認
  • アプリケーションのログを確認
  • メール配信サービスの仕様確認

原因

  • メール配信サービスのアカウント有効化がうまくできておらず、1日100件の送信制限がかかっていた模様

学び

  • Sentry等のエラートラッキングサービスを導入しておくべきだった。原因が書かれていないアプリのログをひたすら解読するのキツかった

感想

プログラムはほとんど私1人が書いたので、とりあえずプログラム側のミスじゃなくてよかった、、
エラートラッキングとかサーバーの監視とか、障害に備えてちゃんと環境を整えておくことの重要性を学びました