Cariotサーバのパフォーマンス低下
Incident Report for Cariot
Resolved
本件に関しまして、事象が解消し、現在は正常動作していることを確認しています。

先月に起きた同様のインシデント( https://cariot.statuspage.io/incidents/c56srnmgd5qp )と合わせて、ご利用中のお客様には大変ご迷惑をおかけしてしまい、申し訳ありませんでした。

改めて原因と再発防止策について、ご説明させていただきます。

【原因について】
CariotのAWS上で運用しているAPIサーバにおいて、あるリクエストを契機に瞬間的に大量のデータベースへのアクセスが発生したことで、APIサーバ上でコネクションリークが発生し、メモリ不足に陥ったことが原因です。

当該APIサーバでは定常的にデータベースへのアクセスを行っておりますが、障害が発生し始めた時刻の少し前に、正常範囲を大きく逸脱したリクエストが発生したことを確認しています。
そのため、APIサーバが処理できる容量を超えてしまい、本事象が発生しました。

【対応について】
応急処置として、一時的なメモリ不足エラーによるものであることから、APIサーバ上のアプリケーションを再起動することで、状態をリフレッシュし、正常な状態に復帰させております。

契機となったリクエストの特定に関しては、日本時間8月8日 17時時点で、特定ができておりません。
そのため、先月に起きた同様のインシデント( https://cariot.statuspage.io/incidents/c56srnmgd5qp )と根本原因は同じだと想定はしておりますが、恒久対応として、以下の2点を、8月8日 18時に行います。

1. APIサーバに著しい負荷をかけるようなリクエストの特定をするためのログ出力設定の追加
2. 関連するソースコードを解析し、想定と異なる形でデータベースアクセスが発生し得るアプリケーション上の不具合の修正

2.の対応によって今後も同様の問題が発生する可能性は下がるとは思っていますが、現時点ではゼロと断定ができていない状態です。
もし今後も万が一問題が発生した場合は、速やかに原状復帰ができるように最大限図るとともに、1.の対応によって真因の特定と解消に努めます。
Posted Aug 08, 2023 - 17:27 JST
Monitoring
A fix has been implemented and we are monitoring the results.
Posted Aug 08, 2023 - 09:17 JST
Investigating
8月8日(火) 8時15分頃より、Cariotサーバに負荷が発生しており、一部の画面や機能が正しくご利用いただけない状態になっていました。

本件については、サーバの容量不足が原因であり、9時10分頃に解消しました。

ご迷惑をおかけしており、申し訳ありませんでした。
Posted Aug 08, 2023 - 09:16 JST