概要
10月15日、Linklyは本番環境に設定エラーをもたらした自動デプロイメントが原因で、長時間の障害を経験しました。この問題により、監視およびアラートシステムの重要な要素も無効化され、検出と対応が遅れました。
根本原因
承認されたウィンドウ外で自動デプロイメントが実行されることを許可する安全装置が欠けており、その結果、ルーティングを中断する設定の不一致が発生しました。監視チェックは、成功を返し続けた内部エンドポイントに範囲が限定されていたため、障害を検出できませんでした。
是正措置
- 1自動デプロイメントを無効化し、本番環境には現在、手動承認が必要です。
- 2コアインフラストラクチャから独立した外部監視を実装しました。
- 3インシデントの即座の認識を確保するため、冗長なアラートチャネル(SMSおよび音声)を追加しました。
- 424時間365日のオンコール体制が確立されるまで、営業時間外のデプロイメントロックを導入しました。
次のステップ
今後の問題の迅速な検出と復旧を確保するため、運用手順を見直し、インシデント対応体制を拡大しています。
結び
障害によるご迷惑をお詫び申し上げるとともに、お客様の忍耐に感謝いたします。信頼性は当社の最優先事項であり、再発防止に尽力してまいります。