요약
10월 15일, Linkly는 프로덕션 환경에 구성 오류를 발생시킨 자동 배포로 인해 장시간 서비스 중단을 경험했습니다. 이 문제는 또한 모니터링 및 알림 시스템의 주요 요소들을 비활성화하여 장애 감지 및 대응이 지연되었습니다.
근본 원인
승인된 시간대 외부에서 자동 배포가 실행되도록 허용한 안전장치 누락으로 인해 라우팅을 방해하는 구성 불일치가 발생했습니다. 모니터링 검사는 계속해서 성공을 반환하는 내부 엔드포인트로만 범위가 제한되어 있어 중단 상황을 감지하지 못했습니다.
시정 조치
- 1자동 배포를 비활성화했으며, 현재 프로덕션에는 수동 승인이 필요합니다.
- 2핵심 인프라와 독립적인 외부 모니터링을 구현했습니다.
- 3장애 발생 시 즉각적인 인지를 보장하기 위해 중복 알림 채널(SMS 및 음성)을 추가했습니다.
- 424/7 온콜 체계가 구축될 때까지 업무 외 시간 동안 배포 잠금을 도입했습니다.
향후 계획
향후 발생할 수 있는 모든 문제에 대한 신속한 감지 및 복구를 보장하기 위해 운영 절차를 검토하고 장애 대응 범위를 확대하고 있습니다.
마무리
서비스 중단에 대해 사과드리며 인내해 주신 고객 여러분께 감사드립니다. 안정성은 여전히 우리의 최우선 과제이며, 재발 방지를 위해 최선을 다하고 있습니다.