概述
10月15日,Linkly 经历了一次长时间的服务中断,原因是自动部署在生产环境中引入了配置错误。该问题还导致我们监控和告警系统的关键组件失效,延误了检测和响应。
根本原因
由于缺少安全防护措施,自动部署在批准的时间窗口之外执行,导致配置不匹配,进而中断了路由。监控检查未能检测到此次中断,因为监控范围仅限于内部端点,而这些端点持续返回成功状态。
纠正措施
- 1禁用自动部署;生产环境现在需要手动批准。
- 2实施独立于核心基础设施的外部监控。
- 3添加冗余告警渠道(短信和语音),以确保立即感知事故。
- 4在非工作时间引入部署锁定,直到建立24/7值班覆盖。
后续步骤
我们正在审查运营流程并扩大事故响应覆盖范围,以确保快速检测和恢复任何未来问题。
结语
我们为此次中断致歉,并感谢客户的耐心。可靠性始终是我们的首要任务,我们致力于防止此类事件再次发生。