All Release Notes

事故报告:2025年10月15日(UTC)

October 16, 2025

概述

10月15日,Linkly 经历了一次长时间的服务中断,原因是自动部署在生产环境中引入了配置错误。该问题还导致我们监控和告警系统的关键组件失效,延误了检测和响应。

根本原因

由于缺少安全防护措施,自动部署在批准的时间窗口之外执行,导致配置不匹配,进而中断了路由。监控检查未能检测到此次中断,因为监控范围仅限于内部端点,而这些端点持续返回成功状态。

纠正措施

  1. 1禁用自动部署;生产环境现在需要手动批准。
  2. 2实施独立于核心基础设施的外部监控。
  3. 3添加冗余告警渠道(短信和语音),以确保立即感知事故。
  4. 4在非工作时间引入部署锁定,直到建立24/7值班覆盖。

后续步骤

我们正在审查运营流程并扩大事故响应覆盖范围,以确保快速检测和恢复任何未来问题。

结语

我们为此次中断致歉,并感谢客户的耐心。可靠性始终是我们的首要任务,我们致力于防止此类事件再次发生。

每月追踪 500 次点击,包含所有功能。

无需信用卡