Résumé
Le 15 octobre, Linkly a subi une panne prolongée causée par un déploiement automatisé qui a introduit une erreur de configuration en production. Le problème a également désactivé des éléments clés de nos systèmes de surveillance et d'alerte, retardant la détection et la réponse.
Cause première
L'absence d'une protection a permis à un déploiement automatisé de s'exécuter en dehors des fenêtres approuvées, entraînant une incompatibilité de configuration qui a perturbé le routage. Les vérifications de surveillance n'ont pas détecté la panne car elles étaient limitées aux points de terminaison internes qui continuaient à renvoyer des succès.
Actions correctives
- 1Désactivation des déploiements automatiques ; la production nécessite maintenant une approbation manuelle.
- 2Mise en place d'une surveillance externe indépendante de notre infrastructure principale.
- 3Ajout de canaux d'alerte redondants (SMS et voix) pour garantir une prise de conscience immédiate des incidents.
- 4Introduction de verrous de déploiement pendant les heures creuses jusqu'à ce qu'une couverture d'astreinte 24/7 soit établie.
Prochaines étapes
Nous révisons nos procédures opérationnelles et élargissons la couverture de réponse aux incidents pour assurer une détection et une récupération rapides en cas de problèmes futurs.
Conclusion
Nous nous excusons pour la perturbation et remercions nos clients pour leur patience. La fiabilité reste notre priorité absolue, et nous nous engageons à prévenir toute récurrence.
Suivez 500 clics mensuels avec toutes les fonctionnalités incluses.
Aucune carte de crédit requise