Riepilogo
Il 15 ottobre, Linkly ha subito un'interruzione prolungata causata da un deployment automatizzato che ha introdotto un errore di configurazione in produzione. Il problema ha anche disabilitato elementi chiave dei nostri sistemi di monitoraggio e allerta, ritardando il rilevamento e la risposta.
Causa principale
La mancanza di una misura di protezione ha consentito l'esecuzione di un deployment automatizzato al di fuori delle finestre approvate, causando un disallineamento della configurazione che ha interrotto il routing. I controlli di monitoraggio non hanno rilevato l'interruzione perché erano limitati agli endpoint interni che continuavano a restituire successo.
Azioni correttive
- 1Disabilitati i deployment automatici; la produzione ora richiede approvazione manuale.
- 2Implementato monitoraggio esterno indipendente dalla nostra infrastruttura principale.
- 3Aggiunti canali di allerta ridondanti (SMS e voce) per garantire la consapevolezza immediata degli incidenti.
- 4Introdotti blocchi di deployment durante le ore non lavorative fino a quando non sarà stabilita una copertura di reperibilità 24/7.
Prossimi passi
Stiamo rivedendo le nostre procedure operative ed espandendo la copertura di risposta agli incidenti per garantire un rapido rilevamento e recupero da eventuali problemi futuri.
Conclusione
Ci scusiamo per il disagio e ringraziamo i nostri clienti per la pazienza. L'affidabilità rimane la nostra massima priorità e ci impegniamo a prevenire il ripetersi dell'incidente.
Traccia 500 clic mensili con tutte le funzioni incluse.
Nessuna carta di credito richiesta