Resumo
No dia 15 de outubro, o Linkly sofreu uma interrupção prolongada causada por uma implementação automatizada que introduziu um erro de configuração em produção. O problema também desativou elementos-chave dos nossos sistemas de monitoramento e alerta, atrasando a detecção e resposta.
Causa raiz
A falta de uma proteção permitiu que uma implementação automatizada fosse executada fora das janelas aprovadas, resultando numa incompatibilidade de configuração que interrompeu o roteamento. As verificações de monitoramento falharam em detectar a interrupção porque estavam limitadas a endpoints internos que continuaram a retornar sucesso.
Ações corretivas
- 1Desativamos as implementações automáticas; a produção agora requer aprovação manual.
- 2Implementamos monitoramento externo independente da nossa infraestrutura principal.
- 3Adicionamos canais de alerta redundantes (SMS e voz) para garantir conhecimento imediato de incidentes.
- 4Introduzimos bloqueios de implementação durante horários fora do expediente até que a cobertura de plantão 24/7 seja estabelecida.
Próximos passos
Estamos a rever os nossos procedimentos operacionais e a expandir a cobertura de resposta a incidentes para garantir a deteção rápida e recuperação de quaisquer problemas futuros.
Encerramento
Pedimos desculpa pela interrupção e agradecemos aos nossos clientes pela paciência. A confiabilidade continua a ser a nossa principal prioridade, e estamos comprometidos em prevenir a recorrência.
Rastreie 500 cliques mensais com todos os recursos inclusos.
Nenhum cartão de crédito necessário