Fluxos
Investigue Seu Primeiro Incidente
Fluxo completo de triagem, do sintoma até hipótese de causa raiz e caminho de remediação.
Investigue Seu Primeiro Incidente
Use este fluxo quando a produção já estiver degradada e você precisar do menor caminho entre sintoma e causa provável.
Objetivo
Ao final, você deve ter um incidente, um caminho provável de causa raiz e uma direção de remediation.
Passo 1: Defina o sintoma
Comece pelo problema observavel:
- Explosao de erros
- Regressao de latência
- Loop de restart
- Tempestade de timeouts
- Saturacao de banco
Passo 2: Defina o raio de impacto
Responda primeiro:
- Qual serviço está falhando?
- Qual ambiente foi afetado?
- Qual versão ou janela de release coincide com o incidente?
- O problema é isolado ou cruza serviços?
Passo 3: Leia a evidência correlacionada
Use o Obtrace para inspecionar:
- Traces relacionados
- Assinaturas de erro
- Mudanças de deploy e configuração
- Impacto em dependências
Passo 4: Va para o guia certo
Se o sintoma for muito ligado ao ambiente:
Se for um padrão conhecido:
Passo 5: Separe mitigação de remediação
Mitigação temporária pode ser restart, scale, aumento de memória ou rollback. Remediação real responde o que mudou, por que falhou agora e qual alteração impede recorrência.
Passo 6: Prepare remediação
Definição de pronto
- A causa raiz provável está explícita
- O gatilho de release ou configuração foi identificado
- A próxima ação de remediação está clara