Fluxos

Investigue Seu Primeiro Incidente

Fluxo completo de triagem, do sintoma até hipótese de causa raiz e caminho de remediação.

Investigue Seu Primeiro Incidente

Use este fluxo quando a produção já estiver degradada e você precisar do menor caminho entre sintoma e causa provável.

Objetivo

Ao final, você deve ter um incidente, um caminho provável de causa raiz e uma direção de remediation.

Passo 1: Defina o sintoma

Comece pelo problema observavel:

  • Explosao de erros
  • Regressao de latência
  • Loop de restart
  • Tempestade de timeouts
  • Saturacao de banco

Passo 2: Defina o raio de impacto

Responda primeiro:

  • Qual serviço está falhando?
  • Qual ambiente foi afetado?
  • Qual versão ou janela de release coincide com o incidente?
  • O problema é isolado ou cruza serviços?

Passo 3: Leia a evidência correlacionada

Use o Obtrace para inspecionar:

  • Traces relacionados
  • Assinaturas de erro
  • Mudanças de deploy e configuração
  • Impacto em dependências

Passo 4: Va para o guia certo

Se o sintoma for muito ligado ao ambiente:

Se for um padrão conhecido:

Passo 5: Separe mitigação de remediação

Mitigação temporária pode ser restart, scale, aumento de memória ou rollback. Remediação real responde o que mudou, por que falhou agora e qual alteração impede recorrência.

Passo 6: Prepare remediação

Definição de pronto

  • A causa raiz provável está explícita
  • O gatilho de release ou configuração foi identificado
  • A próxima ação de remediação está clara

Nesta página