Monitoramento Kubernetes: Stack Completo com Prometheus, Grafana e Alertmanager [2025]

Sumário

A Importância Crítica da Observabilidade em Ambientes Kubernetes
Arquitetura da Stack de Monitoramento: Uma Visão Integrada
Prometheus: O Coração da Coleta de Métricas
Grafana: A Janela para Seus Dados
Alertmanager: Gestão Inteligente de Alertas
Implementação com Helm: O Padrão `kube-prometheus-stack`
Passos para a Instalação
Configurando a Descoberta de Serviços com `ServiceMonitor`
Exemplo de um `ServiceMonitor`
Visualização de Dados e Dashboards Essenciais no Grafana
Gestão de Alertas com o `PrometheusRule` e Alertmanager
Exemplo de uma `PrometheusRule`
Otimizações e Boas Práticas para 2025

A Importância Crítica da Observabilidade em Ambientes Kubernetes

A orquestração de contêineres com kubernetes revolucionou a forma como as aplicações são implantadas e gerenciadas, mas introduziu uma complexidade operacional significativa. A natureza dinâmica e efêmera de pods, deployments e services exige uma abordagem robusta de monitoramento e observabilidade. Sem uma visibilidade clara do estado do cluster e do desempenho das aplicações, equipes de DevOps e SRE (Site Reliability engineering) operam às cegas, incapazes de identificar proativamente gargalos de performance, prever falhas ou diagnosticar incidentes com rapidez. Em 2025, ter uma stack de monitoramento consolidada não é mais um diferencial, mas um requisito fundamental para a sustentabilidade de sistemas distribuídos.

A stack composta por Prometheus, Grafana e Alertmanager emergiu como o padrão de fato no ecossistema open-source para monitoramento de Kubernetes. Juntos, esses componentes fornecem uma solução completa para coleta, armazenamento, visualização e alerta de métricas. Prometheus atua como o motor de coleta e banco de dados de séries temporais; Grafana oferece uma interface poderosa para a criação de dashboards interativos; e o Alertmanager gerencia a lógica de notificação de alertas, garantindo que as equipes certas sejam acionadas no momento certo.

Arquitetura da Stack de Monitoramento: Uma Visão Integrada

Compreender como os componentes da stack interagem é crucial para uma implementação eficaz. A arquitetura é projetada para ser modular e resiliente, alinhada aos princípios de sistemas nativos da nuvem.

Prometheus: O Coração da Coleta de Métricas

O Prometheus opera em um modelo pull-based, onde o servidor principal periodicamente “raspa” (scrape) métricas de endpoints HTTP expostos por aplicações e exportadores. Seus componentes principais incluem:

Prometheus Server: Responsável pelo scraping, armazenamento das métricas em seu banco de dados de séries temporais (TSDB) e processamento de queries utilizando a linguagem PromQL (Prometheus Query Language).
Exporters: São agentes que expõem métricas de sistemas de terceiros em um formato que o Prometheus entende. Exemplos comuns no contexto Kubernetes são o node-exporter (métricas de hardware e SO dos nós) e o kube-state-metrics (métricas sobre o estado de objetos do Kubernetes, como deployments e pods).
Service Discovery: Uma das funcionalidades mais poderosas do Prometheus é sua integração nativa com a API do Kubernetes. Ele pode descobrir automaticamente quais pods e services devem ser monitorados, eliminando a necessidade de configuração manual estática, o que seria inviável em um ambiente dinâmico.

Grafana: A Janela para Seus Dados

Enquanto o Prometheus armazena os dados, o Grafana os torna compreensíveis. Ele se conecta ao Prometheus como uma fonte de dados (data source) e permite que os usuários criem dashboards ricos e personalizados. Com o Grafana, é possível correlacionar diferentes métricas em um único gráfico, utilizar variáveis para criar dashboards dinâmicos (por exemplo, selecionar um namespace ou pod específico) e visualizar dados históricos para análise de tendências.

Alertmanager: Gestão Inteligente de Alertas

O Alertmanager é responsável por processar os alertas gerados pelas regras definidas no Prometheus. Sua função vai além de simplesmente enviar uma notificação. Ele oferece funcionalidades avançadas como:

Deduplicação: Agrupa instâncias idênticas de um mesmo alerta em uma única notificação.
Agrupamento (Grouping): Agrupa alertas de natureza similar em uma única notificação, evitando a “tempestade de alertas”. Por exemplo, agrupar todos os alertas de “pod com alta latência” de um mesmo serviço.
Silenciamento (Silencing): Permite silenciar alertas temporariamente durante janelas de manutenção planejadas.
Roteamento (Routing): Encaminha alertas para diferentes canais de notificação (Slack, PagerDuty, E-mail, OpsGenie) com base em labels, como a severidade ou a equipe responsável.

Implementação com Helm: O Padrão `kube-prometheus-stack`

A forma mais eficiente e recomendada para implantar essa stack em um cluster Kubernetes é através do Helm, o gerenciador de pacotes do Kubernetes. O chart kube-prometheus-stack, mantido pela comunidade Prometheus, encapsula não apenas o Prometheus, Grafana e Alertmanager, mas também o Prometheus Operator, que simplifica drasticamente a gestão da configuração.

Passos para a Instalação

O processo de instalação envolve adicionar o repositório do Helm, customizar as configurações e instalar o chart:

1. Adicionar o repositório do Helm:

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

2. Atualizar os repositórios:

helm repo update

3. Customizar a Configuração (`values.yaml`): Antes da instalação, é fundamental criar um arquivo values.yaml para sobrescrever as configurações padrão. Pontos importantes a serem customizados incluem:

Persistência de Dados: Habilitar PersistentVolumeClaims para Prometheus e Grafana para que os dados e dashboards não sejam perdidos em caso de reinicialização dos pods.
Configuração do Grafana: Definir a senha do administrador e, se necessário, configurar um Ingress para acesso externo.
Configuração do Alertmanager: Injetar a configuração de roteamento e receivers (por exemplo, webhooks do Slack).
Recursos (Requests e Limits): Ajustar os recursos de CPU e memória para cada componente de acordo com o tamanho do cluster.

4. Instalar o Chart:

helm install my-monitoring prometheus-community/kube-prometheus-stack --namespace monitoring --create-namespace -f values.yaml

Esta instalação provisionará todos os componentes necessários, incluindo CRDs (Custom Resource Definitions) como ServiceMonitor e PrometheusRule, que automatizam a configuração.

Configurando a Descoberta de Serviços com `ServiceMonitor`

O Prometheus Operator introduz o CRD ServiceMonitor, que permite definir de forma declarativa como os serviços devem ser monitorados. Em vez de editar diretamente o arquivo de configuração do Prometheus, você cria um manifesto YAML para o ServiceMonitor.

Este recurso utiliza seletores de labels para encontrar os `Services` que expõem um endpoint de métricas. O Prometheus Operator observa a criação desses `ServiceMonitors` e automaticamente atualiza a configuração de scrape do Prometheus.

Exemplo de um `ServiceMonitor`

Suponha que você tenha uma aplicação no namespace `my-app` com um `Service` chamado `my-app-service` que expõe métricas na porta `http-metrics`.

apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: my-app-monitor namespace: my-app labels: release: my-monitoring # Label para o Prometheus Operator encontrar este monitor spec: selector: matchLabels: app: my-app # Seleciona o Service com esta label namespaceSelector: matchNames: - my-app endpoints: - port: http-metrics interval: 30s

Ao aplicar este manifesto, o Prometheus começará a coletar métricas do seu serviço automaticamente.

Visualização de Dados e Dashboards Essenciais no Grafana

Após a instalação, o Grafana já vem pré-configurado com uma série de dashboards úteis fornecidos pelo chart kube-prometheus-stack. Esses dashboards cobrem aspectos cruciais do cluster:

Uso de recursos por Nó: CPU, memória, disco e utilização de rede para cada nó do cluster.
Estado do Cluster Kubernetes: Visão geral da saúde de pods, deployments, statefulsets, etc.
Métricas do Kubelet: Informações detalhadas sobre o desempenho de cada Kubelet.

Criar dashboards personalizados é o próximo passo. Utilizando PromQL, é possível construir painéis para métricas específicas de negócio ou de performance da aplicação. Por exemplo, para visualizar a taxa de uso de CPU de contêineres em um namespace específico, a query seria:

sum(rate(container_cpu_usage_seconds_total{namespace="$namespace"}[5m])) by (pod)

O uso de variáveis como $namespace torna o dashboard interativo, permitindo que os usuários filtrem a visualização dinamicamente.

Gestão de Alertas com o `PrometheusRule` e Alertmanager

Assim como o ServiceMonitor, o Prometheus Operator utiliza o CRD PrometheusRule para definir regras de alerta de forma declarativa. Essas regras contêm expressões PromQL que, quando se tornam verdadeiras, disparam um alerta.

Exemplo de uma `PrometheusRule`

A regra a seguir dispara um alerta se um pod estiver em reinicialização constante (crash looping):

apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: my-app-alerts namespace: my-app labels: release: my-monitoring spec: groups: - name: my-app.rules rules: - alert: PodCrashLooping expr: rate(kube_pod_container_status_restarts_total{namespace="my-app"}[15m]) * 60 * 5 > 0 for: 5m labels: severity: critical annotations: summary: "Pod {{ $labels.pod }} está em CrashLoopBackOff" description: "O pod {{ $labels.pod }} no namespace {{ $labels.namespace }} está reiniciando constantemente."

Uma vez que o alerta é disparado pelo Prometheus, ele é enviado ao Alertmanager. A configuração do Alertmanager (geralmente gerenciada via values.yaml do Helm) define como esse alerta será processado. É possível criar rotas complexas, como enviar alertas com severity: critical para o PagerDuty e alertas com severity: warning para um canal específico do Slack, garantindo que a informação correta chegue à equipe apropriada com o nível de urgência correto.

Otimizações e Boas Práticas para 2025

Manter uma stack de monitoramento performática e segura exige atenção contínua. Para 2025, algumas práticas são essenciais:

Armazenamento de Longo Prazo (Long-Term Storage): O Prometheus por si só não é ideal para armazenamento de métricas a longo prazo. Soluções como Thanos ou Cortex se integram ao Prometheus para oferecer um armazenamento global, distribuído e durável.
Gestão de Cardinalidade: Métricas com alta cardinalidade (muitas combinações de labels únicas) podem sobrecarregar o Prometheus. Utilize regras de relabeling para remover labels desnecessárias antes que as métricas sejam ingeridas.
Segurança: Exponha os serviços (Grafana, Prometheus UI, Alertmanager UI) de forma segura utilizando Ingress com autenticação e TLS. Garanta que as permissões RBAC para o Prometheus Operator e seus componentes sigam o princípio do menor privilégio.
Automação com GitOps: Gerencie toda a configuração da stack de monitoramento (values.yaml do Helm, ServiceMonitors, PrometheusRules, dashboards do Grafana em formato JSON) em um repositório Git. Ferramentas como ArgoCD ou Flux podem sincronizar essas configurações com o cluster, garantindo um estado declarativo e auditável.

Rogerio Lima

Sou um profissional na área de Tecnologia da informação, especializado em monitoramento de ambientes, Sysadmin e na cultura DevOps. Possuo certificações de Segurança, AWS e Zabbix.