Como uma Atualização Defeituosa da CrowdStrike Derrubou Computadores em Todo o Mundo

Uma atualização defeituosa da CrowdStrike causou um colapso global em computadores, afetando setores críticos como transporte aéreo, hospitais, bancos e mais. Este incidente destaca como uma única peça de código pode provocar uma falha catastrófica em sistemas de TI ao redor do mundo.

Colapso Mundial de Sistemas

Na noite de quinta-feira, a plataforma de nuvem Azure da Microsoft sofreu uma grande interrupção. Na manhã de sexta-feira, a situação piorou drasticamente quando a CrowdStrike lançou uma atualização problemática para seu software de monitoramento Falcon, levando computadores com Windows a um ciclo interminável de reinicializações. Embora a Microsoft tenha confirmado que as falhas de TI não estavam relacionadas, a combinação dessas duas falhas provocou uma tempestade perfeita.

A Causa da Catástrofe

A falha foi causada por um código defeituoso enviado como atualização para o produto Falcon da CrowdStrike, uma plataforma antivírus que opera com acesso profundo ao sistema em dispositivos como laptops, servidores e roteadores. O Falcon requer permissões para atualizar automaticamente e regularmente, um mecanismo essencial para detectar novas ameaças. No entanto, essa necessidade de atualização constante introduz o risco de instabilidade no sistema.

Impacto Global

“É o maior caso da história. Nunca tivemos uma interrupção mundial de estações de trabalho como esta”, afirma Mikko Hyppönen, diretor de pesquisa da WithSecure. No passado, interrupções generalizadas eram mais comuns devido a worms ou trojans. Hoje, interrupções globais geralmente ocorrem no lado do servidor, envolvendo provedores de nuvem, cortes de cabos de internet ou problemas de autenticação e DNS.

Identificação e Correção da Falha

George Kurtz, CEO da CrowdStrike, confirmou que a falha foi causada por um “defeito” no código lançado para Windows, não afetando sistemas Mac e Linux. “O problema foi identificado, isolado e uma correção foi implementada”, disse Kurtz, acrescentando que a falha não resultou de um ataque cibernético. Em uma postagem no blog, a CrowdStrike detalhou que a falha foi provocada por um único arquivo de configuração que alterou a maneira como o Falcon inspeciona “named pipes” no Windows, resultando em um erro lógico que levou à falha do sistema operacional.

Análise Técnica da Falha

Analistas inicialmente pensaram que a falha estava relacionada a uma atualização de “driver de kernel” do software Falcon, devido ao fato de o arquivo causador da falha ter a extensão .sys. Drivers de kernel permitem que aplicativos interajam com o núcleo do sistema operacional Windows, um nível de acesso necessário para softwares de segurança. No entanto, a configuração defeituosa alterou a funcionalidade do driver, resultando na falha. Costin Raiu, ex-líder da equipe de inteligência de ameaças da Kaspersky, destacou que atualizações de drivers são rigorosamente testadas antes de serem lançadas, sugerindo que o arquivo de configuração pode não ter recebido o mesmo nível de escrutínio.

Desafios na Recuperação

A natureza do problema significa que máquinas afetadas podem precisar ser reiniciadas manualmente. Kurtz afirmou que alguns sistemas podem demorar para se recuperar totalmente. As instruções iniciais da CrowdStrike recomendavam iniciar as máquinas em modo de segurança, excluir um arquivo específico e reiniciar. Mikko Hyppönen observou que esse processo pode levar dias, já que milhões de máquinas ao redor do mundo foram afetadas.

Reflexões e Futuro

O incidente levanta questões sobre a viabilidade do modelo atual de atualização automática sem intervenção de TI. “As pessoas podem agora exigir mudanças nesse modelo operacional”, afirma Jake Williams, vice-presidente de pesquisa e desenvolvimento da Hunter Strategy. Este evento demonstra os riscos envolvidos na atualização automática de sistemas críticos e pode levar a uma reavaliação das práticas de gestão de atualizações de software no futuro.

Este incidente ressalta a importância de rigorosos processos de controle de qualidade e testes para atualizações de software, especialmente em sistemas com acesso profundo e crítico ao núcleo do sistema operacional. A lição principal é que, embora a automação e a atualização contínua sejam essenciais para a defesa contra ameaças cibernéticas, elas também precisam ser equilibradas com medidas robustas de garantia de qualidade para evitar desastres globais.

Fonte: https://www.nytimes.com/2024/07/19/business/microsoft-outage-cause-azure-crowdstrike.html

Rogerio Lima

Sou um profissional na área de Tecnologia da informação, especializado em monitoramento de ambientes, Sysadmin e na cultura DevOps. Possuo certificações de Segurança, AWS e Zabbix.

Colapso Mundial de Sistemas

A Causa da Catástrofe

Impacto Global

Identificação e Correção da Falha

Análise Técnica da Falha

Desafios na Recuperação

Reflexões e Futuro

Compartilhe isso:

Aprendendo Linux Parte 18 – Configuração de Servidores DNS no Linux

Aprimorando o Desempenho Web com Balanceamento de Carga Nginx em Sistemas Linux

Posts Relacionados