Incidente de CrowdStrike en sistemas Windows: Análisis y consecuencias

El incidente protagonizado por CrowdStrike en los sistemas Windows en julio de 2024 fue un evento crítico que puso en evidencia la vulnerabilidad de los sistemas de seguridad en entornos empresariales. El fallo, desencadenado por una actualización defectuosa en el sistema de seguridad Falcon, afectó gravemente la estabilidad de los dispositivos Windows, generando una serie de caídas del sistema operativo (BSOD o “pantalla azul de la muerte”) en un número significativo de máquinas. Este episodio resaltó la importancia de contar con procesos de validación rigurosos y actualizaciones controladas en entornos de seguridad, debido al impacto potencial en grandes infraestructuras tecnológicas.

Origen del problema
El 19 de julio de 2024, CrowdStrike lanzó una actualización de su sistema Falcon, conocido por ser una plataforma de seguridad centrada en la detección y prevención de amenazas cibernéticas. Este sistema incluye varios componentes, entre los que destaca un controlador firmado digitalmente, CSAgent.sys
, que tiene un rol crucial en la detección de amenazas a nivel del kernel del sistema operativo. Junto con este controlador, CrowdStrike distribuye archivos de configuración denominados «Channel Files», que se utilizan para actualizar dinámicamente las configuraciones de seguridad sin necesidad de modificar el código subyacente
El problema surgió cuando un «Channel File» defectuoso, específicamente el archivo 291, fue liberado sin pasar adecuadamente las pruebas de calidad. Este archivo contenía datos incorrectos que hicieron que el controlador CSAgent.sys
intentara acceder a direcciones de memoria no válidas. El controlador intentó usar lo que se conoce como un «puntero salvaje», que referenciaba una posición de memoria que no existía. Esta operación desencadenó un error en el kernel del sistema operativo Windows, lo que generó las fallas conocidas como «pantallas azules de la muerte» (BSOD), un mecanismo de protección que detiene todo el sistema cuando se detecta un error grave a nivel del kernel. El fallo afectó principalmente a entornos empresariales que utilizaban CrowdStrike Falcon como su principal sistema de seguridad. La severidad del incidente fue tal que Microsoft estimó que aproximadamente 8.5 millones de dispositivos Windows sufrieron caídas del sistema, aunque este número representaba menos del uno por ciento del total de dispositivos Windows desplegados en todo el mundo

Análisis técnico del fallo
El fallo técnico que desencadenó las caídas del sistema tiene su origen en la forma en que el controlador CSAgent.sys
interpreta los «Channel Files». Según los informes técnicos, este controlador accede a una tabla de direcciones de memoria en bucle, utilizando esas direcciones como puntos de entrada para realizar tareas específicas. En condiciones normales, las direcciones contenidas en los archivos son válidas y permiten al sistema funcionar correctamente. Sin embargo, en el caso del archivo 291, una de las direcciones de memoria estaba corrupta o no se encontraba presente, lo que llevó al sistema a intentar acceder a una zona de memoria no asignada. Este acceso inválido fue capturado por el procesador, lo que inmediatamente desencadenó una excepción en el sistema operativo Windows, provocando los fallos repetidos
Otro aspecto relevante del problema fue la naturaleza del controlador CSAgent.sys
, el cual estaba configurado como un controlador de «inicio de arranque». En Windows, los controladores marcados como «boot-start» son considerados críticos para el funcionamiento del sistema, por lo que se cargan en las primeras etapas del arranque del sistema. Esto significa que, si se produce un fallo en uno de estos controladores, el sistema no puede simplemente omitir su carga en el próximo arranque, lo que llevó a una cadena de fallos continuos en las máquinas afectadas.
Esta situación obligaba a los administradores de sistemas a reiniciar los dispositivos numerosas veces con la esperanza de que una actualización automática corregida del «Channel File» fuera descargada antes de que el controlador defectuoso causara otro fallo

Impacto y respuesta
El impacto del fallo fue de gran magnitud, afectando tanto a usuarios individuales como a organizaciones y entidades gubernamentales que confiaban en CrowdStrike Falcon para la seguridad de sus entornos Windows. Microsoft tuvo que intervenir rápidamente, desarrollando y distribuyendo herramientas de recuperación para ayudar a las organizaciones afectadas a restaurar sus sistemas. Una de estas soluciones fue una herramienta que permitía arrancar desde una unidad USB, diseñada para ayudar a las organizaciones a restaurar el sistema operativo sin necesidad de reinstalarlo desde cero
Por su parte, CrowdStrike emitió un informe preliminar en el que reconocía la falla y detallaba los pasos que tomarían para evitar futuros incidentes similares. Entre las medidas mencionadas, destacaron la implementación de pruebas adicionales en las actualizaciones de contenido, como pruebas de estrés, inyección de fallos y pruebas de estabilidad para asegurar que las futuras actualizaciones de los «Channel Files» no causaran problemas graves en los sistemas de los clientes.
Además, CrowdStrike anunció un refuerzo en sus procesos de validación, incluyendo la mejora de su sistema de validación de contenido y una mayor supervisión de las actualizaciones antes de su implementación.
El incidente también fue aprovechado por actores maliciosos que utilizaron la confusión para lanzar ataques de phishing dirigidos a los clientes de CrowdStrike. La Agencia de Seguridad de Infraestructura y Ciberseguridad (CISA) emitió alertas instando a los usuarios a seguir solo las guías oficiales de recuperación de CrowdStrike, ya que los ataques de phishing imitaban comunicados oficiales para distribuir malware

Lecciones aprendidas y medidas preventivas
Este incidente puso en evidencia la necesidad de adoptar un enfoque más controlado y seguro en la distribución de actualizaciones de software en sistemas críticos. En su respuesta, CrowdStrike subrayó que mejorarían la rigurosidad de las pruebas internas antes de lanzar futuras actualizaciones, y se comprometieron a realizar despliegues más graduados, siguiendo prácticas similares a las implementadas por empresas como Google con sus «Canary releases». Esta estrategia permite desplegar actualizaciones en un subconjunto reducido de sistemas antes de su implementación masiva, lo que facilita la identificación de problemas en una escala limitada
Además, el incidente reveló la importancia de contar con una arquitectura de controladores que permita revertir o evitar fallos de este tipo. En sistemas críticos como los controladores de seguridad, la capacidad de desactivar controladores defectuosos sin comprometer el arranque del sistema es esencial para evitar caídas en cascada y pérdidas de productividad masivas.
Fuentes
- CrowdStrike – Informe preliminar(CrowdStrike)
- Microsoft – Respuesta al incidente de CrowdStrike(The Official Microsoft Blog )
- CrowdStrike Blog: Análisis del Incidente del Archivo Canal 291 https://www.crowdstrike.com/blog/channel-file-291-rca-available/
- Wikipedia sobre el incidente relacionado con CrowdStrike en 2024 https://en.wikipedia.org/wiki/2024_CrowdStrike-related_IT_outages
- CISA – Agencia de Seguridad de Infraestructura y Ciberseguridad https://www.cisa.gov/news/2024/07/20/crowdstrike-outage-advisory
- The Register: Noticias sobre el incidente de CrowdStrike https://www.theregister.com/2024/07/20/crowdstrike_falcon_sensor_update_crash/