Pasaron 24 horas. Muchos departamentos técnicos y de seguridad han cancelado sus vacaciones, y el mundo entero busca recuperarse de lo que probablemente haya sido el «apagón» informático más grande de la historia. También hemos detectado confusión en los reportes, algunos acusando a Microsoft, otros a CrowdStrike, y otros repartiendo golpes para ambas compañías. Veamos…
¿Qué pasó?
El 19 de julio, la gente de CrowdStrike, una compañía de ciberseguridad en Austin (capital del estado de Texas), emitió una actualización para su plataforma Falcon. El rol de Falcon es instalar y mantener sensores en terminales «mission-critical» con Microsoft Windows para «detectar y prevenir» amenazas.
Okay, eso suena bien, pero…
... el update tenía un error. La ola de pantallas azules comenzó en Australia, y «avanzó hacia el oeste» a medida que el día avanzó.
¿A quiénes afectó?
Bancos, hospitales, aeropuertos, hoteles, transporte terrestre, alimentación, docenas de agencias gubernamentales, canales de televisión, portales de e-commerce, y muchos más, incluyendo empleados en trabajo remoto con portátiles asignados. Más de 5.000 vuelos programados debieron ser cancelados. Visitas médicas, consultas y muchas cirugías entraron en pausa. Hasta el 911 y la organización de los Juegos Olímpicos se vieron perjudicados.
¿Fue un ciberataque?
No, y hay que insistir en esto: Fue un error en la actualización para Falcon que distribuyó CrowdStrike.
¿Mac y Linux? ¿Android? ¿iOS?
Inmunes. El error afecta a ordenadores con Windows que usan CrowdStrike Falcon.
Muy bien, ¿cómo se repara?
Aquí es cuando se complican las cosas. Solucionar el error en una terminal aislada no es tan difícil, pero hablamos de organizaciones con miles de sistemas. La primera recomendación es, aunque parezca mentira, reiniciar el equipo docenas de veces (detalles más abajo). La segunda es más técnica, y apunta a borrar manualmente los archivos del update defectuoso, con el nombre C-00000291*.sys (atención al asterisco), en la ruta «Windows\System32\Drivers\CrowdStrike».
¿Reiniciar docenas de veces? ¿Es una broma?
En realidad, no. Los sistemas se encuentran atrapados en un bootloop, pero al mismo tiempo hay una especie de «carrera» entre el stack de red y el update defectuoso. Si en uno de los reinicios el stack de red gana, CrowdStrike puede instalar el update correcto y permitir que el sistema escape del bucle. Si el update con errores gana, BSOD.
¿Y si la terminal usa BitLocker?
Dolor y sufrimiento. Si las llaves de recuperación para leer las unidades afectadas no están disponibles, el proceso es en esencia un ataque de ransomware autoinfligido.
¿Alternativas?
Otra recomendación de Microsoft y CrowdStrike es restaurar un respaldo anterior al 19 de julio, 04:09 UTC, momento en el que CrowdStrike inició la distribución de su update con errores.
Algunos dicen que «fue» Microsoft. ¿Por qué?
Porque en la noche del jueves, varios servicios asociados a Azure también sufrieron una caída en toda la región central de los Estados Unidos. La falla se extendió del 18 de julio (21:56 UTC), hasta el 19 de julio (12:15 UTC). «Dios no juega a los dados…»
Al final, ¿qué tan grande fue?
Troy Hunt de Have I Been Pwned? dijo que fue «la falla de IT más grande de la historia», y agregó que esto era básicamente «lo que nos preocupaba del Y2K», con la diferencia de que sucedió ahora.
Entonces… ¿volverá a suceder?
Si seguimos haciendo estupideces con updates defectuosos en Ring 0, definitivamente.
Fuentes: CrowdStrike, Ars Technica, The Verge, TechRadar, Microsoft