Como prácticamente todos sabéis porque ha sido más que trending topic, el pasado 19 de julio se produjo una especie de apocalipsis tecnológico, que paralizó gran parte del mundo. 

Pilló además en viernes, y en el comienzo de vacaciones de millones de personas, con lo que el panorama fue de película de terror. 

Se ha hecho especialmente viral las imágenes de aeropuertos colapsados, con todas sus grandes pantallas informativas mostrando el temido pantallazo azul de windows, y miles de personas desinformadas e indignadas viendo como perdían el avión hacia sus vacaciones sin poder hacer nada, pero el problema afectó a muchísimos otros sistemas críticos, desde la banca, con personas que no podían hacer pagos digitales de ningún tipo con su tarjeta de crédito o smartphone, a entornos hospitalarios, dónde se cancelaron operaciones y redujeron atenciones por la imposibilidad de acceder a historiales médicos. 

Los sistemas afectados fueron realmente heterogéneos, supermercados paralizados por no poder realizar pagos, empresas de telecomunicaciones con técnicos sin acceso a terminal, canales de TV con problemas para emitir noticias, incluso parlamentos como el de Nueva Zelanda sin poder ejercer su actividad.

Comparto la siguiente imagen, porque creo es muy representativa de lo que ocurrió, muestra el tráfico aéreo antes y después del apocalipsis:

¿Pero qué pasó realmente?

Pues antes de nada, debemos saber quién es CrowdStrike, se trata de una empresa estadounidense orientada a ciberseguridad, que posee una solución EDR muy potente (un antivirus supervitaminado) denominado Falcon. Esta solución está muy de moda en grandes compañías, y las modas tecnológicas como sabemos, son a veces un peligro.

Probablemente CrowdStrike te suene a chino, los motivos básicamente son que sus productos se orientan a empresa, y que además cuestan una pasta, por lo que además no están en cualquier empresa. En todo caso, es una solución popular en grandes entornos corporativos y administraciones públicas.

¿Y qué pasó? Pues que de modo resumido, CrowdStrike lanzó una actualización automática para Falcon, que dañaba los sistemas Windows que utilizaban dicha solución, causando el famoso pantallazo azul de la muerte.

En este sentido, indicar que la solución Falcon, descarga periódicamente actualizaciones denominadas “Channel Files”, que mejoran la protección EDR. Esto es automático y se hace varias veces al día, en concreto fue el lanzamiento realizado el 19 de julio alrededor de las 04:00 UTC el que ocasionó los problemas.

En total, se estima que 8,5 millones de equipos Windows fueron afectados, y lo peor, muchos de ellos como se constató, eran críticos. 

La solución al problema era más o menos sencilla, pero muy tediosa:

Arrancar Windows en modo seguro en los equipos afectados, eliminar el fichero C:\Windows\System32\drivers\CrowdStrike\C-00000291*.sys e iniciar de nuevo normalmente.

Esto que parece una tontería no lo es tanto, principalmente porque son una serie de acciones que hay que hacer manualmente. Imaginemos como ejemplo uno de los aeropuertos afectados, con todos los paneles con pantallazo azul de windows, en muchos casos un técnico debía dirigirse al terminal afectado, seguramente con una escalera o similar para acceder al recurso que está en alto, posteriormente conectar un teclado o cualquier otro dispositivo de entrada o similar, y por último ejecutar el procedimiento anterior. Suponiendo que seas rápido, que el terminal a arreglar te pille cerca y haya poco tiempo de desplazamiento, y que no surjan problemas, seguramente 10-15 minutos por terminal no te los quita nadie. Ahora multiplica eso por los miles de equipos Windows que pueda haber en un aeropuerto, el coste simplemente en horas es bestial. 

Muchas empresas ante la falta de técnicos para abordar el caos, contactaron con personal en vacaciones para que les ayudara a cambio de pagas dobles o recompensas similares, otras contrataron incluso temporalmente personal extra para salir del pozo.

En todo caso, los afectados por tanto, no sólo acarrearon con los costes del incidente provocados por la parada de actividad y reclamaciones de usuarios, sino también con el coste de recuperación que dependía exclusivamente de ellos mismos, aquí no había ayuda ni de CrowdStrike, Microsoft, ni nada por el estilo. Significativo por ejemplo, es el siguiente estudio que cifra en más de 5400 millones de dólares las pérdidas de los clientes de CrowdStrike que forman parte de la lista Fortune 500.

Algunas reflexiones:

Tras la tormenta llega la calma, y visto en perspectiva creo que algunas reflexiones que pueden dar juego para una buena charla son:

Cadena de suministro

Este es un buen ejemplo de que deficiencias en nuestra cadena de suministro pueden llevarnos a la ruina. Recientemente ha habido ejemplos de hackeos a grandes empresas como el Banco Santander, Telefónica o la DGT, con un denominador común, los ciberataques no se llevaron a cabo directamente a estas empresas, sino a empresas suministradoras de las mismas, y es que cada vez es más habitual la subcontratación de servicios, y que las brechas de seguridad o fallos vengan a través de terceros..

Los ejemplos anteriores no son exactamente lo mismo, pero si van ligados a que un fallo en un proveedor, en este caso el de solución antivirus, lleve a una crisis total en el desarrollo del negocio. 

Buenas prácticas

Las bondades de CrowdStrike y su solución Falcon no debieran ser discutibles, al fin y al cabo son muchísimas grandes corporaciones las que confían en ellos. Además está considerada de modo objetivo, como una de las mejores soluciones existentes en ciberseguridad.

Pero sinceramente sus procesos de desarrollo parecen alejados de los que debiera seguir alguien medianamente profesional, porque al fin y al cabo ha quedado patente que lanzaron una actualización masiva que no estaba en absoluto probada, ocasionando una caída en los sistemas dónde se aplicaba. Y uno se pregunta, cómo es eso posible? Cómo pueden lanzar una actualización sin probar que va bien antes?

Y si hacemos leña del árbol caído, no es la primera vez que CrowdStrike la lía parda en sus actualizaciones, en el pasado ya tuvo algún episodio turbulento en su producto para linux, ocasionando incompatibilidades con versiones de kernel o similar, y denotando falta de pruebas y testeo (aquí algunos ejemplos: 1, 2).

Entonces, nos encontramos con una grandísima empresa de ciberseguridad, con gran fama, que cobra mucho por sus productos porque en teoría son muy buenos, pero dónde se constatan fallos infantiles de estabilidad y testeo, capaces de provocar una caída mundial. 

Alguna vez lo hemos comentado por aquí, seguramente nos echaríamos las manos en la cabeza si supiéramos de procedimientos o modos de trabajo de grandes corporaciones que creemos formidables y excelentes.

Continuidad:

Tener un plan B es fundamental, no sólo porque puedes terminar más pancho que Hannibal Smith con su “me encanta que los planes salgan bien”, sino porque ese plan B en realidad es un plan A cuando las cosas se ponen feas.

Y aquí cambio el ejemplo de los terminales Windows del aeropuerto por algo mucho más transcendental. Desde hace tiempo muchísimos organismos y especialmente la UE, están luchando por acabar con el dinero en metálico, ya sea a través de iniciativas de euro digital, políticas de restricción de pago en efectivo y similares. Sus objetivos son claros, un control absoluto de lo que hacemos con nuestro dinero. Pero eso conlleva riesgos, de ciberseguridad, privacidad y por supuesto continuidad, y este episodio es un buen ejemplo de ello.

Cae un sistema antivirus, y no puedes pagar la compra en el supermercado, echar gasolina, o sacar una botella de agua en el aeropuerto, y no hay alternativa porque muchos sistemas no admiten ya efectivo o un control digital de la transacción.

Información

Me sorprende muchas veces la desinformación causada por el tratamiento incorrecto de la noticia, y la poca pericia del periodista o medio que da los datos. Porque uno también piensa, este tema porque lo controlo un poco, pero cuando me hablen de cosas que desconozco, puede que me estén datos igual de inexactos.

En este caso, muchísimos titulares de medios de información de referencia directamente apuntaron a Microsoft, y no a CrowdStrike. De hecho, sin duda el episodio ha dañado la imagen de Microsoft y Windows, notándose en el valor en bolsa de las acciones.

Y aunque soy pro Linux siempre que se pueda, y de hecho estoy seguro que el impacto hubiera sido diferente en este tipo de sistema, creo que Microsoft en parte fue una víctima más, y se vió en la polémica sin comerlo ni beberlo. Al fin y al cabo, Microsoft no puede controlar que decidas instalar un antivirus u otro en el sistema, y que éste dañe o no dañe al sistema operativo.

Acceso 

Relacionado a lo anterior, es verdad que Microsoft queda exculpado en parte, pero no es menos cierto que hay cierta polémica por cómo sistemas de EDR como Falcon acceden a este sistema operativo.

De hecho, para que un EDR como Falcon sea efectivo, accede a modo kernel, con un control total de Windows. Esto se hace así para poder controlar el comportamiento de todas las aplicaciones y detectar posibles intentos de ataques antes incluso de llegar a producirse, pero por contra este modo “Dios” en el equipo, provoca que ante un mal fallo o cuelgue, el sistema caiga por completo, tal y como se comprobó en ese horribilis día. 

Centralización

Por último esta caída permite también abordar el tema de la centralización de servicios en unos pocos. Creemos que hay diversidad, pero la realidad en el ámbito IT es que unos pocos se reparten el pastel, y esto abarca todos los niveles.

Hemos hablado sobre ello en diversas ocasiones (un ejemplo), poner todos los huevos en la misma cesta puede conllevar caos similares a este, pero el problema es que cada vez se tiende menos a diversificar, por un lado por falta de competencia y alternativas, por otro por cuestiones productivas y económicas.

Un ejemplo, más de la mitad de la infraestructura cloud a nivel mundial está repartida en Azure y AWS, hablamos de la infraestructura que sustenta la mayoría de servicios que utilizamos en el día a día, tanto corporativos como de administraciones públicas ¿qué ocurriría si alguna de ellas cae?

Por último, como despedida del artículo, de los errores se aprende, y este suceso ha abierto muchos ojos, así que intentaremos ser positivos de cara al futuro, aunque también está lo de tropezar 2 veces con la misma piedra… veremos… buen verano!