Después de Crowdstrike…¿Cómo poner orden en medio del caos?
Por Ricardo Salinas, Director Adjunto
de Proactivanet Cono Sur.
Julio de 2024 – Todos tenemos claro que cuando ocurre una incidencia lo primero que se debe hacer es frenarla. La gestión de incidencias nos dice literalmente que su objetivo es «restablecer el servicio lo antes posible», algo evidente, pero cuando dicha incidencia afecta al negocio, impacta sobre los servicios críticos, la facturación o, en el peor de los casos, la imagen pública de la empresa, con repercusión en redes sociales o en la cotización bursátil, restablecer el servicio se queda corto.
Una vez se calmen las aguas, es necesario ir más allá y analizar en detalle las causas y tomar medidas. Se deben sacar lecciones y aprendizajes; una cicatriz que recordará lo ocurrido y será tan notoria que recordaremos lo importante que es prevenir (o al menos mitigar) situaciones similares en el futuro.
El pasado viernes 19 de julio ocurrió una de esas incidencias graves, cuando una actualización de Crowdstrike que contenía un bug afectó a servicios críticos de empresas en todo el mundo. Entre especialistas de la gestión de activos conversamos sobre el tema y todos coincidimos en que “Las incidencias ocurren, son un hecho”.
Los bugs existen y seguirán existiendo y algunos acabarán provocando un desastre por mucho riesgo que mitiguemos. Es inevitable. Y nuestro trabajo consiste en estar preparados y actuar rápidamente cuando ocurran.
Desde ese tormentoso viernes ya han transcurrido varios días, las aguas se han calmado, y ha llegado la hora de extraer la moraleja. Y aquí es donde una herramienta ITAM / ITSM, es decir, de control de activos y de servicios de tecnología, puede ayudar ser muy útil.
Con software de este tipo, los clientes pueden obtener el listado de sus activos afectados (equipos Windows con la aplicación Crowdstrike instalada). Tener el inventario completo y actualizado permitió a las empresas contar con una lista de activos a revisar, en un momento en que el tiempo era -literalmente- oro molido.
Pero en estos casos debemos ir más allá de lo evidente. Los clientes que además de tener un sistema de gestión de activos de TI trabajan en conjunto con una CMDB -como indica su nombre en inglés “Configuration Management DataBase”- cuentan con información valiosísima acerca de todos los componentes de tecnología de la empresa. También les permite ver cómo están conectados y cómo trabajan juntos para soportar procesos de negocio de la organización.
Empresas con este nivel de avance además tuvieron visibilidad sobre el impacto de la caída de sus servicios respecto al negocio. Porque una vez que las áreas de tecnología descubren que tienen varios miles de activos afectados, ¿Por dónde empiezan? ¿Cuáles están impactando realmente a los servicios? ¿Quiénes son las personas responsables de ellos? ¿Dónde están? ¿Qué servicios se deben levantar “YA”, porque son críticos para el negocio? ¿Qué servicios no son tan críticos y es posible sobrevivir algunos días sin ellos?
No agobiarse es fundamental. Unos buenos BIAS (Business Impact Analysis) y DRPs (Disaster Recovery Plans), permitirán poner orden en el caos, responder todas estas preguntas y asegurar que los técnicos están entrenados para estas situaciones, y que disponen de toda la información necesaria para actuar, minimizando el impacto al negocio y ver más allá de lo evidente.