Arxiu del blog

diumenge, 21 de juliol del 2024

Crowdstrike, Apolo 11, Apolo 13 i McAfee: Gestió del canvi i Control de la qualitat en sistemes crítics

 


Diu el Gran Wyoming  https://ca.wikipedia.org/wiki/El_Gran_Wyoming al iniciar el seu programa “Ahora que les han contado las noticies, vamos a explicarles la verdad) i d’aquesta manera suposo que després d’aquest passat divendres negre (no era 13 .... sinó 19/07/24) i amb les noticies que ens van explicar, ens aniria be, sobretot pel que puguem aprendre els professionals del sector, saber la veritat.

 

... mentre, haurem d’especular una mica.

Per començar, i com un gran spoiler d’aquesta història, tenim aquest post de linkedIN (https://www.linkedin.com/posts/mgsotos_windows-tecnologaeda-crowdstrike-activity-7220522312209416192-sUIW?utm_source=share&utm_medium=member_desktop ) que ens explica que el 2010, George Kurtz llavors CTO de McAfee i ara CEO de Crowdstrike, ja va ser protagonista d’un fet similar, de conseqüències menors tot i que contundents, i que van acabar amb la venda de McAfee. Interessant com es repeteix la historia dels que no aprenen res.

Deixeu-me que esmenti dues històries del projecte Apolo, on es treballava per un objectiu de guerra freda per guanyar la “batalla” de la carrera espacial, i que va tenir situacions que tenen similitud en les seves causes.

Quin va ser el moment en que Neil Amstrong, Apolo XI va tenir les pulsacions al màxim? Podríem pensar que en el enlairament o en el descens del LEM sobre la superfície de la lluna. Dons no. Aquest moment va ser quan en intentar sortir del LEM es van donar conta que les dimensions de la escotilla de sortida no eren com les de la maqueta en la que havien fet les proves i assajos, sinó una mica mes petita, de tal manera que en sortir de cintura a baix no podia sortir mes dons la “motxilla” que portava sobre el trajo d’astronauta semblava que no passava. Imagino la ràbia i frustració de quedar-se amb el “cul enlaire” a la Lluna (de fet, amb el cul al vuit de l’espai). Per sort, Buzz Aldrin, amb va “crear” un procediment d’entrada i sortida. La causa? Algú va modificar l’escotilla sense adreçar-se a ningú mes. Un error en la gestió del canvi, sense control de qualitat.

 

Molts coneixement la història de l’Apolo XIII i l’explosió que va malmetre l’objectiu d’aterrar a la Lluna, i que va suposar l’èpica d’una exitosa missió de salvament dels tres astronautes al explotar un tanc d’Oxigen en una rutinària operació per remoure el contingut. En la famosa pel·lícula es dona com a causa una bonia defectuosa del motor per remoure aquest tanc. Be, era la noticia del seu moment, i en aquest cas la veritat es que els primers tancs funcionaven a un voltatge menor, i els que finalment van fer servir anaven a un voltatge superior. Segur que el canvi tenia tot la lògica del repàs que la NASA va fer després de l’accident de l’Apolo I, però algun d’aquells primers tancs es van quedar en el magatzem fins que els van instal·lar en el mòdul de servei de l’apollo XIII , i d’aquí l’incident, que es podia evitar amb un control de qualitat, tot i que amb la complexitat del programa Apolo es va fer amb un alt nivell.


Tornant a Crowdstrike, i el precedent de McAfee, no es difícil pensar que la causa última es un error en la distribució massiva, causa d’una gestió de test que no estava a l’alçada d’un sistema crític o un punt de fallada crítica o que ignorava aquesta realitat, i segurament producte d’una organització que es va acostumar a unes rutines molt rentables oblidant el seu paper crític i les seves responsabilitats en les conseqüències d’una errada. Si la història s’ha repetit es per aquest menyspreu a un procés crític en qualsevol gestió de serveis com els la gestió del canvi, i a una manca de tensió en la cultura de la qualitat integral.

Enjoy !

Cap comentari:

Publica un comentari a l'entrada