Los servicios online para empresas de Atlassian han estado caídos 12 días: cuando la imprevisión se junta con la Ley de Murphy

Los servicios online para empresas de Atlassian han estado caídos 12 días: cuando la imprevisión se junta con la Ley de Murphy
3 comentarios

Atlassian es uno de los gigantes del mundo del SaaS (Software as a Service), gracias a haber creado herramientas como Trello y Jira, fundamentales en el trabajo interno de miles de empresas de todo el mundo. El 4 abril, aproximadamente 400 de esas empresas dejaron de poder acceder a dichas herramientas, localizadas en la nube, una situación que pudo afectar hasta a 800.000 usuarios, empleados y colaboradores de dichas empresas.

El servicio no pudo restaurarse en su totalidad hasta este pasado sábado, 12 días más tarde, lo cuál ha generado polémica y una gran cantidad de titulares, y ha llegado a poner sobre la mesa el debate sobre el nivel de dependencia de las empresas respecto a servicios ajenos (es decir, que no controlan) que resultan críticas para llevar a cabo sus procesos internos.

Eso por no mencionar que herramientas de Atlassian como Jira y OpsGenie son un cuasi-monopolio en el mercado del seguimiento de errores y problemas (por encima del 80% del mismo).

Ya no es sólo que muchas empresas hayan dejado de poder contar con dicho servicio durante más de una semana, es que tuvieron problemas para poder notificar a Atlassian de que no tenían acceso a Jira porque, para hacer… necesitaban crear un ticket en Jira. Desde su ahora inaccesible subdominio de cliente.

¿Hola? ¿Hay alguien ahí?

Hubo incluso quienes, ante 'el silencio de radio' expresaron en comunidades como Reddit y HackerNews sus sospechas de que todo se debía a que Atlassian había preferido centrarse, pese al problema que tenía entre manos, en su gran evento anual —Team 22—, que se llevó a cabo entre el 5 y el 7 de abril y que reúne en Las Vegas a gran parte de los responsables de la empresa.

En el subreddit /r/sysadmin, un usuario de "una gran compañía de Seattle" denunciaba que sus servicios Atlassian llevaban ya inactivos 29 horas. Je, pues no le quedaba nada.

En cualquier caso es que Atlassian pecó de lentitud a la hora de dar explicaciones (y soluciones, claro): tardaron dos días en tuitear algo relevante: que todo se debía a un problema que afectaba "a un número pequeño de sitios" y que tuvo lugar "mientras se ejecutaba un script de mantenimiento". Y apenas hubo nuevas explicaciones hasta la semana siguiente.

El día 9 decían no poder dar una fecha límite concreta debido a "la complejidad del proceso de reconstrucción […] estimamos que el esfuerzo de reconstrucción durará hasta dos semanas más". El día 14 aún permanecían sin acceso a sus herramientas el 45% de los afectados.

Una vez solventada la situación (por fortuna, en su último comunicado habían pecado de pesimistas), Atlassian dio por fin explicaciones sobre lo ocurrido en su blog corporativo:

"Queremos aclarar que este incidente no fue un ciberataque ni un fallo de escalado de nuestros sistemas. […] Tanto este incidente como nuestro tiempo de respuesta no están a la altura de nuestros estándares, y me gustaría disculparme en nombre de Atlassian".

Un resumen de lo ocurrido

Lo ocurrido se resume así: una aplicación independiente ("Insight – Asset Management") que había pasado a integrarse en varios de sus servicios online como función nativa, tenía que ser desactivada en los portales de los clientes que la tenían instalada.

Pero, a la hora de ejecutar la correspondiente secuencia de comandos, ésta se llevó a cabo en un modo de ejecución incorrecto que provocaba eliminaciones permanentes donde debería darse una mera eliminación con capacidad de recuperación

…y este error se combinó con una 'brecha de comunicación' entre equipos de Atlassian que vinculó dicho borrado a todo un servidor en lugar de a una única aplicación. La Ley de Murphy, vaya. Un desastre.

Pero, ¿cómo es posible que restaurar los datos borrados le haya supuesto tanto tiempo y esfuerzos a Atlassian, si ellos guardan copias de seguridad durante 30 días? Fácil, porque puede restaurar todos los datos de su servidor en cuestión de horas, pero si hubieran hecho esto, se habrían acabado rápidamente los problemas de las 400 empresas afectadas…

…pero todas las demás empresas a las que prestan servicio habrían perdido sus propios datos posteriores a la caída. Y Atlassian carecía de herramientas y de un procedimiento establecido para recuperar esos datos de manera individual, empresa por empresa:

"Lo que aún no hemos automatizado es la restauración de un gran subconjunto de clientes en el entorno que usamos actualmente sin afectar al resto de los clientes".

Panorama tras la tormenta

Ahora que ya está todo prácticamente solucionado (tras la restauración, algunas empresas parecen haber perdido datos de los 5 minutos previos a la caída total del sistema), es el momento en que los afectados se preguntan cómo les va a compensar Atlassian… pero resulta que, en caso de un descenso de la actividad online por debajo del 95% del tiempo, la política de la empresa establece un descuento del 50% en la próxima factura a las empresas afectadas. Y punto.

Así las cosas, los pequeños competidores de Atlassian como Linear han estado pescando en río revuelto. Y las empresas afectadas han confiado en herramientas poco sofisticadas pero fiables como Google Docs/Sheets y Microsoft Sharepoint / Office 365 para suplir las funcionalidades perdidas. ¿Animará esto a Microsoft o a Google a lanzarse a competir también en este campo?

Vía | The Scoop

Temas
Inicio