Los repositorios de Microsoft Linux sufren interrupciones durante un día y aún se recuperan

0
488

Esta semana, los repositorios de paquetes de Linux de Microsoft sufrieron una interrupción de horas, seguida de problemas de rendimiento que se extendieron durante un día.

Los usuarios que confiaban en el   repositorio de packages.microsoft.com para extraer distribuciones de Linux, incluidas Ubuntu, Debian, CentOS, OpenSUSE y Fedora, recibieron errores.

Los ingenieros de Microsoft han reconocido el problema y están trabajando para encontrar una solución.

Los repositorios de Linux de Microsoft caen en una interrupción

El  repositorio de packages.microsoft.com  cayó esta semana debido a una interrupción prolongada.

El especialista en Linux y Solaris, Štefan Jarina, planteó el problema por primera vez el 16 de junio, sobre la aparición de un montón de errores “404 no encontrados” al descargar archivos “.deb” del repositorio.

informe de interrupción de github microsoft
Informes iniciales de errores de lanzamiento de repositorios de Microsoft Linux ( GitHub )

El informe de Jarina fue luego confirmado por otros ingenieros que experimentaron el problema, y ​​algunos vieron mensajes “500 Internal Server Error” al intentar extraer paquetes de Debian.

El ingeniero de Microsoft, Rahul Bhandari, intervino en el mismo hilo de GitHub para confirmar:

“Nuestro equipo de infraestructura está trabajando en esto. Hay un problema con algunos de los espejos en packages.microsoft.com , por lo que, según ellos, la ETA actual para resolver este problema es en las próximas dos horas”, dijo Bhandari.

Bhandari confirmó más tarde que algunos problemas de almacenamiento eran la causa principal de estos problemas.

Mientras se investigaba el problema, varios usuarios solicitaron un “informe de respuesta a la incidencia”, sobre por qué los sitios espejo también habían fallado en esta interrupción y por qué era un problema recurrente.

“¿Habrá un informe de incidentes en respuesta a esto? Me interesaría particularmente por qué los sitios espejo no estaban disponibles o, si están disponibles, por qué hay un solo punto de falla que los afecta a todos”.

“Hemos enfrentado problemas en el pasado en los que los paquetes fallaban cuando se estaba ejecutando una implementación, pero una falla catastrófica de esta naturaleza habría afectado muchas cargas de trabajo de producción en la actualidad”.

“Los administradores de paquetes son la columna vertebral de nuestra industria y debemos poder confiar en ellos”.

“Me he visto obligado a eliminar la dependencia de los repositorios de paquetes de Microsoft en favor de los autohospedados por el momento, lo que es un mantenimiento manual innecesario que me gustaría evitar si es posible”, afirmó el ingeniero Michael Armitage.

Reposiciones, pero los usuarios experimentan un rendimiento degradado

Aunque la ETA inicial de Microsoft para resolver el problema fue de “aproximadamente dos horas”, el problema duró  más de 14 horas , y los usuarios continuaron experimentando un rendimiento degradado.

El director de ingeniería principal de Microsoft, Ravindra Bhartiya, dijo:

“Tuvimos un incidente con packages.microsoft.com que resultó en que los paquetes no estuvieran disponibles”.

“Nuestro equipo de ingeniería ha mitigado el problema y nuestros datos internos muestran una mejora en la disponibilidad”.

“Si aún tiene problemas, por favor bríndenos más información (resultado de” apt-get update | install “) y podremos investigarlo más”, dijo Bhartiya.

Pero incluso en la actualidad, en el momento de escribir este artículo, los usuarios se quejan de las lentas velocidades de descarga al recuperar paquetes de los repositorios de Microsoft:

problemas de rendimiento de repositorios de microsoft linux
Las descargas tardan mucho tiempo debido a velocidades de subida lentas  ( GitHub )

Según los informes, algunas descargas tardaron dos o tres en completarse, lo que instaba a los usuarios a investigar soluciones alternativas. Aunque parece que el rendimiento y la disponibilidad están mejorando lentamente y volviendo a la normalidad.

Las interrupciones a gran escala de sistemas críticos y CDN se han convertido en una ocurrencia común últimamente.

Curiosamente, el momento de esta interrupción coincide con la interrupción de Akamai que afectó a los principales bancos y organizaciones australianos  ayer, aunque los dos incidentes parecen no estar relacionados.