Portada » El blog de Comvive » El Blog de Comvive » Datacenter » Informe Incidencia 14 de Noviembre 2.017

Informe Incidencia 14 de Noviembre 2.017

Informe de caída de servicio – 14 de Noviembre de 2017

Descripción de la incidencia.

14/11/2017 19:07:03 – Caída del enlace de fibra óptica que tenemos con Orange. Inmediatamente abrimos incidencia con ellos y nos escalan al máximo nivel debido a que somos clientes de “Grandes Cuentas”.

14/11/2017 19:45:00 – Nos informan que es una incidencia a nivel físico porque que se han roto las fibras que unen Andalucía con Madrid y nos indican que están buscando la avería y que son muchos los clientes afectados.

14/11/2017 21:00:00 – Encuentran la avería. El corte ya está localizado a unos

20 Km de distancia de Sevilla. Nos indican que ya han enviado un equipo para solucionarlo.

14/11/2017 23:00:00 – Seguimos sin noticias, nos repiten que el equipo está trabajando y que no darán nuevas noticias hasta que esté todo solucionado.

15/11/2017 01:00:00 – No tienen noticias nuevas, añaden que por la noche las averías suelen tardar un poco más debido a la falta de luz.

15/11/2017 02:56:00 – Solucionada la incidencia, se recupera el servicio y todos los servidores empiezan a responder. Nos ponemos a revisar todos los servicios para asegurarnos que todo quede funcionando correctamente.

Tiempo de caída: 7 horas y 49 minutos.

Descripción detallada del problema y solución.

La línea contratada con Orange tiene 2 servicios, el de L2 y el de L3. En el servicio de L3 tenemos redundancia con otros proveedores de tránsito en Sevilla y en Madrid, por lo que en ese sentido no se ve afectado. Pero el de L2 no tiene redundancia.

El servicio de L2 se usa únicamente para que un servidor que antes estaba en nuestro datacenter de Madrid y ahora se migra a Sevilla no tuviera que cambiar las ips, ni dns y el cambio fuera transparente para el cliente, para minimizar las molestias de la migración.

Los rangos afectados por esto eran:

195.78.228.0/22

91.192.108.0/22

93.93.64.0/24

93.93.67.0/24

93.93.68.0/22

5.145.168.0/22

5.145.172.0/23

En todos estos rangos, la puerta de enlace del servidor se encontraba en Madrid, pero el servidor físico estaba en Sevilla, por lo que para la salida / entrada del tráfico se usa la L2, al caer la L2 esas máquinas dejaban de verse en internet al no poder contactar los servidores con su puerta de enlace por defecto.

Preguntas y Respuestas.

¿Por qué no había redundancia en la Línea afectada?

Este servicio, L2, se usa únicamente para la tarea que se ha descrito antes, teniendo solamente utilidad hasta que se migren todos los servidores a Sevilla (actualmente están el 85% de los servidores). Después dejará de tener sentido y funcionará únicamente como L3.

¿Pero se ha caído 2 veces en 15 días, no se ha aprendido nada?

Los dos cortes que han sucedido ha sido en localizaciones diferentes, el del 30 de Octubre estaba localizado en una Central de Madrid. El del 14 de Noviembre se detectó a 20 Km de Sevilla. Estos tipos de cortes son muy poco frecuentes, ya que son cables que van enterrados o por las líneas de alta tensión, o por la vía del AVE.

Por esta misma razón, cuando se produce un corte la reparación es larga y difícil. Primero hay que localizar el punto de corte, cortar en la arqueta anterior y posterior del cable, hacer una tirada nueva y volver a fusionar todas las fibras en cada extremo. Estas mangueras de interconexiones suelen ser de 192 fibras, aunque no se usen todas, no es sencillo fusionar cada una de esas 192 fibras sin cometer errores. Hablamos de cables que tienen el grosor de un pelo.

La causa específica del corte no la podremos conocer hasta que Orange nos envíe su informe (Tardan un mínimo de 7 días laborables)

¿Por qué mi web no se veía pero la de otros clientes en Sevilla sí?

El router de Sevilla ya anunciaba rangos de IP nuevas que no necesitaban pasar por Madrid, por lo que esas IP eran visibles en internet y no se veían afectados por la caída de la línea de Orange.

¿Qué hago para que la IP de mi servidor que está en Sevilla no necesite la L2 de Orange?

Ya no hace falta cambiar nada, porque los rangos afectados ya se anuncian en Sevilla. Durante la interrupción de anoche se llevó a cabo esta tarea en paralelo a la solución del cable físico por lo que no necesitan de la L2 de Orange para verse en internet.

¿Mi servidor está en Madrid, me afectaría una nueva caída?

Los servidores de Madrid que tengan esos rangos los estamos migrando todos a Sevilla, para que no se reproduzca el problema. Si no se pueden migrar se les asignará direcciones IP de un rango que se anuncie en Madrid, por lo que no dependen de la L2 para tener conectividad.

¿Durante la caída escribía correos pero no recibía respuesta, como puedo contactar con vosotros?

Debido al volumen de peticiones recibidas durante la incidencia tardamos bastante en responder a todos esos emails, estamos hablando de cerca de 1000 tickets en menos de 1 hora, e incluso es posible que los correos no nos llegasen debido a que no hubiera comunicación entre nuestro servidor de correo y el de algunos clientes (de hecho cuando se restableció el servicio recibimos muchos mensajes pendientes), en estas situaciones siempre damos información actualizada en nuestro twitter @comvive te recomendamos que nos sigas. Siempre somos transparentes.

También te aconsejamos que des de alta en nuestro sistema una cuenta de correo alternativa ajena al servicio (como por ejemplo @gmail.com) para emergencias, ya que más de un cliente nos ha pedido que le informemos por email.

Solución definitiva.

¿Que se ha hecho para que no vuelva a pasar?.

Como la gran mayoría de servidores ya se encuentran en Sevilla, hemos dejado de anunciar esos rangos en los routers de Madrid y se anuncian en los routers de Sevilla. Si volviera a caer la L2 las máquinas que se verían afectadas serían las máquinas que quedan en Madrid que es el 15% del total de Comvive que ahora hacen el sentido contrario, de Madrid van a Sevilla para salir a Internet.

Desde la caída del 30 de octubre se comenzaron las gestiones para evitar una nueva incidencia en caso de caída de la L2, y nos pusimos a trabajar inmediatamente en 2 opciones distintas.

1.- Una segunda línea L2, por un camino distinto a la de Orange, esta solución tiene unos trámites burocráticos relativamente largos. Estamos en conversaciones con otro de nuestros operadores para que nos den tiempos específicos de alta.

2.- Un túnel virtual a través de una de las líneas L3 que ya tenemos instaladas, depende únicamente de nosotros, el inconveniente es que se trabaja sobre líneas en producción, no podemos cambiar nada sin estudiar perfectamente y en detalle cada paso, ya que un error produciría una nueva caída en la red.

Los plazos para la puesta en marcha de ambas soluciones son elevados, debido a lo detallado anteriormente, por eso se ha producido esta segunda incidencia, ya que han sido 2 cortes en muy poco tiempo, algo bastante improbable pero que lamentablemente hemos sufrido.

Día a día trabajamos sin descanso para darte el mejor servicio posible, confiamos en que este problema no vuelva a producirse, y esperamos que lo sucedido no merme tu confianza en nosotros.

Gracias por tu paciencia

Si te ha gustado, compártelo
× ¿Cómo puedo ayudarte?