Cronología de los hechos de la incidencia del 9 al 10 de Febrero de 2011

El primer problema se detectó el miércoles 9 de febrero de 2011 a las 16:30 aproximadamente, cuando se cayeron todos los servicios de hosting compartido y servidores virtuales.

Al comprobar los registros de la cabina en nuestro sistema de logs, vemos dos discos que se habían puesto en modo fallo de forma simultanea, el 40 y el 41, y que no se estaba reconstruyendo el raid en los discos de spare (discos vacíos que están en espera por si alguno falla copiarse en ellos la información sin necesidad de esperar a que se pongan discos nuevos, primera redundancia que falló). Entonces se intentó acceder al interface web de la cabina para forzarlo manualmente descubriendo que la controladora estaba bloqueada y no había funcionado la controladora de backup que traen estos sistemas (segunda redundancia que falló).

En ese momento nos pusimos en contacto con soporte técnico de Dell, utilizando nuestro sistema de garantía Premium (IPS Mission Critical 4 Hr 7×24), es decir 24 horas al día, 7 días a la semana y un tiempo de respuesta máximo de 4 horas en piezas y técnico en el sitio.

Tras unas pruebas iniciales y el escalado del problema a técnicos de nivel superior, nos solicitaron conectar acceso remoto a servidores en la sala para revisar las conexiones por Puerto serie a las controladoras.

Su primera acción fue la de forzar a la segunda controladora que tomase el control de la cabina, recuperando el interface de administración de la cabina. Pero sin conseguir que la cabina iniciara la recuperación del raid degradado por la perdida de 2 discos.

Después de varias pruebas sin resultado Dell decide enviar unas piezas y un técnico al datacenter para intentar solucionar el problema

Aquí Dell comete dos fallos, las piezas llegan al datacenter a las 20:00 y el técnico llega a las 21:45 (desfase de casi 2 horas) y el segundo es que no llegan todas las piezas pedidas por los técnicos de USA (no sabemos la razón, creemos que por disponibilidad en Madrid). El hardware que llega es un backplane de conexión de discos y un único disco duro.

Nos comentan que por la cercanía física de los discos (el 40 y el 41) piensan que el problema puede ser de comunicación y que cuando se cambia todo vuelva a la normalidad, y se recupere el servicio. El técnico de Dell, apaga la cabina y cambia el backplane (son aproximadamente las 22:30).

A las 23:30 después de varios intentos de regenerar el raid por parte de los técnicos de Dell y que la cabina dejara de responder en varias ocasiones, los técnicos nos indican que no nos dan mucha seguridad de que puedan levantar el servicio tal y como estaba antes. Por lo que pedimos que nos dejen el raid en modo degradado (menos velocidad) para poder exportar todos los datos a servidores externos y recuperar el servicio.

Sobre las 05:00 falló un nuevo disco duro (el numero 35 lejos físicamente del 40 y 41) pero en la misma LUN, en plena migración de datos, con el aumento de lentitud en la copia de los mismos.

El último servicio se levantó sobre las 16:30 del día siguiente, jueves 10 de febrero de 2011.

Para solventar cualquier problema que pueda aparecer reservaremos durante bastante tiempo los backups de la noche anterior al suceso.

Durante el fin de semana nos llegaron mas paquetes de Dell con los discos duros adicionales, y una controladora nueva para cambiar la defectuosa.

Hoy lunes daremos luz verde a Dell para que actúen sobre la cabina para averiguar que ha sucedido y ponerla en funcionamiento, de todas formas de momento y por un período sin determinar no volverá a alojar datos críticos.

Estamos estudiando propuestas de otros fabricantes para esta solución, que nos den mas garantías, aparte de una mayor redundancia, y facilidad de conseguir repuestos.

Entradas relacionadas

Más de 24h con la línea de Colt caída

Informe Incidencia 14 de Noviembre 2.017

Comunicado oficial sobre la incidencia de red del 8/6/2016