Cronología de los hechos de la incidencia del 9 al 10 de Febrero de 2011

El primer problema se detectó el miércoles 9 de febrero de 2011 a las 16:30 aproximadamente, cuando se cayeron todos los servicios de hosting compartido y servidores virtuales.

Al comprobar los registros de la cabina en nuestro sistema de logs, vemos dos discos que se habían puesto en modo fallo de forma simultanea, el 40 y el 41, y que no se estaba reconstruyendo el raid en los discos de spare (discos vacíos que están en espera por si alguno falla copiarse en ellos la información sin necesidad de esperar a que se pongan discos nuevos, primera redundancia que falló). Entonces se intentó acceder al interface web de la cabina para forzarlo manualmente descubriendo que la controladora estaba bloqueada y no había funcionado la controladora de backup que traen estos sistemas (segunda redundancia que falló).

En ese momento nos pusimos en contacto con soporte técnico de Dell, utilizando nuestro sistema de garantía Premium (IPS Mission Critical 4 Hr 7×24), es decir 24 horas al día, 7 días a la semana y un tiempo de respuesta máximo de 4 horas en piezas y técnico en el sitio.

Tras unas pruebas iniciales y el escalado del problema a técnicos de nivel superior, nos solicitaron conectar acceso remoto a servidores en la sala para revisar las conexiones por Puerto serie a las controladoras.

Su primera acción fue la de forzar a la segunda controladora que tomase el control de la cabina, recuperando el interface de administración de la cabina. Pero sin conseguir que la cabina iniciara la recuperación del raid degradado por la perdida de 2 discos.

Después de varias pruebas sin resultado Dell decide enviar unas piezas y un técnico al datacenter para intentar solucionar el problema

Aquí Dell comete dos fallos, las piezas llegan al datacenter a las 20:00 y el técnico llega a las 21:45 (desfase de casi 2 horas) y el segundo es que no llegan todas las piezas pedidas por los técnicos de USA (no sabemos la razón, creemos que por disponibilidad en Madrid). El hardware que llega es un backplane de conexión de discos y un único disco duro.

Nos comentan que por la cercanía física de los discos (el 40 y el 41) piensan que el problema puede ser de comunicación y que cuando se cambia todo vuelva a la normalidad, y se recupere el servicio. El técnico de Dell, apaga la cabina y cambia el backplane (son aproximadamente las 22:30).

A las 23:30 después de varios intentos de regenerar el raid por parte de los técnicos de Dell y que la cabina dejara de responder en varias ocasiones, los técnicos nos indican que no nos dan mucha seguridad de que puedan levantar el servicio tal y como estaba antes. Por lo que pedimos que nos dejen el raid en modo degradado (menos velocidad) para poder exportar todos los datos a servidores externos y recuperar el servicio.

Sobre las 05:00 falló un nuevo disco duro (el numero 35 lejos físicamente del 40 y 41) pero en la misma LUN, en plena migración de datos, con el aumento de lentitud en la copia de los mismos.

El último servicio se levantó sobre las 16:30 del día siguiente, jueves 10 de febrero de 2011.

Para solventar cualquier problema que pueda aparecer reservaremos durante bastante tiempo los backups de la noche anterior al suceso.

Durante el fin de semana nos llegaron mas paquetes de Dell con los discos duros adicionales, y una controladora nueva para cambiar la defectuosa.

Hoy lunes daremos luz verde a Dell para que actúen sobre la cabina para averiguar que ha sucedido y ponerla en funcionamiento, de todas formas de momento y por un período sin determinar no volverá a alojar datos críticos.

Estamos estudiando propuestas de otros fabricantes para esta solución, que nos den mas garantías, aparte de una mayor redundancia, y facilidad de conseguir repuestos.

8 Responses to “Cronología de los hechos de la incidencia del 9 al 10 de Febrero de 2011”

  1. Que pechá de currar que os habréis dado. Me alegro que todo haya salido bien. ¡¡¡Y felicidades por vuestro magnífico servicio!!!

  2. Vaya marronazo. Después del fallo del tercer disco a las 5:00, yo creo que podíais haberos cargado al técnico alegando defensa propia 😛

  3. Ya lo habíamos mandado para casa 🙂 Pero esa noche en la oficina dani y yo nos acordamos de mas de uno.

  4. Chicos me he enterado hace relativamente poco del suceso.. vaya faena, uno nunca piensa que todos los medios que uno pone puedan fallar, pero habeis demostrado que hasta los doblemente redundado puede fallar, sin explicación aparente.

    Espero que en Dell se busquen una buena compensación…

  5. Parece mentira que un sistema que vale un pico y teóricamente de los más seguros, por 2 discos de 48 se vaya todo al garete, y lo peor de todo que los técnicos que lo han desarrollado no tengan ni idea del porqué, además de no tener todo el material de repuesto en caso de avería cuando tenéis contratado ese servicio. Si hace falta cambiarla entera pues que la cambien que para eso lo cobran y no suelen ser baratos precisamente en esto.

  6. Pues yo creo que Dell tendría que asumir algún tipo de compensación y no solo a Comvive, sino a todos los dominios que cayeron durante tanto tiempo.

    Yo estuve esa noche casi sin dormir, esperando o teniendo la fe de que al poco rato pudiera acceder a mi correo electrónico (estaba esperando un email importante) y nada, pasaron las 12, 1, 2, 3, las 4 etc etc etc y al final me fuía a dormir.

    Que comvive nos compense con 2 meses de host me parece correcto pero ¿y la reclamación a Dell?

  7. Enhorabuena por vuestro trabajo, yo tengo un dedicado y no se afectó, y desde que lo tengo con vosotros desde hace varios años, NUNCA he tenido problemas. Cada vez estoy más contento con comvive, máxime cuando se ven estas cosas y la profesionalidad de todo un gran equipo.

    Y de dell, bueno yo estoy hasta las narices por no decir otra cosa, mejor cambiar de tema, el tiempo que me han hecho perder en estos años, tanto que me cambiaron 2 veces de equipo!!!!!!!

  8. Yo tuve un problema algo parecido en referencia a rotura fisica de disco. En un raid 0, un disco tuvo una falla de cabezal de lectura escritura y la unica posibilidad que tuve para recuperar los datos, fue llevando el raid 0 a un laboratorio llamado Onretrieval. Es un dato que menciono por si alguien precisa solucionar un problema similar.

    Saludos.

Leave a Reply