Ha sido un día (y una noche) muy largos.

Esto viene a ser una explicación rápida de lo sucedido desde la tarde de ayer Miércoles 9 de Febrero de 2011.

A eso de las 16:30 apróximadamente nos llegaron alarmas de caida de servicio, de todos los servidores virtuales y otros hosting que están alojados en una cabina DELL Equallogic PS6500E de 48 discos de 2 Tb.

Fallaron 2 discos a la vez y la cabina inmediatamente dejó de prestar servicio, impidiendonos la entrada incluso a la administración de la cabina.

Es un hardware que no es precisamente barato y nos lo vendieron con todo tipo de garantías de seguridad, lo que al final se ha visto que no ha sido así.

Desde las 16:30 hasta las 23:00 aproximadamente estuvimos al teléfono con varios ingenieros de Dell en combinación con nuestro técnico y otro ingeniero de Dell en el datacenter haciendo varias pruebas hasta las 11 de la noche en el momento que dijimos basta y empezamos a copiarlo todo a servidores externos, y en eso estamos todavía, algo escasos de maquinas, y otras que llevan varias horas, pero es la manera mas rápida de recuperarlo todo.

Vamos levantando servidores según vamos pudiendo, pero es un proceso lento.

Lamentamos muchísimo todo lo que está pasando, en los próximos días daremos mas detalles.

Recomendamos que nos sigan por twitter en nuestra cuenta @comvive

19 Responses to “Ha sido un día (y una noche) muy largos.”

  1. Gracias! tenemos los sites caídos desde ayer a las 16:00 y una explicación de este nivel nos ayuda a seguir confiando en vosotros. Esperamos que todo se arregle lo antes posible.

    Un saludo y ánimo de todo el equipo de http://www.camisetas.info

  2. da la casualidad que justo en la tarde del dia de ayer estaba frente a un cliente posible eh omportante para nosotros. En el momento de mostrar la web, error…luego error…. y asi hasta lo que va del dia de hoy, cada momento que pasa cuando la web esta caida es perdida de clientes y ventas, ya que tenemos un formulario de tienda on-line. Quiero saber cual sera la manera de compenzar estos errores que en mas de una ves me han llegado mail de anuncios de caida. No podemos darnos el gusto de tener la web baja ni un segundo. Espero respuestas lo antes posible al mail o que se comuniquen telefonicamente al 648631305. Damian Brithino.

  3. Acabo de llamaros hoy 10/02/2010 a las 09:45 y me han comentado que el problema estará solucionado a lo largo de la mañana. Pero puedo leer en este blog, puede ser que vaya para largo.

    Por favor, qué hay de cierto en esto?

    Gracias por la respuesta.

    Un saludo.

  4. “ayer Miercoles 9 de Febrero de 2010” -> 2011

    “rapida”, “Miercoles”, “caida”, “impidiendonos”, “telefono”, “tecnico”, “dias”, “maquinas”…..

    ¿Estamos en ForoCoches?

  5. Ahora da muy mal rollo ver el vídeo de abajo del dominó de discos duros… 🙁

  6. Me parece lamentable el episodio.
    Lo llevo sufriendo hasta el momento, casí 24 horas.

    La cabina Equalogic está mal configurada, no se pueden usar discos de 2TB con tecnología SATA, con un RAID 5. Ya sé que si empleas raid 6 pierdes dos discos, pero no se puede jugar con el servicio a los clientes. Y además, un Hot Spare.

    Item más, con discos de 2TB, el tiempo de regeneración de un Raid 5 en el caso de que uses Hot Spares es altísimo y afecta a un número mayor de máquinas virtuales. Con lo que estás muchas horas a merced de otro fallo, tienes que usar Raid 6 o Raid DP.
    No puedes permitirte el lujo de que un disco SATA (bastante más sensible a la corrupción de bits que SAS o FC) te tire abajo tus N-mil servidores.
    Insisto, la solución está mal configurada, la prueba es lo que os ha sucedido. No todo el mundo sabe de storage, está claro.

    Y esto viene a cuento de que, al final, lo pago yo, que mis clientes llevan un día echando humo.

    Juan J Palacios

  7. Para mi punto de vista tenéis un servicio técnico y post-venta muy bueno. Seguid así 😉

  8. El perjuicio es importante en nuestras dos webs importantes: camisetas.info y camisetas-baratas.com, pero habeis gestionado la crisis correctamente y con bastante transparencia.
    Saludos,
    Angel

  9. Ufff no soy cliente, más bien soy competencia. Ánimo y suerte!!!

    A los que reclaman solo decirles que si ellos lo han pasado mal estoy seguro que desde convive lo han pasado peor. He vivido situaciones similares y no puedes prever todos los posibles escenarios.

    Lo dicho, ánimo y a seguir.

  10. Para aclarar nunca se ha hablado de raid5, estaba configurada como raid 10 para un mejor rendimiento, con 2 discos de hot spare, pero el problema no es como tu dices la velocidad de regeneración del raid, si no que si se estropean dos discos simultáneos la cabina deje de dar inmediatamente servicio e indique que no hay contenido, y después de 7 horas de pruebas con dell y no llegar a ninguna parte se tomó la decision de copiar los datos.

    Aparte que durante la noche falló un tercer disco, los 3 en la misma LUN.

  11. Disculpa David, que después de 24 horas sin dormir no me fijara en los acentos ni en la fecha, ahora lo corrijo.

  12. Buen funcionamiento y buenas gestiones realizadas para la averia tan grande.
    Saludos,

  13. Desde Milqui (Madrid-Barcelona), daros las gracias por vuestra información en cada momento… y deciros que lo mejor que podeis hacer, llegados a este punto de cansancio, es que os vayais de cervecitas a la Fresquita (Calle Mateo Gago, Sevilla)…
    El sueñito será mejor después de tomarlas¡¡¡¡
    Gracias y un fuerte abrazo a todo el equipo de Comvive… Saldremos todos adelante.
    Dani y Mónica

  14. Gracias por informar de lo sucedido, esperemos que estos problemas no ocurran con tanta frecuencia.

  15. A quien se le ocurre!! Quien os ha montado la cabina?? Para tal cantidad de discos un un mismo raid la unica opcion viable es un raid10. Si quieres un raid5 con discos sata de 2tb no pongas mas de 4(3+1). Si quieres poner mas discos utiliza raid6.

    Si es un servicio critico utiliza discos sas o fc, pero claro son mas caros y mas chicos….pero mas rapidos

  16. Sergio es un Raid 10, en SAS no había opción de discos de 2TB.

  17. Mucho ánimo a todo el equipo de comvive. Son cosas que pasan, creo que todos los que tenemos que ver con esto de las tecnologías podemos contar historias mil de consecución de acontecimientos en cadena en los que solo Murphy da la explicación. Lo importante de estas “crisis” es como se gestionan, la transparencia, la buena voluntad y el esfuerzo. Nosotros es lo que buscamos en nuestros proveedores y COMVIVE ha sido un buen ejemplo de ello. Animo a todo el equipo.

Leave a Reply