Archive for the ‘Soporte Técnico’ Category

Cortes previstos en la madrugada Domingo 21/12 al Lunes 22/12

MantenimientoEstimado cliente:

Durante la madrugada del domingo 21/12 al Lunes 22/12 vamos a ampliar nuestra infraestructura de red para mejorar la seguridad y hacer frente al incremento de tráfico que se está dando y el que prevemos a futuro.

En concreto, se incluirán dos nuevos switches Juniper de 48 bocas de 10 GB, además de aumentar el backbone interno a 40Gb y la actualización de firmware de los switches Cisco.

Habrá varios cortes de aproximadamente 5-10 minutos de duración, por bloques, y que no afectarán a todos los servidores a la vez.

Si tiene cualquier duda o necesitas más información, no dudes en escribirnos a soporte@comvive.es y no tardaremos en responderte.

Un saludo

Nuevo panel de control

Nuevo panel de control

Estimados clientes.Después de varios meses de desarrollo y pruebas nos complace anunciar el lanzamiento del nuevo Panel de Control de Hosting, totalmente rediseñado tanto en su aspecto como en su interior, incluye todas las funcionalidades de nuestro panel clásico y muchas mas que nos han sugerido muchos clientes.Como por ejemplo:

 

 

  • Panel totalmente personalizable para revendedores de hosting, incluyendo logo, información de contacto, de soporte etc, gestión completa de marca blanca.
  • Interface mejorada
  • Actualizaciones automáticas, en cuanto añadamos una funcionalidad nueva, automáticamente se añadirá a los paneles de todos los servidores.
  • Gestión de crons muy sencilla.
  • Alarmas configurables desde el panel teniendo en cuenta varios parámetros.
  • Instalación de software, WordPress, joomla y otros en proceso.
  • Traducido a varios idiomas.
  • Completo web-ftp
  • Y sobre todo es un panel de control orientado al usuario, abierto a sugerencias.
  • Y muchas funcionalidades mas

El panel se instalará en los próximos días a todos los clientes de hosting compartido, los clientes de servidores dedicados que estén interesados en instalar el nuevo panel pueden solicitarnoslo a través de soporte@comvive.es.

Comvive Servidores

www.comvive.es
Siganos en Twitter @comvive
en Facebook
y consulte nuestro blog : comviviendo para estar informado de las últimas noticias.

Mantenimiento eléctrico programado

Estimados clientes:

Hay un mantenimiento programado para los próximos días lunes 29 y martes 30 de octubre por parte del centro de datos donde tenemos los servidores.

Se trata de un mantenimiento de los sistemas de alimentación ininterrumpida (SAI), durante el tiempo que dure la intervención, los servidores estarán conectados directamente a la corriente externa, sin sistema intermedio de protección.

Tendremos un técnico en el datacenter para poder solucionar cualquier problema que se presente.

Disculpen las molestias.

Mantenimiento programado.

 

Estimados clientes.

En la madrugada del próximo jueves 25 de Enero (la noche del miércoles al jueves) a las 3 de la mañana procederemos a una intervención en nuestro datacenter para actualizar el firmware de las cabinas de discos y los nodos de servidores virtuales.

Esto causara una caída programada momentanea en el servicio de algunos clientes con hosting compartido, resellers y servidores VPS, no de servidores dedicados.

La duración de la intervención no debería ser superior a los 30 minutos.

Un saludo.

Trabajos programados de Cogent para la noche del 18 al 19 de febrero

De las 00:01 a las 08:00 del sabado 19 de febrero de 2011 (Noche del viernes al sabado) Cogent, uno de nuestros proveedores de conectividad va a hacer una serie de mejoras en su red, pudiendo ocurrir cortes de servicio en esa noche, por experiencias anteriores los cortes no deben ser mayores a unos minutos.

Rogamos disculpen las molestias.

Comvive

Recomendamos que nos sigan por twitter a través de nuestra cuenta @comvive o sigan nuestro blog Comviviendo para estar al día de las últimas noticias.

Numeros y una visión mas humana de la jornada del miércoles al jueves

Después de las explicaciones, detalles técnicos etc, quiero enseñar un poco la otra cara de esa jornada, la cara de los clientes, la cara de los trabajadores de comvive.

La tarde noche del miércoles fue de Daniel y mía (Fernando), nos hicimos cargo en un primer momento de la incidencia, y de la migración de los datos, preferíamos que el resto de compañeros estuvieran frescos al dia siguiente para atender a todos los clientes que necesitaran soporte, que serían muchos, atender al teléfono etc.

La cantidad de llamadas era enorme, el twitter ardía, yo estuve toda la noche actualizando y respondiendo al que preguntaba, la verdad que me he dado cuenta que es un medio para comunicar con los clientes bastante efectivo para unas circunstancias especiales, aparte para el día a dia.

Si hemos superado esta crisis con éxito es gracias a los compañeros que han estado aquí desde el primer momento haciendo las horas que hayan hecho falta y arrimando el hombro para lo que hiciera falta.

Quiero dar las gracias a todos Yolanda, Carmen, Paqui, Dani M, Manuel, Rafa, Miguel, Javi y Jorge, y a todos los clientes y amigos por su apoyo y gran paciencia con nosotros.

Y para terminar como curiosidad, en la primera imágen podeis ver las gráficas de número de llamadas del miércoles y jueves, sobran las palabras. La sala de reuniones estaba hasta acogedora con los colchones y los edredones la pena que no los pudimos usar mucho.

Cronología de los hechos de la incidencia del 9 al 10 de Febrero de 2011

El primer problema se detectó el miércoles 9 de febrero de 2011 a las 16:30 aproximadamente, cuando se cayeron todos los servicios de hosting compartido y servidores virtuales.

Al comprobar los registros de la cabina en nuestro sistema de logs, vemos dos discos que se habían puesto en modo fallo de forma simultanea, el 40 y el 41, y que no se estaba reconstruyendo el raid en los discos de spare (discos vacíos que están en espera por si alguno falla copiarse en ellos la información sin necesidad de esperar a que se pongan discos nuevos, primera redundancia que falló). Entonces se intentó acceder al interface web de la cabina para forzarlo manualmente descubriendo que la controladora estaba bloqueada y no había funcionado la controladora de backup que traen estos sistemas (segunda redundancia que falló).

En ese momento nos pusimos en contacto con soporte técnico de Dell, utilizando nuestro sistema de garantía Premium (IPS Mission Critical 4 Hr 7×24), es decir 24 horas al día, 7 días a la semana y un tiempo de respuesta máximo de 4 horas en piezas y técnico en el sitio.

Tras unas pruebas iniciales y el escalado del problema a técnicos de nivel superior, nos solicitaron conectar acceso remoto a servidores en la sala para revisar las conexiones por Puerto serie a las controladoras.

Su primera acción fue la de forzar a la segunda controladora que tomase el control de la cabina, recuperando el interface de administración de la cabina. Pero sin conseguir que la cabina iniciara la recuperación del raid degradado por la perdida de 2 discos.

Después de varias pruebas sin resultado Dell decide enviar unas piezas y un técnico al datacenter para intentar solucionar el problema

Aquí Dell comete dos fallos, las piezas llegan al datacenter a las 20:00 y el técnico llega a las 21:45 (desfase de casi 2 horas) y el segundo es que no llegan todas las piezas pedidas por los técnicos de USA (no sabemos la razón, creemos que por disponibilidad en Madrid). El hardware que llega es un backplane de conexión de discos y un único disco duro.

Nos comentan que por la cercanía física de los discos (el 40 y el 41) piensan que el problema puede ser de comunicación y que cuando se cambia todo vuelva a la normalidad, y se recupere el servicio. El técnico de Dell, apaga la cabina y cambia el backplane (son aproximadamente las 22:30).

A las 23:30 después de varios intentos de regenerar el raid por parte de los técnicos de Dell y que la cabina dejara de responder en varias ocasiones, los técnicos nos indican que no nos dan mucha seguridad de que puedan levantar el servicio tal y como estaba antes. Por lo que pedimos que nos dejen el raid en modo degradado (menos velocidad) para poder exportar todos los datos a servidores externos y recuperar el servicio.

Sobre las 05:00 falló un nuevo disco duro (el numero 35 lejos físicamente del 40 y 41) pero en la misma LUN, en plena migración de datos, con el aumento de lentitud en la copia de los mismos.

El último servicio se levantó sobre las 16:30 del día siguiente, jueves 10 de febrero de 2011.

Para solventar cualquier problema que pueda aparecer reservaremos durante bastante tiempo los backups de la noche anterior al suceso.

Durante el fin de semana nos llegaron mas paquetes de Dell con los discos duros adicionales, y una controladora nueva para cambiar la defectuosa.

Hoy lunes daremos luz verde a Dell para que actúen sobre la cabina para averiguar que ha sucedido y ponerla en funcionamiento, de todas formas de momento y por un período sin determinar no volverá a alojar datos críticos.

Estamos estudiando propuestas de otros fabricantes para esta solución, que nos den mas garantías, aparte de una mayor redundancia, y facilidad de conseguir repuestos.

Ha sido un día (y una noche) muy largos.

Esto viene a ser una explicación rápida de lo sucedido desde la tarde de ayer Miércoles 9 de Febrero de 2011.

A eso de las 16:30 apróximadamente nos llegaron alarmas de caida de servicio, de todos los servidores virtuales y otros hosting que están alojados en una cabina DELL Equallogic PS6500E de 48 discos de 2 Tb.

Fallaron 2 discos a la vez y la cabina inmediatamente dejó de prestar servicio, impidiendonos la entrada incluso a la administración de la cabina.

Es un hardware que no es precisamente barato y nos lo vendieron con todo tipo de garantías de seguridad, lo que al final se ha visto que no ha sido así.

Desde las 16:30 hasta las 23:00 aproximadamente estuvimos al teléfono con varios ingenieros de Dell en combinación con nuestro técnico y otro ingeniero de Dell en el datacenter haciendo varias pruebas hasta las 11 de la noche en el momento que dijimos basta y empezamos a copiarlo todo a servidores externos, y en eso estamos todavía, algo escasos de maquinas, y otras que llevan varias horas, pero es la manera mas rápida de recuperarlo todo.

Vamos levantando servidores según vamos pudiendo, pero es un proceso lento.

Lamentamos muchísimo todo lo que está pasando, en los próximos días daremos mas detalles.

Recomendamos que nos sigan por twitter en nuestra cuenta @comvive

Funcionamiento de la aplicación de soporte

En Comvive, para llevar el control y organización de las peticiones de soporte utilizamos una aplicación de tickets llamada Kayako. Esta aplicación es totalmente transparente al usuario, es decir, no importa cómo se envíe el ticket:

La primera vez que se usa la aplicación por email, automáticamente se envía en el correo de respuesta un usuario y contraseña para consultar los tickets a través de la web.

Aconsejamos seguir una serie de normas de buen uso de la aplicación:

  • No usar tickets ya abiertos para temas nuevos.
    • Al responder a un correo enviado desde la aplicación de soporte, se añaden nuevos datos al ticket ya existente, dificultando después la consulta y gestión del mismo al tener que buscarlo en tickets que aparentemente tratan otros temas.
  • Al  crear un ticket nuevo, es importante siempre indicar el nombre de dominio o servidor y una descripción detallada del problema o tarea a realizar.
    • Cuantos más datos tengamos desde un primer momento, menos tardaremos en resolver la incidencia. No deis por supuesto que todos sabemos lo que hay que hacer porque se haya hecho antes! 😉
  • No enviar el email a soporte con copia al correo del técnico.
    • Esta aplicación notifica a todos los técnicos que se ha abierto una incidencia nueva, por lo que si lo hacéis así nos llegará por duplicado. Somos un equipo, y lo que ha empezado una persona puede terminarla otra.
  • Además, todos los tickets llevan un identificador único, que se puede ver en el asunto del correo que se recibe automáticamente al enviar un email a soporte; éste es del tipo WQP-745564, recomendamos usarlo para cualquier consulta.

Siguiendo estas reglas básicas de uso de nuestra aplicación de gestión de tickets nos ayudaréis a que nuestro trabajo diario sea más eficiente, optimizando el servicio al cliente.