
Primero habría que comprender sobre el Sistema Redundante, algunos conceptos:
1ro Comprendamos el significado de la palabra ”SISTEMA”: (Extraído del diccionario)
Conjunto de cosas que relacionadas entre sí ordenadamente contribuyen a determinado objeto.
2do Comprendamos qué significa, “Utilidad de la simulación en los preparativos y respuesta. (Simulacro)”.
La simulación permite evaluar sistemas o procesos de trabajo con sus instrumentos operativos, procedimientos y formatos, así como capacitar o ejercitar la toma de decisiones y la coordinación.
El proceso de evaluación de los resultados debe ayudar a identificar las áreas críticas de gestión y los aspectos que deben ser reforzados.
3ro Comprendamos el significado de Sistema redundante.
Sistema redundante
Los sistemas redundantes, en ingeniería de computadoras, son aquellos en los que se repiten aquellos datos o hardware de carácter crítico que se quiere asegurar ante los posibles fallos que puedan surgir por su uso continuado.
Se presenta como una solución a los problemas de protección y confiabilidad. Este tipo de sistemas se encarga de realizar el mismo proceso en más de una locación, ya que si por algún motivo alguna dejara de funcionar o colapsara, inmediatamente otro tendría que ocupar su lugar y realizar las tareas del anterior.
Las técnicas de redundancia han sido usadas por la industria militar y aero espacial por muchos años para alcanzar una alta confiabilidad. Una base de datos replicada es un ejemplo de sistema distribuido de manera redundante.
En aviones de pasajeros actuales como los fabricados por Airbus o Embraer los sistemas de computación a bordo tienen mayor poder de decisión para conducir la aeronave que el mismo piloto. Para descartar una posible falla se colocaron dos sistemas informáticos redundantes que garantizan la continuidad del control de la aeronave con mucho menor probabilidad de fallas que un error del piloto.
4to Ahora comprendamos el sistema monitoreo.com® basándonos en las explicaciones anteriores.
El sistema monitoreo.com® está compuesto por dos grupos de servidores llamados uno Principal al que se accede por https://sistema.monitoreo.com.ar y otro Respaldo accesible por https://respaldo.monitoreo.com.ar/ .
Cada uno de estos grupos están formados clusters instalados en dos Datacenters profesionales diferentes e independientes distanciados 714 Kilómetros uno del otro.
Cada subsistema es redundante en si mismo, está compuesto por servidores que son un conjunto de clustres, se trata de servidores rackeables marca IBM.
En estos clusters de distribuyen la carga de procesamiento y duplican los datos de almacenamiento y cada una de esas máquinas fue construida para su uso intensivo diseñada para trabajar las 24 horas los 365 días del año.
Varios clusters dentro del mismo grupo de servidores sirven como reemplazos unos de otros, esto permite hacer mantenimiento en línea e incluso poder apagar un cluster sin interrumpir el servicio del grupo.
Los Datacenters son los lugares más seguros para alojar servidores, cuentan con instalaciones muy costosas con equipos de aire acondicionado para uso industrial, bancos de UPS que cuestan cientos de miles de dólares, grupos electrógenos redundantes seguridad en todos los sentidos y como en estos lugares se alojan los ISP (Internet Server Providers) y las principales páginas que brindan servicios por Internet, Bancos, Facebook, Mercado Libre, etc. quienes utilizan un alto tráfico de datos requerido por miles de usuarios simultáneos transformando a los datacenters que alojan sus servidores en los principales nodos de internet.
Allí confluyen los cables de fibra óptica, y enlaces inalámbricos con la mayor capacidad de transporte que existe, con vínculos y enlaces redundantes de múltiples prestadores.
Los Datacenters profesionales cumplen con las normas TIA942, BS25999, ISO 27001, 27002, ITIL, COBIT, ITSM son los lugares más seguros donde el servicio de Internet no se cae prácticamente nunca.
Por lo anterior cuando decimos que: “El sistema monitoreo.com® está en Internet”, la afirmacíon es literalmente exacta.
Dijimos que el sistema monitoreo.com® esta compuesto por dos grupos de servidores que los llamamos Principal y Respaldo.
Estos son redundantes e independientes aunque comparten las bases de datos (replicadas)
MIENTRAS ALGUNO DE LOS DOS FUNCIONE EL SISTEMA FUNCIONA.
De lo anterior concluimos que el riesgo de que alguno de los grupos deje de brindar servicio tiene una probabilidad muy baja, por lo que ambos Datacenters interrumpieran el servicio simultáneamente sería una contingencia con una probabilidad de ocurrencia extremadamente baja, prácticamente cero.
PROCEDIMIENTO
Tanto en un simulacro como en una emergencia real , sus operadores deben saber que cuando no pueden loguearse al sistema principal ( https://sistema.monitoreo.
- No cierre su navegador, abra uno nuevo y con él loguéese en https://respaldo.monitoreo.
com.ar/ (grupo de servidores de respaldo) - Genere eventos con su equipo para pruebas, verificando que RESPALDO funciona permitiendo operar normalmente. Si hay algo que no comprende en ese momento, tome nota para investigarlo después. Mida el tiempo de respuesta y si este fuera excesivo infórmelo después.
- La emergencia (real o simulacro) finaliza cuando los servidores principales vuelven a dar servicio.
La función de operaciones no puede ser compartida entre PRINCIPAL y RESPALDO, en situación normal está asignada PRINCIPAL y solo cuando PRINCIPAL no funciona RESPALDO es quien opera, cuando se reestablece el funcionamiento de PRINCIPAL retorna a su función el módulo operaciones y RESPALDO deja de hacerlo, por lo tanto el operador deberá volver a loguearse en https://sistema.monitoreo.com.ar/ para seguir operando. - Antes de salir del sistema de RESPALDO, el supervisor debe pasar a “MODO NORMAL”.
En condiciones normales los servidores de RESPALDO pueden ser utilizados sin problema para realizar consultas por “EDICIÓN de DATOS” , pero no ingresarán ni saltarán eventos en pantalla para operar mientras el sistema Principal funcione.
Ambas partes, PRINCIPAL y RESPALDO comparten las mismas tablas de bases de datos con lo que las modificaciones realizadas en los datos de un sistema impactan, aunque no de manera instantánea, en el otro. - Una vez finalizado el simulacro, informe completando el formulario que está al final de esta página aquellos eventos que reportando vía línea telefónica demoraron mas de 30 segundos y de los que vía IP o GPRS demoraron mas de 10 segundos, no copie imágenes de pantallas, solo informe: IDm@ (número de abonado), evento, tiempo de demora en segundos.
Resumen:
- Ante emergencia ingresar y loguearse en Respaldo.
- En Respaldo sólo se puede acceder a operaciones cuando la emergencia fué declarada.
- Si está operando un evento en Principal al momento de pasar a Respaldo, deberá continuar la operación de ese evento desde Data- Entry utilizando Respaldo.
- Por el contrario, si está operando un evento en Respaldo al momento de finalizar la emergencia, debe completar ese evento en Respaldo ya que el mismo evento no volverá a saltar en Principal.
- No hay inconvenientes en estar logueado en ambos a la vez, pero los eventos solo saltan en Principal.
- Cuando el acceso a Principal se restablezca, automáticamente no saltarán más eventos en Respaldo.
- Informe; solo las anomalías (demora superior a 30 segundos para reporte telefónico y de mas de 10 segundos para IP o GPRS).
Detalles:
- Durante la emergencia no se pueden poner eventos en test.
- El operador se dá cuenta que está en emergencia cuando Principal no funciona y no es por un problema de conexión a Internet ya que se puede navegar otras páginas como www.monitoreo.com, google y otras.
- Ante esta posibilidad lo importante es pasar rápidamente a operar en Respaldo.
- Intente cada 5′ regresar a operar en Principal, si puede ingresar, termine de operar en Respaldo el evento, si es que tuviera alguno.
- Una vez que haya completado todos los eventos en respaldo, haga click en “salir de operaciones”
- La conmutación de Principal a Respaldo y viceversa solamente la realiza quien ocupa el rol de supervisor general.
Decir que monitoreo.com® tiene el sistema más seguro que existe no es una frase de marketing sino la pura verdad.