¿Qué es la alta disponibilidad y la necesita mi empresa?

La alta disponibilidad (en inglés high availability, abreviado HA) es la capacidad de un sistema informático de seguir funcionando sin interrupciones aunque falle alguno de sus componentes. La idea es sencilla: si un servidor, un disco o una fuente de alimentación dejan de funcionar, otro elemento ocupa su lugar de inmediato y el servicio continúa, a menudo sin que los usuarios lleguen a notarlo. ¿La necesita tu empresa? Depende de cuánto te cueste estar parado: si una hora de caída del ERP, de la facturación o de la producción te genera pérdidas serias, probablemente sí; si toleras una interrupción puntual sin gran daño, quizá te baste con buenas copias y un plan de recuperación. A lo largo del artículo verás los conceptos clave para decidirlo con criterio.

El concepto: que el servicio nunca se pare

Cualquier infraestructura tiene puntos únicos de fallo: piezas que, si se rompen, tiran abajo todo el servicio. Un único servidor, un único disco o una única conexión a internet son ejemplos típicos. La alta disponibilidad consiste en eliminar esos puntos únicos duplicando lo importante, de forma que ningún fallo aislado deje a la empresa parada.

El objetivo no es que nunca falle nada —eso es imposible—, sino que cuando algo falle, no se note. En lugar de evitar las averías, la HA asume que ocurrirán y prepara el sistema para absorberlas sin cortar el servicio.

Redundancia: la base de todo

La pieza fundamental de la alta disponibilidad es la redundancia: tener por duplicado (o más) los elementos críticos para que, si uno cae, otro siga operando. La redundancia se aplica en varios niveles:

Hardware: fuentes de alimentación dobles, varios discos en RAID, tarjetas de red redundantes.
Servidores: más de un servidor capaz de prestar el mismo servicio.
Almacenamiento: datos replicados en más de un sistema o ubicación.
Red y energía: conexiones a internet de respaldo y sistemas de alimentación ininterrumpida (SAI).

Duplicar tiene un coste, y ahí está la clave de toda decisión de HA: se trata de proteger lo que de verdad importa, no de duplicarlo todo «por si acaso».

El clúster: varios servidores trabajando como uno

Cuando hablamos de alta disponibilidad a nivel de servidores, el mecanismo habitual es el clúster: un grupo de servidores que se coordinan para comportarse como un único sistema. Si el servidor que está atendiendo el servicio falla, otro nodo del clúster asume su trabajo automáticamente (lo que se conoce como failover o conmutación por error).

Para el usuario, idealmente, todo sigue igual: la aplicación responde, los datos están ahí y el trabajo no se interrumpe. Por detrás, sin embargo, ha ocurrido un relevo. Montar un clúster bien no es trivial: requiere diseñar la replicación de datos, las reglas de conmutación y las pruebas periódicas, y por eso conviene apoyarse en un equipo con experiencia en administración de servidores.

En una frase: la alta disponibilidad no impide que las cosas fallen; hace que, cuando fallan, tu empresa siga trabajando como si nada.

SLA y uptime: cómo se mide la disponibilidad

La disponibilidad se mide en porcentaje de tiempo que un servicio está operativo, lo que se conoce como uptime. Ese compromiso suele recogerse en un SLA (acuerdo de nivel de servicio), el documento donde un proveedor se compromete a un determinado nivel de disponibilidad. Se expresa en «nueves»:

99 %: permite, de forma orientativa, alrededor de 3,5 días de indisponibilidad al año.
99,9 % (tres nueves): algo menos de 9 horas al año.
99,99 % (cuatro nueves): en torno a 1 hora al año.
99,999 % (cinco nueves): apenas unos minutos al año.

Cada nueve adicional encarece notablemente la arquitectura, porque exige más redundancia y más complejidad. Estas cifras son aproximadas y conviene leer siempre la letra pequeña del SLA: qué cubre, qué excluye (por ejemplo, el mantenimiento planificado) y cómo se mide. Un buen sistema de monitorización y alertas te permite comprobar que el nivel real se corresponde con el comprometido.

HA, backup y DRP: no es lo mismo

Es muy frecuente confundir la alta disponibilidad con las copias de seguridad o con el plan de recuperación ante desastres. Son tres cosas distintas y complementarias:

Alta disponibilidad (HA): mantiene el servicio en marcha cuando falla un componente. Actúa en el momento, de forma automática, para que no haya corte.
Copia de seguridad (backup): guarda una copia de tus datos para poder recuperarlos si se pierden, se corrompen o los cifra un ataque. No mantiene el servicio activo: te permite volver atrás.
Plan de recuperación ante desastres (DRP): es el conjunto de procedimientos para volver a operar tras un incidente grave que afecta a todo el sistema o a la ubicación, como un incendio, una inundación o un ciberataque.

La HA evita la mayoría de los cortes cotidianos; el backup te salva los datos; el DRP cubre el escenario catastrófico. Ninguno sustituye a los demás. De hecho, un error habitual es montar un clúster carísimo y descuidar las copias: si un ransomware cifra los datos, esos datos corruptos se replican igual en todos los nodos. Por eso la alta disponibilidad debe convivir siempre con una buena estrategia de copias y de recuperación ante desastres.

¿Cuándo justifica el coste?

La alta disponibilidad no es gratis ni siempre necesaria. La pregunta correcta no es «¿quiero que nunca falle?» —todo el mundo quiere eso—, sino «¿cuánto me cuesta cada hora de parada?». Para decidirlo, ayuda valorar:

El impacto económico de una caída: ventas perdidas, producción detenida, equipos parados sin poder trabajar.
El impacto reputacional o contractual: clientes que no pueden operar contigo, penalizaciones, pérdida de confianza.
El tiempo máximo de parada tolerable: si tu negocio aguanta unas horas sin un sistema, las exigencias son muy distintas a si no aguanta ni minutos.
La criticidad de cada sistema: rara vez todo necesita el mismo nivel. Quizá el ERP y la facturación sí, pero un servidor interno de archivo no.

Lo sensato es comparar el coste de la indisponibilidad con el coste de la solución, y aplicar HA solo donde la cuenta sale a favor. Para un comercio online, una empresa de logística o una fábrica con producción continua, unas horas de parada pueden ser inasumibles. Para otras organizaciones, una arquitectura más sencilla con buenas copias es perfectamente razonable.

El papel de la nube y del asesoramiento

Los grandes proveedores de nube facilitan mucho la alta disponibilidad, porque ofrecen infraestructura redundante y opciones de HA ya preparadas. Pero no es magia automática: hay que diseñar la arquitectura, elegir el nivel de servicio adecuado, configurarlo bien y seguir manteniendo copias propias. La nube reduce el esfuerzo, no la necesidad de planificar.

Tanto en la nube como en infraestructura propia, lo determinante es un buen diseño y una implantación profesional: dimensionar la redundancia justa, definir las reglas de conmutación, probar los failover de forma periódica y vigilar el conjunto. En 3L Systems, como partner Microsoft desde 2003, ayudamos a empresas a definir qué sistemas merecen alta disponibilidad, con qué nivel y a qué coste, integrándolo con una estrategia coherente de copias y continuidad. El objetivo no es vender el clúster más caro, sino el que tu negocio realmente necesita.

Preguntas frecuentes

¿Cuál es la diferencia entre alta disponibilidad y copia de seguridad?

Son cosas distintas y complementarias. La alta disponibilidad busca que el servicio siga funcionando sin interrupción cuando falla un componente, gracias a la redundancia. La copia de seguridad busca poder recuperar tus datos cuando se pierden o corrompen. La HA mantiene el servicio en marcha; el backup te permite volver atrás. Una empresa bien protegida necesita ambas, porque ninguna sustituye a la otra.

¿Qué significa un SLA del 99,9 % de disponibilidad?

El SLA es el compromiso de disponibilidad de un servicio, expresado en porcentaje de tiempo operativo (uptime). Un 99,9 % anual equivale, de forma orientativa, a algo menos de 9 horas de indisponibilidad al año; un 99,99 % baja a alrededor de una hora. Cuantos más nueves, más exigente y costosa es la arquitectura. Conviene leer la letra pequeña: qué cubre, qué excluye y cómo se mide.

¿La alta disponibilidad es lo mismo que un plan de recuperación ante desastres?

No. La alta disponibilidad protege frente a fallos puntuales de hardware o software dentro de un mismo entorno, manteniendo el servicio activo. El plan de recuperación ante desastres (DRP) prepara la vuelta a la operación tras un incidente grave que afecta a todo el sistema o ubicación, como un incendio o un ciberataque. La HA evita la mayoría de cortes cotidianos; el DRP cubre el escenario catastrófico.

¿Mi pyme necesita alta disponibilidad?

Depende del impacto que tenga para tu negocio que un sistema esté caído. Si una hora de parada del ERP, la facturación o la producción supone pérdidas importantes o frena a todo el equipo, la HA tiene sentido. Si toleras unas horas de interrupción sin gran daño, quizá baste con buenas copias y un plan de recuperación. Lo razonable es valorar el coste de la caída frente al coste de la solución.

¿La nube ya incluye alta disponibilidad?

En parte. Los grandes proveedores de nube ofrecen infraestructura redundante y opciones de alta disponibilidad, pero no siempre están activadas por defecto ni cubren todo. Sigue siendo necesario diseñar la arquitectura, elegir el nivel de servicio adecuado y mantener copias propias. La nube facilita la HA, pero no exime de planificarla con criterio.