8.3. Recuperación de desastres

Como experimento, la próxima vez que esté en su centro de datos, mire a su alrededor e imagine por un momento que no hay nada. Y no solamente los computadores. Imagínese que el edificio completo ya no existe. Luego, imagine que su trabajo es recuperar la mayor cantidad de trabajo realizado posible en el centro de datos, lo más pronto posible. ¿Qué haría?

Al pensar desde esta perspectiva, usted está dando su primer paso hacia la recuperación de desastres. La recuperación de desastres es la habilidad de recuperarse de un evento que impacta el funcionamiento del centro de datos de su organización lo más rápido y completo posible. El tipo de desastre puede variar, pero el objetivo final es siempre el mismo.

Los pasos relacionados con la recuperación a partir de un desastre son numerosos y con un rango bien amplio. A continuación se muestra una descripción general a un nivel alto del proceso, junto con los puntos claves a tener en mente.

8.3.1. Creación, Evaluación e Implementación de un Plan de Recuperación de Desastres

Un sitio de respaldo es vital, sin embargo es inútil sin un plan de recuperación de desastres. Un plan de recuperación de desastres indica cada faceta del proceso de recuperación, incluyendo (pero no limitado) a:

Los planes de recuperación de desastres a menudo llenan mútiples carpetas de hojas sueltas. Este nivel de detalle es vital porque en el evento de una emergencia, el plan quizás sea lo único que quede de su centro de datos anterior (además de los otros sitios de respaldo, por supuesto) para ayudarlo a reconstruir y restaurar las operaciones.

SugerenciaSugerencia
 

Mientras que los planes de recuperación de desastres deberían de estar a la mano en su sitio de trabajo, también se deberían conservar copias fuera de sus instalaciones. De esta forma, si un desastre destruye sus instalaciones no se eliminaran todas las copias de su plan de recuperación. Un buen lugar para almacenar una copia es en su ubicación de almacenamiento de respaldos. También se pueden mantener copias del plan de recuperación de desastres en los hogares de miembros claves de equipo, siempre y cuando esto no viole las políticas de seguridad de la empresa.

Un documento de tal importancia merece una consideración bien seria (y posiblemente asistencia profesional para su creación).

Una vez que este documento es creado, el conocimiento que contiene debe ser evaluado periódicamente. Evaluar un plan de recuperación de desastres implica seguir los pasos del plan: ir al sitio de respaldo y configurar el centro de datos temporal, ejecutar las aplicaciones temporalmente y reactivar las operaciones normales después de que el "desastre" termine. La mayoría de las pruebas no tratan de llevar a cabo un 100% de las tareas del plan; en cambio, se selecciona un sistema y una aplicación representativa para reubicarlos en el sitio de respaldo, se coloca en producción por un período de tiempo y se lleva a operación normal al final de la prueba.

NotaNota
 

Aunque puede sonar como una frase gastada, un plan de recuperación de desastres debe ser un documento vivo; a medida que el centro de datos cambie, el plan debe ser actualizado para reflejar esos cambios. En muchas casos, un plan de recuperación de desastres desactualizado puede ser peor que no tener ninguno, por lo tanto, haga revisiones y actualizaciones regulares (trimestrales, por ejemplo) del plan.

8.3.2. Sitios de respaldo: frío, templado y caliente

Uno de los aspectos más importantes del plan de recuperación de desastres es tener una ubicación desde la cual este puede ser ejecutado. Esta ubicación se conoce como sitio de respaldo. En el evento de un desastre, el sitio de respaldo es donde se recreará su centro de datos y desde donde usted operará, durante el mismo.

Hay tres tipos diferentes de sitios de respaldo:

Obviamente estos términos no se refieren a la temperatura del sitio de respaldo. Se refieren en realidad al esfuerzo requerido para comenzar las operaciones en el sitio de respaldo en el evento de un desastre.

Un sitio de respaldo frío es simplemente un espacio en un edificio configurado apropiadamente. Todo lo que se necesite para restaurar el servicio a sus usuarios se debe conseguir y entregar a este sitio antes de comenzar el proceso de recuperación. Como se puede imaginar, el retraso de ir desde un sitio frío a uno en operación completa puede ser sustancial.

Los sitios de respaldo frío son los menos costosos.

Un sitio tibio ya está equipado con el hardware representando una representación fiel de lo encontrado en su centro de datos. Para restaurar el servicio, se deben despachar los últimos respaldos desde sus instalaciones de almacenamiento fuera del sitio y completar un restauración a metal pelado, antes de que pueda comenzar el trabajo real de recuperación.

Los sitios de respaldo calientes tienen una imagen espejo virtual de su centro de datos, con todos los sistemas configurados y esperando solamente por los últimos respaldos de los datos de sus usuarios desde las facilidades de almacenamiento fuera del sitio. Como se puede imaginar, un sitio de respaldo caliente se puede poner en funcionamiento completo en unas pocas horas.

Un sitio de respaldo caliente comprende el enfoque más costoso para una recuperación de desastres.

Los sitios de respaldo pueden provenir de tres fuentes diferentes:

Cada enfoque tiene sus puntos buenos y malos. Por ejemplo, haciendo un contrato con una firma de recuperación de desastres a menudo trae consigo el acceso a profesionales con la experiencia necesaria para guiar a las organizaciones a través del proceso de creación, evaluación e implementación de un plan de recuperación de desastres. Como se puede imaginar, estos servicios tienen su costo.

El uso de otras instalaciones que pertenecen y son operadas por su organización, pueden ser esencialmente una opción de costo cero, pero el surtir el sitio de respaldo y mantener su disponibilidad inmediata es una proposición costosa.

Preparar un acuerdo para compartir centros de datos con otra organización puede ser extremadamente económico, pero usualmente las operaciones a largo plazo bajo estas condiciones no son posibles, pues probablemente el centro de datos anfitrión todavia continua su producción normal, haciendo la situación incómoda en el mejor de los casos.

Por otro lado, la selección del sitio de respaldo es un acuerdo entre los costos y la necesidad de su organización por la continuación de las operaciones.

8.3.3. Disponibilidad del Hardware y Software

Su plan de recuperación de desastres debe incluir métodos para conseguir el hardware y software necesarios para las operaciones en el sitio de respaldo. Un sitio de respaldo manejado profesionalmente quizás ya tenga todo lo que usted necesita (o quizás tenga que organizar la adquisición y entrega de materiales especializados que el sitio no tiene disponibles); por otro lado, un sitio de respaldo frío implica que se tienen identificadas las fuentes para cada ítem requerido. A menudo las organizaciones trabajan directamente con los fabricantes para establecer acuerdos para la entrega inmediata de hardware y/o software en el evento de un desastre.

8.3.4. Disponibilidad de los respaldos

Cuando se declara un desastre, es necesario notificarlo a sus instalaciones de almacenamiento fuera de sitio por dos razones:

SugerenciaSugerencia
 

En el evento de un desastre, el último respaldo que se tiene de su centro de datos viejo, es de vital importancia. Considere realizar copias de este antes de hacer alguna otra cosa, y luego enviando los originales fuera del sitio lo más pronto posible.

8.3.5. Conectividad de red al sitio de respaldo

Un centro de datos no es de mucha ayuda si se encuentra desconectado del resto de la organización que está sirviendo. Dependiendo del plan de recuperación de desastres y de la naturaleza del mismo, su comunidad de usuarios puede estar ubicada a kilómetros de distancia del sitio de respaldo. En estos casos, una buena conectividad es vital para restaurar la producción.

Otro tipo de conectividad a tener en mente es la conectividad telefónica. Debe asegurarse de que existen suficientes líneas telefónicas disponibles para manejar todas las comunicaciones verbales con sus usuarios. Lo que antes podía ser un grito por encima de la pared de un cubículo ahora implica una conversación telefónica de larga distancia; por lo tanto, planee para tener más conectividad telefónica de la que pudiera parecer necesaria en un principio.

8.3.6. Personal del sitio de respaldo

El problema sobre conseguir el personal para su sitio de respaldo es multidimensional. Un aspecto del problema es determinar el personal requerido para poner a funcionar el centro de datos de respaldo por el tiempo que sea necesario. Mientras que un equipo esquelético puede mantener las cosas en funcionamiento por un corto período de tiempo, a medida que el desastre se extiende se necesitará más y más gente para continuar el esfuerzo necesario para funcionar bajo las circunstancias extraordinarias que rodean un desastre.

Esto implica asegurarse de que el personal tiene tiempo suficiente para descansar y posiblemente viajar de regreso a sus hogares. Si el desastre fuese tan extendido que afecte también los hogares y familias de la gente, se necesitará tiempo adicional para permitirles manejar su propia recuperación de desastre. Se necesita alojamiento temporal cerca del sitio de respaldo, junto con el transporte requerido para movilizar a la gente entre el sitio de respaldo y su alojamiento.

A menudo un plan de recuperación de desastres incluye que trabaje en el sitio un personal representativo de todas las partes de la comunidad de usuarios de la organización. Esto depende en la habilidad de su organización de operar con un centro de datos remoto. Si los usuarios representantes deben trabajar en el sitio de respaldo, también deben estar disponibles facilidades similares para ellos.

8.3.7. Regreso a la normalidad

Eventualmente todos los desastres terminan. El plan de recuperación de desastres debe tomar en cuenta esta fase también. El nuevo centro de datos debe ser equipado con todo el software y hardware necesario; mientras que esta fase a menudo no tiene la naturaleza crítica de las preparaciones efectuadas cuando se declaró inicialmente el desastre, los sitios de respaldo cuestan dinero cada día que son utilizados, por lo que las preocupaciones económicas dicatarán que el cambio se lleve a cabo lo más pronto posible.

Se deben hacer y entregar los últimos respaldos desde el sitio de respaldo al nuevo centro de datos. Después de almacenarlos en el nuevo hardware, se puede reactivar la producción en el nuevo centro de datos.

En este punto se puede desarmar el centro de datos de respaldo, con la sección final del plan indicando la disposición de todo el hardware temporal. Finalmente, se hace una revisión de la efectividad del plan, integrando cualquier cambio recomendado por el comité de revisión en una versión actualizada del plan.