O planejamento para desastres é um assunto fácil de esquecer para um administrador de sistemas — não é prazeroso e parece que sempre há algo mais urgente a fazer. No entanto, deixar o planejamento para desastres escapar é uma das piores coisas que o administrador de sistemas pode fazer.
Apesar dos desastres mais dramáticos (tais como incêndio, enchente ou tempestade) serem os primeiros a virem à tona, os problemas mais comuns (como peões de obra cortarem cabos ou até mesmo uma pia transbordada) também podem ser motivos de interrupção. Sendo assim, a definição de desastre que um administrador de sistemas deve ter em mente é qualquer evento não planejado que interrompe a operação normal da empresa.
Apesar de ser possível listar todos os tipos diferentes de desastres que podem acontecer, esta seção examina os principais fatores que fazem parte de cada tipo de desastre, para que cada possível exposição seja examinada como um fator que pode levar a um desastre, e não em termos de sua probabilidade.
Em geral, há quatro fatores diferentes que podem acarretar num desastre. Estes fatores são:
Falhas de hardware
Falhas de software
Falhas de ambiente
Erros humanos
As falhas de hardware são fáceis de entender — o hardware falha e o trabalho sofre uma parada. O que é mais difícil de entender é a natureza das falhas e como minimizar sua exposição a elas. Aqui estão algumas táticas que você pode usar:
Simplisticamente, a exposição a falhas de hardware pode ser reduzida ao guardar hardware reserva. Obviamente, esta tática assume duas coisas:
Alguém dentro do escritório tem as habilidades necessárias para diagnosticar o problema, identificar o hardware falho e substituí-lo.
É possível substituir o hardware falho.
Estas questões estão detalhadas nas próximas seções.
Dependendo de sua experiência e do hardware envolvido, ter as habilidades necessárias pode não ser um problema. No entanto, se você nunca trabalhou com hardware antes, pode pensar em pesquisar cursos introdutórios sobre reparos em PCs. Apesar de cursos deste tipo não serem insuficientes para prepará-lo para resolver problemas em um servidor de nível corporativo, é uma boa maneira de aprender o básico (uso apropriado de ferramentas e componentes, procedimentos para diagnóstico básico e assim por diante).
![]() | Dica |
|---|---|
Antes de você experimentar reparar o hardware sozinho, certifique-se de que o hardware em questão:
Se você tentar reparar um componente de hardware coberto por uma garantia e/ou contrato de serviço, provavelmente estará violando os termos destes acordos e prejudicando sua cobertura contínua. |
Entretanto, mesmo com habilidades mínimas, pode ser possível diagnosticar e substituir efetivamente o hardware falho — se você escolher seu estoque de hardware de substituição apropriadamente.
Esta questão ilustra a natureza complexa de qualquer coisa relativa à recuperação de desastres. Quando considerar qual hardware estocar, aqui estão algumas questões a considerar:
Tempo Máximo Permitido Fora do Ar
A habilidade necessária para efetuar o reparo
Disponibilidade de verba para os reservas
Espaço de armazenamento necessário para os reservas
Outros componentes de hardware que poderiam utilizar os mesmos reservas
Cada uma destas questões tem um desenrolar nos tipos de reservas que devem ser estocados. Por exemplo: estocar sistemas completos tenderia a minimizar o tempo fora do ar e requerer habilidades mínimas para instalar, mas seria muito mais caro do que ter uma CPU ou módulo RAM reserva na prateleira. No entanto, essa despesa pode valer a pena se a sua empresa tem dúzias de servidores idênticos que podem beneficiar de um sistema reserva.
Independente da decisão final, a seguinte questão é inevitável e é abordada a seguir.
A pergunta sobre os níveis de estoque reserva também tem várias facetas. Aqui estão as principais questões:
Tempo Máximo Permitido Fora do Ar
Taxa projetada de falhas
Tempo estimado para reabastecer o estoque
Disponibilidade de verba para os reservas
Espaço de armazenamento necessário para os reservas
Outros componentes de hardware que poderiam utilizar os mesmos reservas
Por um lado, para um sistema que pode estar fora do ar por no máximo dois dias, e cuja peça reserva talvez seja usada uma vez por ano e pode ser reabastecida em um dia, faria sentido ter apenas uma reserva (ou talvez nenhuma, se você estiver certo de conseguir uma reserva em 24 horas).
Por outro lado, um sistema que não pode estar fora do ar por mais de alguns minutos, e uma reserva que talvez seja usada uma vez por mês (e pode levar diversas semanas para repôr) pode significar que meia dúzia de reservas (ou mais) devem estar na prateleira.
Quando uma peça reserva não é reserva? Quando é um componente de hardware utilizado no cotidiano, mas também pode ser um componente reserva para um sistema mais prioritário, se necessário. Esta tática tem alguns benefícios:
Menos dinheiro direcionado a peças reservas "não-produtivas"
Sabe-se que o hardware é operante
Há, no entanto, algumas desvantagens nesta tática:
A produção normal da tarefa de prioridade mais baixa é interrompida
Há uma expoisção caso o hardware de baixa prioridade falhe (não sobra um componente reserva para o hardware de alta prioridade)
Dadas estas questões, o uso de um outro sistema de produção como reserva pode funcionar, mas o sucesso dessa tática se desdobra na carga de trabalho específica do sistema e no impacto que a ausência do sistema tem nas operações gerais do centro de dados.
Os contratos de serviço transferem o problema de falhas no hardware para outra pessoa. Tudo o que você deve fazer é confirmar que a falha, de fato, ocorreu e que parece não ser uma causa relativa ao software. Então, você faz uma ligação telefônica e aparece alguém para resolver a situação.
Parece muito simples. Mas, como a maioria das coisas na vida, há muito mais a observar do que o que vemos à primeira vista. Aqui estão algumas questões que você deve considerar ao analisar um contrato de serviço:
Horas de cobertura
Tempo de resposta
Disponibilidade de peças
Orçamento disponível
Hardware a ser coberto
Nós exploramos cada um destes itens detalhadamente nas próximas seções.
Contratos de serviço diferentes são feitos para atender a diferentes necessidades; uma das maiores variáveis entre contratos diferentes são as horas de cobertura. A não ser que você queira pagar caro pelo privilégio, você não pode simplesmente ligar a qualquer hora e esperar que um técnico apareça rapidamente.
Ao invés disso, dependendo do seu contrato, talvez você descubra que nem pode ligar para a empresa de serviços até uma certa data/hora, ou se puder, eles não enviarão um técnico até a data/hora especificada no seu contrato.
A maioria das horas de cobertura são definidas em horas ou dias durante os quais um técnico será enviado. Algumas das horas de cobertura comuns são:
Segunda a Sexta, das 09:00 às 17:00
Segunda a Sexta, 12/18/24 horas por dia (com horas de início e fim concordadas entre as partes)
Segunda a Sábado (ou Segunda a Domingo), mesmo horário mencionado acima
Como é de se esperar, o custo de um contrato aumenta com as horas de cobertura. Em geral, extender a cobertura de Segunda a Sexta tende a custar menos que adicionar cobertura aos Sábados e Domingos.
Mas aqui também é possível reduzir custos se você quiser executar algum trabalho.
Se a sua situação não requer nada mais que a disponibilidade de um técnico durante o horário comercial convencional e você tem experiência suficiente para poder determinar o que está quebrado, você pode considerar o serviço de depósito. Conhecido por muitos nomes (incluindo serviço walk-in e serviço drop-off), os fabricantes talvez tenham depósitos de serviço onde os técnicos trabalham no hardware trazido pelos clientes.
O serviço de depósito tem o benefício de ser tão rápido quanto você. Você não precisa esperar que um técnico esteja disponível e apareça em sua empresa. Técnicos de depósitos não atendem ligações de clientes, o que significa que haverá alguém para trabalhar no seu hardware assim que você chegar no depósito.
Como o serviço de depósito é feito numa localidade central, há grandes chances de ter qualquer peça necessária. Isto pode eliminar a necessidade de um despacho que leva dias ou esperar que a peça seja encaminhada de um escritório para outro há centenas de quilômetros de distância.
No entanto, há algumas desvantagens. A mais óbvia é que você não pode escolher as horas de serviço — você obtém o serviço quando o depósito está aberto. Um outro aspecto é que os técnicos não trabalham depois de seu expediente, portanto se o seu sistema falhou às 16:30 de uma sexta-feira e você entregou o sistema ao depósito às 17:00, ele não será analisado até que os técnicos cheguem ao trabalho na manhã da segunda-feira seguinte.
Uma outra desvantagem é que o serviço de depósito depende da existência de um depósito próximo. Se a sua empresa está localizada na área metropolitana, este provavelmente não é um problema. Entretanto, as empresas localizadas em zonas rurais podem descobrir que o depósito fica muito longe de sua sede.
![]() | Dica |
|---|---|
Ao considerar o serviço de depósito, pare um pouco e pense na logística de trazer o hardware para o depósito. Você usará um veículo da empresa ou o seu? Se for usar o seu, ele tem o espaço e capacidade de carga necessários? E o seguro? Será necessário mais de uma pessoa para carregar e descarregar o hardware? Apesar de serem preocupações simples, elas devem ser analisadas antes de tomar a decisão de usar um serviço de depósito. |
Além das horas de cobertura, muitos contratos de serviço especificam um nível de tempo de resposta. Em outras palavras, quanto demora para o técnico chegar após ligar requisitando o serviço? Como você pode imaginar, um tempo de resposta mais rápido acarreta num acordo de serviço mais caro.
Há limites variáveis para o tempo de resposta. Por exemplo: o tempo de viagem do escritório do fabricante à sua empresa tem uma grande influência nos tempos de resposta possíveis[1]. Os tempos de resposta até quatro horas são geralmente inclusos nas ofertas mais rápidas. Os tempos de resposta mais lentos variam entre oito horas (o que efetivamente torna-se o serviço do "dia seguinte" num acordo baseado no horário comercial padrão), a 24 horas. Assim como com qualquer outro aspecto de um contrato de serviço, até mesmo estes tempos são negociáveis — pelo preço correto.
![]() | Nota |
|---|---|
Apesar de não ser uma ocorrência comum, você deve estar ciente que contratos de serviço com cláusulas de tempo de resposta podem, às vezes, estressar o departamento de serviços de uma empresa além de sua capacidade de resposta. Não se sabe de nenhuma empresa de serviços ocupada que tenha enviado alguém — ninguém — numa chamada de serviço com tempo de resposta curto somente para cumprir seu comprometimento com o tempo de resposta. Esta pessoa aparentemente diagnostica o problema, ligando para o "escritório" para que alguém traga a "peça correta." De fato, eles estão apenas esperando chegar alguém que seja capaz de atender à chamada. Apesar de ser compreensível observar isto sob curcunstâncias extraordinárias (tais como problemas de energia que tenham afetado diversos sistemas em sua área de serviço), se este for um método de operação constante, você deve contatar o gerente de serviços e pedir uma explicação. |
Se a necessidade de seu tempo de resposta for restrita (e seu orçamento for adequadamente grande), há uma tática que pode reduzir ainda mais seu tempo de resposta — para zero.
Dada a situação apropriada (você é um dos maiores clientes na área), necessidades suficientes (qualquer tempo fora do ar é inaceitável) e recursos financeiros (se você precisa perguntar o preço, provavelmente não pode pagar), você pode precisar de um técnico interno por tempo integral. Os benefícios de ter um técnico sempre presente são óbvios:
Resposta instantânea a qualquer problema
Uma tática mais pró-ativa para a manutenção do sistema
Como esperado, esta opção pode ser muito cara, especialmente se você requer um técnico interno 24 horas por dia, 7 dias por semana. Mas, se esta tática é apropriada para sua empresa, você deve ter alguns pontos em mente para tirar o máximo proveito.
Primeiramente, técnicos internos precisam de muitos dos recursos dos funcionários regulares, como uma mesa de trabalho, telefone, cartões e/ou chaves de acesso apropriados e assim por diante.
Os técnicos internos não são muito úteis se não tiverem as peças apropriadas. Sendo assim, certifique-se de ter um armazenamento seguro à parte para as peças do técnico. Além disso, assegure que o técnico mantenha um estoque das peças apropriado para a sua configuração e que estas peças não sejam "canibalizadas" rotineiramente por outros técnicos.
Obviamente, a disponibilidade das peças tem um papel fundamental na limitação das falhas de hardware da sua empresa. No contexto de um contrato de serviço, a disponibilidade das peças toma outra dimensão, já que aplica-se não somente à sua empresa, mas a todos os outros clientes que também possam precisar destas peças no território do fabricante. Uma empresa, que tenha comprado mais hardware do fabricante que você, pode receber tratamento preferencial no momento de obter peças (e técnicos, por este motivo).
Infelizmente, há pouco a fazer nestas circunstâncias, além de tentar resolver o problema com o gerente de serviços.
Conforme esplanado anteriormente, os contratos de serviço variam de preço de acordo com a natureza dos serviços oferecidos. Tenha em mente que os custos associados ao contrato de serviço são despesas recorrentes; você deve negociar um novo contrato e pagar novamente cada vez que o contrato estiver prestes a expirar.
Esta é uma área na qual você pode manter custos mínimos. Considere por um momento que você negociou um contrato de serviço que inclua um técnico interno 24x7, peças reservas na empresa — você decide. Cada componente de hardware que você comprou desta empresa é coberto, incluindo o PC que a recepcionista utiliza para executar tarefas do cotidiano.
Este PC precisa realmente ter alguém interno 24x7? Mesmo que o PC seja vital para o trabalho da recepcionista, ela só trabalha das 9:00 às 17:00. É muito improvável que:
O PC esteja em uso das 17:00 às 9:00 da manhã seguinte (sem falar nos finais de semana)
Uma falha deste PC seja notada, exceto entre 9:00 e 17:00.
Sendo assim, pagar pela possibilidade deste PC precisar de serviços num sábado à noite é um desperdício de dinheiro.
A melhor coisa a fazer é dividir o contrato de serviços de maneira que o hardware não crítico seja agrupado separadamente do hardware mais crítico. Desta maneira, os custos podem ser mantidos o mais baixos possível.
![]() | Nota |
|---|---|
Se você tem vinte servidores configurados identicamente que são críticos para sua empresa, você pode ter um contrato de serviços de alto nível escrito para somente um ou dois, com o resto coberto por um contrato bem mais barato. Então, seguindo este raciocínio, independente de qual servidor falhar num final de semana, você dirá que é aquele com serviço de alto nível. Não faça isso. Não é apenas desonesto, mas a maioria dos fabricantes mantém registro destas coisas usando os números de série. Mesmo se você descobrir uma maneira de burlar estas verificações, gastará bem mais depois que for descoberto do que se for honesto e pagar pelo serviço que realmente precisa. |
Falhas de software podem resultar em tempos fora do ar mais longos. Por exemplo: os proprietários de uma determinada marca computadores notável por suas características de alta disponibilidade recentemente passaram por isso. Um erro (bug) no código de time handling do sistema operacional do computador resultou na queda dos sistemas de cada um dos clientes numa determinada hora num certo dia. Apesar desta situação ser o exemplo mais espetacular de uma falha de software, outras falhas relativas ao software podem ser menos dramáticas, mas tão devastadoras quanto.
As falhas de software podem ocorrer em uma destas duas áreas:
Sistema operacional
Aplicações
Cada tipo de falha tem seus próprios impactos e é explorada detalhadamente nas seções seguintes.
Neste tipo de falha, o sistema operacional é responsável pelo rompimento do serviço. As falhas no sistema operacional vêm de duas áreas:
Quedas
Pendências
A principal coisa a ter em mente sobre as falhas no sistema operacional é que elas removem tudo que o computador estava rodando no momento da falha. Sendo assim, as falhas no sistema operacional podem ser devastadoras para a produção.
As quedas ocorrem quando o sistema operacional passa por uma condição de erro do qual não pode se recuperar. As razões de quedas podem variar da inabilidade de resolver um problema básico de hardware a um erro (bug) no código do kernel comprometendo o sistema operacional. Quando um sistema operacional cai, o sistema deve ser reinicializado para poder continuar a produção.
Quando o sistema operacional para de executar os eventos do sistema, o sistema leva a uma parada. Isto é conhecido como pendência. As pendências podem ser causadas por deadlocks (dois consumidores de recursos competindo por recursos que um outro possui) e livelocks (dois ou mais processos respondendo às atividades do outro, mas sem executar nenhum trabalho útil), mas o resultado final é o mesmo — uma falta de produtividade total.
Ao contrário das falhas no sistema operacional, as falhas nas aplicações podem ser mais limitadas no escopo de seu estrago. Uma única aplicação falha, dependendo da aplicação, pode impactar somente uma pessoa. Por outro lado, se for uma aplicação de servidor servindo uma gama de aplicações clientes, as consequências de uma falha podem ser mais alastradas.
As falhas nas aplicações, assim como as do sistema operacional, podem acarretar em pendências e quedas; a única diferença é que aqui é a aplicação que está pendente ou caindo.
Assim como os fabricantes de hardware oferecem suporte para seus produtos, muitos fabricantes de software disponibilizam pacotes de suporte para seus clientes. Exceto pelas diferenças óbvias (não é necessário hardware reserva e a maior parte do trabalho pode ser feito pelo pessoal do suporte através do telefone), os contratos de suporte a software podem ser bem parecidos aos de suporte a hardware.
O nível de suporte oferecido por um fabricante de software pode variar. Aqui estão algumas das estratégias de suporte mais comuns aplicadas hoje:
Documentação
Auto-suporte
Suporte via Internet ou e-mail
Suporte telefônico
Suporte na empresa (on-site)
Cada tipo de suporte é descrito mais detalhadamente nas seções seguintes.
Apesar de frequentemente negligenciada, a documentação do software pode servir como uma ferramenta de suporte de primeiro nível. Sendo online ou impressa, a documentação geralmente contém as informações necessárias para resolver muitas questões.
O auto-suporte baseia-se no cliente usar recursos online para resolver suas próprias questões relativas a software. Frequentemente, estes recursos tomam a forma de FAQs (Perguntas e Respostas Frequentes) na Internet ou bases de conhecimento (knowledge bases).
Os FAQs geralmente têm pouca ou nenhuma capacidade de seleção, o que faz com que o cliente tenha que rolar de questão em questão na esperança de achar uma que atenda ao seu problema. As bases de conhecimento tendem a ser mais sofisticadas de certa maneira, permitindo a inserção de termos de procura. As bases de conhecimento também podem ser bastante extensas, tornando-as uma boa ferramenta para a solução de problemas.
Muitas vezes, o que parece ser um site de auto-suporte também inclui formulários baseados na Internet ou endereços de e-mail que possibilitam enviar perguntas ao pessoal do suporte. Apesar de, à primeira vista, isto parecer uma melhoria de um bom site de auto-suporte, realmente depende das pessoas respondendo os e-mails.
Se o pessoal do suporte está sobrecarregado, é difícil obter as informações necessárias através deles, já que sua preocupação principal é responder rapidamente cada e-mail e seguir para o próximo. A razão disso é que praticamente todos os funcionários de suporte são avaliados pelo número de problemas que resolvem. É difícil explicitar a intensidade das questões, pois há pouco a ser feito num e-mail para estimular respostas rápidas e úteis — especialmente quando a pessoa lendo seu e-mail está apressada para seguir ao próximo e-mail.
A maneira de obter o melhor serviço é garantir que seu e-mail aborde todas as questões que um técnico de suporte possa perguntar, tais como:
Descreva claramente a natureza do problema
Inclua todos os números de versões pertinentes
Descreva o que você já fez para tentar resolver o problema (aplicou os últimos consertos, reinicializou a máquina na configuração mínima, etc.)
Ao oferecer mais informações ao técnico de suporte, você tem mais chances de obter o suporte que necessita.
Como o nome implica, o suporte telefônico significa conversar com um técnico de suporte via telefone. Este estilo de suporte é mais parecido com o suporte a hardware; pode haver diversos níveis de suporte disponíveis (com horas de cobertura e tempos de resposta diferentes, etc.).
Também conhecido como consultoria on-site, o suporte on-site ao software normalmente é reservado para resolver as questões específicas ou efetuar mudanças críticas, como instalação e configuração do software inicial, grandes atualizações e assim por diante. Como esperado, este é o tipo mais caro de suporte ao software disponível.
Mesmo assim, há situações em que o suporte na empresa (on-site) faz sentido. Como exemplo, considere uma empresa pequena com somente um administrador de sistemas. A empresa empregará seu primeiro servidor de banco de dados, mas a aplicação (e a empresa) não é grande o suficiente para justificar a contratação de um administrador de banco de dados dedicado. Nesta situação, pode ser mais barato trazer um especialista do fabricante de banco de dados para efetuar a aplicação inicial (e, talvez mais adiante, conforme a necessidade surgir) e então treinar o administrador de sistemas para uma técnica que será usada raramente.
Mesmo que o hardware esteja rodando perfeitamente, que o software esteja configurado corretamente e funcionando como deveria, os problemas ainda podem ocorrer. Os problemas mais comuns que ocorrem fora do próprio sistema têm relação com o ambiente físico no qual o sistema reside.
As questões ambientais podem ser divididas em quatro categorias principais:
Integridade da construção
Eletricidade
Ar condicionado
Clima e o mundo externo
Para uma estrutura aparentemente simples, uma construção desempenha diversas funções. Oferece proteção dos elementos. Oferece o micro-clima adequado para o conteúdo do prédio. Tem mecanismos para oferecer energia e para proteger contra incêndios, roubos e vandalismo. Desempenhando todas estas funções, não é surpreendente o que pode dar errado com um prédio. Aqui estão algumas possibilidades a considerar:
Vazamentos no telhado podem alagar centros de dados.
Diversos sistemas do prédio (como água ou sistema de ar) podem falhar, tornando o edifício inabitável.
O chão pode ter capacidade de carga insuficiente para suportar o equipamento que você pretende colocar no centro de dados.
É importante ter uma mente criativa ao pensar nas diversas maneiras que um edifício pode falhar. A lista acima apenas pretende que você comece a seguir esta linha de raciocínio.
Como a eletricidade é o que move qualquer sistema de computador, as questões relacionadas à energia são primordiais para a mente dos administradores de sistemas em todo lugar. Há diversos aspectos diferentes da energia, que são abordados em detalhes nas seções seguintes.
Primeiramente, é necessário determinar o quão seguro seu abastecimento de energia deve ser. Assim como em quase todos os outros centros de dados, você obtém sua energia de uma empresa local através de linhas transmissoras de energia. Por causa disso, há limites no que você pode fazer para garantir que seu abastecimento principal de energia seja o mais seguro possível.
![]() | Dica |
|---|---|
As empresas localizadas próximas aos limites de uma companhia energética talvez possam negociar as conexões em duas seções de energia:
Os custos envolvidos em usar linhas de energia pela companhia energética vizinha são grandes, tornando esta opção viável somente para empresas grandes. No entanto, estas empresas descobrem que a redundância obtida compensa os custos em muitos casos. |
As principais coisas a verificar são os métodos através dos quais a energia é trazida até a sede de sua empresa e para dentro do edifício. As linhas de transmissão estão acima ou abaixo do solo? Linhas acima do solo são suscetíveis a:
Danos provocados por condições climáticas extremas (geadas, ventos, relâmpagos)
Acidentes de trânsito que danificam os postes e/ou transformadores
Animais que vagueiam nos lugares indevidos e provocam curto-circuitos nas linhas
Por outro lado, as linhas abaixo do solo têm suas próprias desvantagens:
Danos provocados por construtores escavando em lugares indevidos
Enchente
Relâmpago (apesar de menos perigoso para linhas acima do solo)
Continue seguindo as linhas de energia para dentro de seu edifício. Elas passam primeiro por um transformador externo? Este transformador está protegido dos carros ou árvores que possam cair? Todos os interruptores expostos estão protegidos contra o uso não autorizado?
Uma vez dentro do edifício, as linhas de energia (ou os painéis aos quais estão ligadas) podem ter outros problemas? Por exemplo: um problema de encanamento pode inundar o quadro elétrico?
Continue seguindo a energia para dentro do centro de dados. Há algo mais que possa interromper o suprimento de energia inesperadamente? Por exemplo: o centro de dados divide um ou mais circuitos com cargas que não pertençam a este? Se assim for, a carga externa pode, um dia, passar pela proteção de sobrecarga do circuito, 'derrubando' também o centro de dados.
Não é suficiente garantir que a fonte de energia do centro de dados seja o mais segura possível. Você também deve preocupar-se com a qualidade da energia sendo distribuída pelo centro de dados. Há diversos fatores que devem ser considerados:
A voltagem da energia de entrada deve ser estável, sem reduções de voltagem (frequentemente chamadas de quedas, abatimentos ou brownouts) ou aumentos de voltagem (geralmente conhecidos como picos e surges).
O formato da onda deve ser limpo, com THD (Distorção Harmônica Total) mínima.
A frequência deve ser estável (a maioria dos países utiliza a frequência de 50Hz ou 60Hz).
A energia não pode incluir nenhum ruído RFI (Interferência na Frequência de Rádio) ou EMI (Interferência Eletro-Magnética).
A energia deve ser suprida a uma taxa de corrente suficiente para rodar o centro de dados.
A energia suprida diretamente pela companhia energética geralmente não atende aos padrões necessários para um centro de dados. Sendo assim, é preciso algum nível de condicionamento da energia. Há diversas táticas possíveis:
Protetores contra picos de energia fazem exatamente o que o nome implica — eles filtram os picos do suprimento de energia. A maioria não faz mais nada, deixando o equipamento vulnerável aos danos de outros problemas relativos à energia.
Os condicionadores de energia tentam uma tática mais detalhada. Dependendo da sofisticação da unidade, os condicionadores de energia frequentemente podem resolver a maioria dos problemas citados acima.
Um gerador é basicamente um grande motor elétrico movido pelo seu suprimento de energia normal. O motor é ligado a uma grande hélice, que por sua vez é ligada a um gerador. O motor roda a hélice e o gerador, que gera eletricidade suficiente para rodar o centro de dados. Desta maneira, a energia do centro de dados é isolada eletricamente da energia externa, eliminando a maioria dos problemas relativos à energia. A hélice também oferece a habilidade de manter a energia durante a falta de eletricidade, já que leva vários segundos para a hélice reduzir sua velocidade até o ponto no qual não pode mais gerar energia.
Alguns Suprimentos de Energia Ininterruptos (mais comumente conhecidos como UPSs) incluem a maioria (se não todas) das funções de proteção de um condicionador de energia[2].
Com as duas tecnologias listadas acima, nós iniciamos o tópico no qual a maioria das pessoas pensa ao falar sobre energia — energia backup. Na próxima seção, exploraremos táticas diferentes para prover energia backup.
Há um termo relativo à energia no qual quase todos já ouviram falar — blackout. Um blackout é a perda total da energia elétrica e pode durar de uma fração de segundo a semanas.
Como a duração do blackout pode variar drasticamente, é necessário utilizar a tática de prover energia backup usando tecnologias diferentes para faltas de energia de durações diferentes.
![]() | Dica |
|---|---|
Os blackouts mais frequentes duram, em média, alguns segundos; faltas de energia mais longas são menos frequentes. Sendo assim, concentre primeiro em proteger seus sistemas contra blackouts de alguns segundos de duração, e então trabalhe nos métodos para reduzir sua exposição à faltas mais longas. |
Já que a maioria das faltas de energia duram somente alguns segundos, sua solução de energia backup deve ter duas características principais:
Tempo bem curto para trocar para energia backup (conhecido como tempo de transferência)
Um tempo de execução (o tempo que a energia backup durará) medido de segundos a minutos
As soluções de energia backup que atendem a estas características são os geradores e UPSs. A hélice do gerador permite que este continue produzindo eletricidade por tempo suficiente para faltas de energia de aproximadamente um segundo. Os geradores tendem a ser bem grandes e caros, o que os torna práticos para empresas de médio e grande porte.
Entretanto, uma outra tecnologia — chamada UPS — pode servir para situações nas quais o gerador é muito caro. O UPS também pode lidar com faltas de energia mais longas.
Os UPSs podem ser adquiridos em diversos tamanhos — suficientemente pequeno para rodar um PC por cinco minutos ou suficientemente grande para prover energia para um centro de dados inteiro por uma hora ou mais.
Os UPSs são compostos das seguintes partes:
Um interruptor de transferência para mudar da fonte de energia principal para a fonte de energia backup
Uma bateria, para prover energia backup
Um conversor, que converte a corrente DC da bateria em corrente AC necessária para o hardware do centro de dados
Além do tamanho e capacidade da bateria da unidade, os UPSs têm dois tipos básicos:
O UPS offline usa seu conversor para gerar energia somente quando o suprimento de energia principal falhar.
O UPS online usa seu conversor para gerar energia o tempo todo, provendo energia para seu conversor através de sua bateria somente quando o suprimento de energia principal falhar.
Cada tipo tem suas vantagens e desvantagens. O UPS offline geralmente é mais barato, porque o conversor não precisa ser construído para operação em tempo integral. No entanto, um problema no conversor de um UPS offline passará desapercebido (ou seja, até a próxima falta de energia).
Os UPSs online tendem a ser melhores em prover energia limpa para o seu centro de dados; afinal de contas, um UPS online basicamente gera energia o tempo todo para você.
Independente do tipo de UPS que você escolher, é necessário dimensioná-lo corretamente para sua carga antecipada (assim garantindo que o UPS tenha capacidade suficiente para produzir eletricidade na voltagem e corrente necessárias) e você deve determinar durante quanto tempo deseja ter a habilidade de rodar seu centro de dados com a energia da bateria.
Para determinar esta informação, você deve primeiramente identificar as cargas que serão servidas pelo UPS. Verifique em cada componente do equipamento o montante de energia que gasta (isto é normalmente especificado numa etiqueta próximo ao cabo de energia). Anote a voltagem, watts e/ou amps. Quando você tiver estes dados para todos os componentes de hardware, deve convertê-los para VA (Volt-Amps). Se você tiver um número de watts, pode usá-lo como o VA; se tiver amps, multiplique-o por volts para obter o VA. Ao adicionar os valores VA, é possível obter a taxa VA aproximada necessária para o UPS.
![]() | Nota |
|---|---|
Na verdade, esta tática para calcular o VA não está totalmente correta; no entanto, para obter o VA verdadeiro é necessário saber o fator de energia de cada unidade, e esta informação é raramente provida. Em todo caso, os números VA obtidos com esta tática refletem os valores nas piores situações, deixando uma grande margem de erro para segurança. |
Determinar o tempo de execução é uma questão mais de negócios que técnica — contra quais tipos de queda você deseja se proteger e quanto pretende gastar para tanto? A maioria das empresas seleciona tempos de execução menores que uma ou duas horas no máximo, pois a energia backup provida pela bateria torna-se muito cara além deste ponto.
Quando atingirmos as quedas de energia medidas em dias, as opções tornam-se ainda mais caras. As tecnologias com capacidade de lidar com quedas de energia de longo prazo são limitadas a geradores movidos por algum tipo de motor — principalmente, a diesel e turbina a gás.
![]() | Nota |
|---|---|
Tenha em mente que os geradores movidos a motores requerem o reabastecimento constante enquanto estão ligados. Você deve saber qual é a taxa de "consumo" de combustível do seu gerador na capacidade máxima e coordenar a entrega apropriada de combustível. |
Neste ponto, você tem um grande leque de opções, assumindo que sua empresa tenha o orçamento necessário. Esta também é uma área na qual os peritos devem ajudá-lo a determinar a melhor solução para a empresa. Somente alguns administradores de sistemas tem o conhecimento especializado necessário para planejar a aquisição e aplicação destes tipos de sistemas de geração de energia.
![]() | Dica |
|---|---|
Geradores portáteis de todos os tamanhos podem ser alugados, possibilitando ter os benefícios da energia do gerador sem a despesa inicial para adquirir um. No entanto, tenha em mente que nos desastres que afetam sua vizinhança em geral, os geradores poderão estar em falta para alugar e muito caros. |
Enquanto um blackout de cinco minutos é algo mais do que um inconveniente para os funcionários num escritório escuro, o que ocorre com uma queda de uma hora? E de cinco horas? Um dia? Uma semana?
De fato, mesmo se o centro de dados estiver operando normalmente, uma queda de energia extensa poderá afetar sua empresa em algum momento. Considere os seguintes pontos:
E se não houver energia para manter o controle ambiental no centro de dados?
E se não houver energia para manter o controle ambiental no edifício inteiro?
E se não houver energia para operar estações de trabalho, sistema de telefonia e/ou luzes?
A questão é determinar até que ponto uma queda deve ser tolerada em sua empresa. Ou, se esta não for uma opção, sua empresa deve considerar operar completamente independente da energia dentro da empresa por períodos extensos, o que significa que geradores muito grandes serão necessários para prover energia para o edifício inteiro.
Obviamente, mesmo esse nível de planejamento não pode ser feito do nada. É muito provável que o que causou a queda extensa também está afetando o mundo externo à sua empresa, e que o mundo externo começará a afetar a habilidade da sua empresa em continuar operando, mesmo que tenha capacidade ilimitada de geração de energia.
Os sistemas de Aquecimento, Ventilação e Ar Condicionado (Heating, Ventilation, and Air Conditioning - HVAC) usados nos edifícios hoje em dia são incrivelmente sofisticados. Geralmente controlado por computadores, o sistema HVAC é vital para prover um ambiente de trabalho confortável.
Os centros de dados geralmente possuem equipamento próprio de refrigeração, principalmente para remover o calor gerado pelos diversos computadores e outros equipamentos. As falhas no sistema HVAC podem ser devastadoras para a operação contínua de um centro de dados. Dada sua complexidade e natureza eletro-mecânica, as possibilidades de falha são muitas e variadas. Aqui estão alguns exemplos:
As unidades de refrigeração (basicamente ventiladores grandes movidos por grandes motores elétricos) podem falhar devido a sobrecarga elétrica, falha no rolamento, falha na correia/roldana, etc.
As unidades de refrigeração (frequentemente chamadas de chillers) podem perder sua refrigeração devido a vazamentos, ou a problemas em seus motores e/ou compressores.
O reparo e a manutenção do sistema HVAC são áreas muito especializadas — áreas que um administrador de sistemas deve deixar para os peritos. De qualquer maneira, um administrador de sistemas deve garantir que o equipamento HVAC do centro de dados seja verificado diariamente (ou com mais frequência) e seja mantido de acordo com as intruções do fabricante.
Há alguns fatores climáticos que podem causar problemas ao administrador de sistemas:
Muita neve e gelo podem impedir que funcionários cheguem ao centro de dados, e podem inclusive entupir os condensadores do ar condicionado, resultando em temperaturas elevadas no centro de dados exatamente quando ninguém consegue chegar até lá para tomar as devidas providências.
Ventos fortes podem interromper a energia e as comunicações; ventos muito fortes podem, na realidade, danificar o próprio edifício.
Há outros fatores climáticos que podem causar problemas. Por exemplo: temperaturas excessivamente altas podem resultar em sistemas de refrigeração sobrecarregados, 'brownouts' ou blackouts, conforme o consumo de energia fica sobrecarregado.
Apesar de não haver muito a fazer sobre os fatores climáticos, saber como eles podem afetar as operações de seu centro de dados pode ajudá-lo a mantê-lo em funcionamento mesmo quando o clima estiver muito ruim.
Já foi dito que os computadores realmente são perfeitos. A razão dessa afirmação é, que se você investigar a fundo, descobrirá um erro humano por trás de todo erro do computador. Nesta seção, exploramos os tipos de erros humanos mais comuns e seus impactos.
Os usuários de um computador podem cometer erros com sérios impactos. No entanto, devido seu ambiente operacional normalmente desprivilegiado, os erros de usuários tendem a ser localizados. Como a maioria dos usuários interage com um computador exclusivamente através de uma ou mais aplicações, é dentro das aplicações que a maioria dos erros de usuários finais ocorre.
Quando as aplicações são usadas impropriamente, vários problemas podem ocorrer:
Arquivos sobrescritos inadvertidamente
Dados errados usados como input numa aplicação
Arquivos nomeados e organizados de maneira confusa
Arquivos apagados acidentalmente
Poderíamos continuar esta lista, mas isso é suficiente para ilustrar a questão. Devido o fato de usuários não terem privilégios de super-usuário, os erros cometidos por eles geralmente limitam-se aos seus próprios arquivos. Sendo assim, a malhor tática é bifurcada:
Educar os usuários no uso apropriado de suas aplicações e técnicas de administração de arquivos
Garantir que os backups dos arquivos dos usuários sejam feitos regularmente e que o processo de restauração seja o mais simples e rápido possível
Além disso, há pouco a fazer para limitar os erros dos usuários.
Os operadores tem uma relação mais profunda com os computadores da empresa que os usuários finais. Enquanto os usuários finais tendem a se basear nas aplicações, os operadores tendem a executar um leque de tarefas mais abrangente. Mesmo que a natureza das tarefas tenha sido ditada por outras pessoas, algumas das tarefas podem incluir o uso de utilitários a nível do sistema, onde é maior o potencial de grandes danos por causa de erros. Consequentemente, os tipos de erros que podem ser cometidos por um operador baseiam-se na sua habilidade em seguir os procedimentos desenvolvidos para este uso.
Os operadores devem ter conjuntos de procedimentos documentados e disponíveis para praticamente todas as ações que executam [3]. Pode acontecer de um operador não seguir os procedimentos conforme são apresentados. Podem haver diversas razões para isso:
O ambiente foi alterado em algum momento do passado e os procedimentos não foram atualizados. Agora o ambiente mudou novamente, tornando inválidos os procedimentos memorizados pelo operador. Neste ponto, mesmo que os procedimentos tenham sido atualizados (o que é improvável, já que não foram atualizados anteriormente), o operador não estará ciente disso.
O ambiente foi alterado e não há procedimentos. Esta é uma situação ainda mais fora de controle que a anterior.
Os procedimentos existem e estão corretos, mas o operador não os seguirá (ou não poderá seguí-los).
Dependendo da estrutura gerencial de sua empresa, talvez você não possa fazer nada além de comunicar suas preocupações ao gerente apropriado. Em todo caso, a melhor tática é colocar-se à disposição para fazer o que puder para resolver o problema.
Mesmo se o operador seguir os procedimentos, e mesmo que os procedimentos estejam corretos, ainda é possível que erros ocorram. Se isto acontecer, existe a possibilidade do operador ter sido displicente (neste caso a gerência do operador deve ser envolvida).
Uma outra explicação é que foi apenas um erro. Nestes casos, os melhores operadores percebem que algo está errado e procuram por ajuda. É bom sempre encorajar os operadores com quem você trabalha a contatar as pessoas apropriadas imediatamente, se suspeitarem que algo está errado. Apesar de alguns operadores serem altamente qualificados e capazes de resolverem muitos problemas sozinhos, o fato é que este não é o trabalho deles. A boa vontade do operador pode piorar o problema, prejudicar a carreira dele e também a sua habilidade em resolver rapidamente o que, originalmente, talvez fosse um pequeno problema.
Ao contrário dos operadores, os administradores de sistemas executam uma grande variedade de tarefas usando os computadores de uma empresa, e estas tarefas frequentemente não são baseadas em procedimentos documentados.
Consequentemente, os administradores de sistemas algumas vezes executam trabalho desnecessário quando não tomam cuidado com o que fazem. No curso de suas responsabilidades do dia-a-dia, os administradores de sistemas têm suficiente acesso aos sistemas (sem mencionar seus privilégios de super-usuário) para derrubá-los por engano.
Os administradores de sistemas cometem erros de má configuração ou erros durante a manutenção.
Os administradores de sistemas frequentemente precisam configurar vários aspectos de um sistema. Esta configuração pode incluir:
Contas de usuários
Rede
Aplicações
A lista poderia continuar. A tarefa de configurar em si varia enormemente; algumas requerem editar um arquivo texto (usando qualquer uma das centenas de sintaxes diferentes do arquivo de configuração), enquanto outras tarefas requerem executar um utilitário de configuração.
O fato de estas tarefas serem feitas de maneiras diferentes é simplesmente um desafio adicional ao fato de cada tarefa de configuração requerer um conhecimento diferente. Por exemplo: o conhecimento necessário para configurar um agente de transportte de correio (mail transport agent) é fundamentalmente diferente de configurar uma nova conexão de rede.
Sendo assim, talvez seja surpreendente que apenas alguns erros sejam cometidos. De qualquer maneira, a configuração é, e continuará sendo, um desafio para administradores de sistemas. Há algo a fazer para tornar o processo menos suscetível a erros?
Um aspecto comum de toda configuração é que sempre há alterações. Independente de ser uma pequena ou grande alteração, deve ser tratada de maneira específica.
Muitas empresas implementam algum tipo de processo de controle de alterações. A intenção é auxiliar administradores de sistemas (e todas as partes afetadas pela alteração) a gerenciar o processo de alteração e reduzir a exposição da empresa a erros que possam ocorrer.
Um processo de controle de alterações geralmente divide a alteração em dois passos. Aqui está um exemplo:
Tentativas de pesquisa preliminar para definir claramente:
A natureza da alteração a ocorrer
Seu impacto, caso a alteração realmente ocorra
Uma posição de resguarda, se a alteração falhar
Uma avaliação dos possíveis tipos de falha
A pesquisa preliminar pode incluir testes da alteração proposta durante um tempo fora do ar agendado, ou pode incluir a implementação da alteração primeiramente num ambiente de teste especial executado em hardware de teste.
A alteração é examinada tendo em mente a mecânica da implementação. O agendamento inclui apontar a sequência e o tempo da alteração (juntamente a sequências e tempos de quaisquer passos necessários para retornar ao estado original caso ocorra algum problema), e também garantir que o tempo alocado para a alteração é suficiente e não conflitante com nenhuma outra atividade no nível do sistema.
O produto deste processo é frequentemente uma lista de passos para o administrador de sistemas usar enquanto executa a alteração. Juntamente a cada um dos passos, incluimos as instruções para retornar ao estado original, caso a alteração falhar. Os tempos estimados também são inclusos, facilitando ao administrador de sistemas determinar se o trabalho está dentro do prazo ou não.
Neste ponto, a execução dos passos necessários para implementar a alteração deve ser simples e anti-climática. A alteração é então implementada ou, se houver problemas, abortada.
Independente da alteração ser implementada ou não, o ambiente é monitorado para garantir que tudo está sendo operado devidamente.
Se a alteração foi implementada, toda a documentação existente deve ser atualizada para refletir a configuração alterada.
Obviamente, nem todas as alterações requerem este nível de detalhe. Criar uma nova conta de usuário não deve requerer nenhuma pesquisa preliminar e o agendamento deve consistir em determinar se o administrador de sistemas tem um tempinho para criar a conta. A execução também deve ser rápida; o monitoramento deve se restringir a garantir que a conta é utilizável e a documentação provavelmente seria enviar um e-mail ao gerente do novo usuário.
Mas, conforme as alterações de configuração tornam-se mais complexas, é necessário ter um processo de controle de alterações mais formal.
Este tipo de erro pode ser maléfico porque geralmente há muito pouco planejamento e registro feitos durante a manutenção diária.
Os administradores de sistemas vêem diariamente os resultados deste tipo de erro, especialmente cometidos por muitos usuários que juram não alterarem nada — o computador simplesmente quebrou. O usuário que diz isso geralmente não lembra o que fez, e quando o mesmo acontece com você, provavelmente você também não lembrará.
A principal questão é que você deve ser capaz de lembrar das alterações efetuadas durante a manutenção, se for capaz de resolver qualquer problema rapidamente. Um processo de controle completo não é adequado para as centenas de coisas pequenas feitas ao longo do dia. O que pode ser feito para manter o registro das 1001 coisas pequenas que um administrador de sistemas faz todos os dias?
A resposta é simples — tome nota. Independentemente de ser anotado num caderno, num PDA ou como comentários nos arquivos afetados, anote! Ao registrar o que você fez, tem maiores chances de relacionar uma falha a uma alteração recentemente efetuada.
Às vezes, as pessoas que supostamente te ajudariam a manter seus sistemas rodando confiavelmente, podem tornar as coisas piores. Isto não se deve a nenhuma conspiração; simplesmente qualquer um trabalhando em alguma espécie de tecnologia tem o risco de tornar esta tecnologia inoperante. O mesmo efeito pode ocorrer no ambiente de trabalho, quando os programadores consertam um bug e acabam criando outro.
Neste caso, o técnico falhou em diagnosticar o problema corretamente e efetuou um conserto desnecessário (e inútil), ou o diagnóstico estava correto, mas o conserto não foi efetuado apropriadamente. Pode ser que a peça substituída estava com defeito, ou que o procedimento apropriado não foi seguido durante o conserto.
Por isso é importante estar ciente do que os técnicos estão fazendo todo o tempo. Ao fazer isso, você pode estar atento a falhas que parecem estar relacionadas ao problema original de alguma maneira. Isto mantém o registro do técnico caso haja algum problema; caso contrário há uma chance do técnico ver esta falha como nova e não relacionada àquela supostamente consertada. Desta maneira, não perde-se tempo verificando o problema errado.
Às vezes, mesmo que o problema seja diagnosticado e consertado com sucesso, aparece outro problema para tomar seu lugar. O módulo da CPU foi substituído, mas o saco anti-estático no qual ele estava embrulhado foi deixado dentro do cabinete, bloqueando o ventilador e causando um desligamento por causa da temperatura elevada. Ou então o drive falho do disco no conjunto RAID foi substituído, mas como um conector em outro drive foi esbarrado e acidentalmente desconectado, o conjunto ainda está com problemas.
Não importa se estas coisas são resultado de descuido crônico ou simplesmente um erro honesto. Você deve sempre rever cuidadosamente os consertos feitos pelo técnico e garantir que o sistema esteja funcionando corretamente antes que o técnico vá embora.
| [1] | E isto provavelmente seria o tempo de resposta na melhor das hipóteses, já que os técnicos geralmente são responsáveis por territórios que abrangem longas distâncias em todas as direções. Se você está numa extremidade do território e o único técnico disponível está na outra extremidade, o tempo de resposta será ainda mais longo. |
| [2] | A tecnologia UPS é abordada em mais detalhes na Seção 8.1.3.2.3.2. |
| [3] | Se os operadores de sua empresa não possuem um conjunto de procedimentos operacionais, trabalhe com eles, com a gerência e com seu usuários para criá-los. Sem eles, um centro de dados está fora de controle e propenso a ter problemas sérios no dia-a-dia das operações. |