Arquitetura tolerante

Introdução

Em geral

Tolerância a falhas é a propriedade que permite que um sistema continue funcionando corretamente em caso de falha de um ou mais de seus componentes. Se o seu desempenho diminuir, a diminuição é proporcional à gravidade da falha, em comparação com um sistema ingenuamente concebido para que mesmo uma pequena falha possa causar um colapso total do sistema. A tolerância a falhas é particularmente procurada em sistemas de alta disponibilidade.

Um projeto tolerante a falhas é um sistema que é capaz de continuar operando quando qualquer componente do sistema falha.,[1] possivelmente em um nível inferior, o que é melhor do que o sistema falhar completamente. O termo é comumente usado para descrever sistemas baseados em computador projetados para continuar, em maior ou menor grau, as operações que executa, com, na melhor das hipóteses, uma redução no desempenho ou um aumento nos tempos de resposta para componentes com falha. Isso significa que o sistema não para devido a uma falha de software ou hardware. Um exemplo em outro ramo é o de um carro projetado para continuar funcionando se um de seus pneus furar.

A tolerância a falhas é apenas uma propriedade de cada máquina, podendo também caracterizar as regras segundo as quais elas interagem. Por exemplo, o protocolo TCP foi projetado para permitir comunicação bidirecional confiável em uma rede comutada por pacotes, mesmo na presença de links de comunicação imperfeitos ou sobrecarregados. Isso ocorre porque no final da comunicação podem ser esperadas perdas de pacotes, duplicação, reordenação e corrupção, de modo que essas condições não prejudicam a integridade dos dados e apenas reduzem a capacidade em uma quantidade proporcional.

A recuperação de erros em sistemas tolerantes a falhas pode ser caracterizada como forward ou backward. Quando o sistema detecta que um erro foi cometido, a recuperação “avançar” pega o estado do sistema naquele momento e o corrige, para que ele possa seguir em frente. A recuperação de "reversão" recupera o estado do sistema para algumas das versões anteriores e corretas, por exemplo, usando pontos de recuperação, e avança. A recuperação de reversão exige que as operações entre o ponto de verificação e os erros detectados possam ser inalteráveis. Alguns sistemas utilizam ambos os tipos de recuperação de erros para diferentes partes do mesmo erro.

No nível de um sistema , a tolerância a falhas pode ser alcançada antecipando condições excepcionais e criando o sistema para lidar com a situação e, geralmente, para se autoestabilizar, de modo que o sistema convirja para um estado livre de erros. Contudo, se as consequências de uma falha do sistema forem catastróficas, ou se o custo para torná-lo suficientemente fiável for muito elevado, a melhor solução poderá ser utilizar alguma forma de espelhamento. Em qualquer caso, se a consequência de uma falha do sistema for tão catastrófica, o sistema deverá ser capaz de usar o rollback para retornar ao modo de segurança. Isto é semelhante à reversão, mas pode ser uma ação humana se humanos estiverem presentes no ciclo.

Arquitetura tolerante

Introdução

Em geral

Critérios

Fornecer um design tolerante a falhas para cada componente nem sempre precisa ser uma opção. A redundância está associada a uma série de penalidades: aumento de peso, tamanho, consumo de energia, custo, bem como tempo para projetar, verificar e testar. Portanto, uma série de opções devem ser examinadas para determinar quais componentes devem ser tolerantes a falhas:[5].

• - Qual a importância do componente? Em um carro, o rádio não é crítico, então esse componente tem menos necessidade de ser tolerante a falhas.

• - Qual é a probabilidade de este componente falhar? Alguns componentes, como o eixo de transmissão de um carro, não têm probabilidade de falhar e, portanto, não precisam ser tolerantes a falhas.

• - Qual é o custo para tornar o componente tolerante a falhas? Será necessário redundância do motor do carro, por exemplo? Provavelmente é muito caro tanto financeiramente quanto em termos de peso e espaço para ser considerado uma opção.

Um exemplo de componente que passa em todos os testes do carro é o sistema de retenção de passageiros. Embora normalmente não se acredite no principal sistema de retenção de passageiros, a gravidade. No caso de um capotamento do veículo ou de forças G severas, este método primário de retenção de passageiros pode falhar. A retenção de passageiros durante um acidente deste tipo é absolutamente crítica para a sua segurança, pelo que este componente passa no primeiro teste. Acidentes que resultavam na ejeção do passageiro eram bastante comuns antes dos cintos de segurança, por isso também passa no segundo teste. O custo de um método de retenção redundante como os cintos de segurança é bastante baixo, tanto economicamente como em termos de peso e espaço, por isso passa no terceiro teste. Portanto, adicionar cintos de segurança a todos os veículos é uma ótima ideia. Outros “sistemas de retenção suplementares”, como os airbags, são mais caros e passam nos testes por uma margem menor.

Replicação

A tolerância a falhas é tratada fundamentalmente das três maneiras a seguir:

• - Replicação: fornece múltiplas instâncias idênticas no mesmo sistema ou subsistema, abordando tarefas ou solicitações de todas elas em paralelo e escolhendo o resultado correto com base em um quorum;

• - Redundância: fornecer múltiplos casos idênticos no mesmo sistema e a possibilidade de alternar para um dos casos restantes em caso de falha;

• - Diversidade: forneça múltiplas implementações diferentes da mesma especificação e use-as como sistemas duplicados para resolver bugs em uma aplicação específica.

Todas as implementações de RAID, exceto o RAID 0, são exemplos de dispositivos de armazenamento de dados tolerantes a falhas que usam redundância de dados.

Uma máquina rígida e tolerante a falhas usa elementos replicados rodando em paralelo. A qualquer momento, todas as repetições de cada elemento devem estar no mesmo estado. As mesmas entradas são fornecidas para cada réplica, sempre esperando os mesmos resultados esperados. As saídas das replicações são comparadas por meio de um circuito eleitoral. Uma máquina com duas repetições de cada elemento é chamada de redundância modular dupla (RMD). A votação em circuito só pode detectar uma discrepância e a recuperação depende de outros métodos. Uma máquina com três repetições de cada elemento é chamada de redundância modular tripla (RMT). O resultado da votação em circuito pode determinar qual replicação está em estado de erro quando uma votação de dois para um é observada. Neste caso, o resultado da votação em circuito pode resultar no resultado correto e rejeitar a versão errada. Depois disso, assume-se que o estado interno do espelho defeituoso é diferente daquele dos outros dois, e o resultado da votação do circuito pode mudar para um modo defeituoso. Este modelo pode ser aplicado a qualquer número maior de replicações.

Máquinas rígidas tolerantes a falhas são mais fáceis de tornar totalmente síncronas, com cada uma das portas de cada uma das réplicas tendo a mesma transição de estado na mesma transição de clock e os relógios das réplicas estando exatamente em fase. Contudo, é possível construir sistemas que preguem sem esta exigência.

A reprodução em sincronia requer que os estados salvos internos sejam iguais. Que pode ser iniciado a partir de um estado inicial fixo, como o estado de reinicialização. Além disso, o estado interno de uma réplica pode ser copiado para outra réplica.

Uma variante do RMD é par e sobressalente. Dois elementos replicados operam de forma síncrona em conjunto, com a votação do circuito detectando incompatibilidades entre suas operações e emitindo um sinal indicando um erro. Outro casal funciona exatamente da mesma maneira. Um circuito final seleciona a saída do par que não é considerado um erro. Par sobressalente requer quatro réplicas em vez das três do RMT, mas tem sido usado comercialmente.

Desvantagens

As vantagens dos projetos orientados a falhas são óbvias, enquanto muitas de suas desvantagens não são:

• - Interferência na detecção de falhas no mesmo componente. Para continuar com o exemplo anterior do veículo de passageiros, pode não ser óbvio para o motorista perceber quando um pneu furou, com qualquer um dos sistemas tolerantes a falhas. Isso geralmente é tratado com um "sistema automático de detecção de falhas". No caso do pneu, um monitor de pressão de ar detecta a perda de pressão e avisa o motorista. A alternativa é o “sistema manual de detecção de falhas”, como a inspeção manual de todos os pneus em cada parada.

• - Interferência na detecção de falhas em outro componente. Outra variante deste problema é quando a tolerância a falhas em um componente impede a detecção de falhas em um componente diferente. Por exemplo, se o componente B executa algumas operações baseadas na produção do componente A, a tolerância a falhas em B pode ocultar um problema em A. Se o componente B for posteriormente alterado (para um design menos tolerante a falhas), o sistema pode falhar repentinamente, dando a impressão de que o novo componente B é o problema. Somente depois que o sistema for cuidadosamente estudado é que ficará claro que o problema está realmente no componente A.

• - Prioridade reduzida de correção de erros. Mesmo que o operador perceba a falha, ter um sistema tolerante a falhas provavelmente reduzirá a importância de corrigir a falha. Se as falhas não forem corrigidas, isso levará a falhas futuras do sistema, quando a tolerância a falhas ou o componente falhar completamente quando todos os componentes redundantes falharem.

• - Dificuldade de teste. Para alguns críticos de sistemas tolerantes a falhas, como um reator nuclear, não há uma maneira fácil de verificar se os componentes de backup estão funcionando. O exemplo mais famoso disto é o desastre de Chernobyl, onde os operadores testaram o backup de emergência desactivando o arrefecimento primário e o arrefecimento secundário. O backup falhou, resultando no colapso nuclear do reator e na liberação massiva de radiação.

• - Custo. Tanto os componentes tolerantes a falhas quanto os componentes redundantes tendem a aumentar. Este pode ser um simples custo económico ou pode incluir outras medidas, como o peso. As naves espaciais tripuladas, por exemplo, têm tantos componentes redundantes e tolerantes a falhas que o seu peso aumenta dramaticamente em sistemas não tripulados, que não requerem o mesmo nível de segurança.

• - Componentes abaixo do padrão. Um projeto tolerante a falhas pode permitir o uso de componentes abaixo do padrão, o que pode tornar o sistema inoperante. Embora esta prática tenha o potencial de mitigar o aumento de custos, o uso de múltiplos componentes abaixo do padrão pode reduzir a confiabilidade do sistema a um nível igual ou até pior do que um sistema não tolerante a falhas.

Critérios

• - Qual a importância do componente? Em um carro, o rádio não é crítico, então esse componente tem menos necessidade de ser tolerante a falhas.

Replicação

A tolerância a falhas é tratada fundamentalmente das três maneiras a seguir:

• - Redundância: fornecer múltiplos casos idênticos no mesmo sistema e a possibilidade de alternar para um dos casos restantes em caso de falha;

• - Diversidade: forneça múltiplas implementações diferentes da mesma especificação e use-as como sistemas duplicados para resolver bugs em uma aplicação específica.

Todas as implementações de RAID, exceto o RAID 0, são exemplos de dispositivos de armazenamento de dados tolerantes a falhas que usam redundância de dados.

Desvantagens

As vantagens dos projetos orientados a falhas são óbvias, enquanto muitas de suas desvantagens não são:

Navegación

Arquitetura tolerante

Introdução

Em geral

Arquitetura tolerante

Introdução

Em geral

Componentes

Redundância

Critérios

Requisitos

Replicação

Desvantagens

Exemplos

Termos relacionados

Referências

Componentes

Redundância

Critérios

Requisitos

Replicação

Desvantagens

Exemplos

Termos relacionados

Referências