Centro de informações

O Guia Completo de Eliminação de duplicações de Dados e Por que é Importante

Hoje, as organizações guardam diariamente muitas informações críticas em seus bancos de dados. Eles fazem backup dos dados no piloto automático, resultando naturalmente em uma recopagem e economia contínua de dados. Como resultado, o armazenamento de dados torna-se desnecessariamente sobrecarregado ao longo do tempo com cópias de dados redundantes, o que custa dinheiro à medida que as necessidades de dados crescem e os tempos de processamento se tornam mais lentos.

Daí, a necessidade de eliminação de duplicações de dados.

A eliminação de duplicações de dados elimina os dados redundantes para reduzir as necessidades de armazenamento. A tecnologia se formou de tecnologia de ponta para uma base tradicional. Ela surgiu pela primeira vez em 2003, quando as organizações quiseram se afastar do armazenamento de fitas para backups baseados em disco para seu desempenho.

Uma década depois, a eliminação de duplicações de dados é padrão em produtos de backup como o NetBackup Appliances da Veritas, tornando-a uma ferramenta valiosa em uma estratégia  de proteção de dados empresariais.

No entanto, há inúmeros elementos a serem considerados ao escolher a tecnologia de eliminação de duplicações de backup correta para seu negócio. Você precisa considerar problemas como os tipos de eliminação de duplicações disponíveis, como a tecnologia funciona, os fatores que afetam a eliminação de duplicações, como ela difere da compressão e a eliminação de duplicações em ambientes de virtualização.

Este guia completo sobre eliminação de duplicações de dados explica tudo isso e como Veritas constrói a tecnologia avançada de deduplicação de dados em seus servidores de mídia NetBackup Appliance. Como resultado, Veritas projetou o NetBackup Media Server Deduplication Pool (MSDP) com mais de 80 patentes especificamente sobre eliminação de duplicações.

O MSDP garante a desduplicação da nuvem com compressão e criptografia, tempos de backup mais curtos e recuperação mais rápida em escala.

O que é a eliminação de duplicações de dados?

O processo de eliminação de duplicações elimina cópias redundantes de dados e reduz o tempo de processamento de um sistema de software. Como resultado, todo sistema de software de backup de dados resulta em cópia e armazenamento de grandes conjuntos de dados. Com o tempo, ele exige uma quantidade significativa de armazenamento de dados. Portanto, a eliminação de duplicações de dados otimiza o armazenamento de dados para garantir que a organização copie e armazene apenas uma única instância de dados.

No nível básico, a eliminação de duplicações elimina segmentos de dados não únicos dentro dos conjuntos de dados. A partir desta definição, a eliminação de duplicações não é muito diferente da compressão. No entanto, sua real distinção é a redução de dados em relação aos dados históricos, o que permite economia de armazenamento e impede a cópia de dados similares de fontes múltiplas.

A compressão era anteriormente a principal atividade de economia de armazenamento antes da deduplicação. Durante a compressão, soluções de backup fluxos de dados comprimidos à medida que os dados eram gravados em uma fita ou disco de backup. Entretanto, a economia de compressão só ocorreu naquele momento. Assim, foi possível comprimir um backup de dados semelhante em outro momento, o que poderia ocupar uma quantidade equivalente de espaço.

A eliminação de duplicações é diferente porque segmenta os dados e os compara com uma matriz que representa os dados previamente escritos. Como resultado, segmentos únicos são enviados para armazenamento, enquanto os não únicos criam uma referência para as instâncias únicas de dados segmentados similares.

Por exemplo, o sistema de e-mail de uma empresa pode conter 50 instâncias do mesmo arquivo anexo de um megabyte (MB). Fazendo backup da plataforma sem deduplicação, todas as 50 instâncias serão salvas, necessitando de 50MB de espaço de armazenamento. Entretanto, a eliminação de duplicações permite apenas o armazenamento de uma instância do anexo do e-mail, com cada instância subsequente referenciada à cópia salva. Portanto, a demanda de armazenamento de 50MB cai para um MB.

Como funciona a eliminação de duplicações de dados

Nos termos mais simples, o processo de eliminação de duplicação de dados começa cortando os dados reservados para a deduplicação em pedaços. Um pedaço consiste em um ou mais blocos de dados contíguos. Como e onde o processo divide os pedaços está sujeito a patentes individuais. No entanto, uma vez que o processo cria uma série de blocos, ele os compara com todos os blocos anteriores já feitos e vistos pelo sistema de eliminação de duplicação.

O sistema compara pedaços executando um algoritmo de hashing criptográfico determinístico que cria um hash. Se os hashes de dois pedaços diferentes combinarem, o sistema os considera idênticos, já que mesmo a menor mudança muda um pedaço de hashes. Por exemplo, se o algoritmo de hash criptográfico cria um hash de 160 bits chamado SHA-1 para um pedaço de oito MB, o sistema salva quase oito MBs cada vez que faz backup daquele pedaço. Assim, a eliminação de duplicação de dados é uma economia de espaço significativa.

O processo de eliminação de duplicações elimina blocos de dados duplicados e armazena apenas blocos de dados exclusivos. Ela se baseia em impressões digitais - assinaturas digitais únicas para blocos de dados. Portanto, o mecanismo de eliminação de duplicações em linha examinará os blocos de dados recebidos, desenvolverá uma impressão digital para cada um e a armazenará em um hash store quando o sistema escrever os dados (estrutura de dados em memória).

Após o cálculo da impressão digital, o processo realiza uma pesquisa no hash store. Em seguida, examina os blocos de dados que correspondem à impressão digital duplicada da memória cache (bloco doador). Se encontrar um fósforo na loja de hash, uma de duas coisas acontece:

  • Se houver uma correspondência, ele compara o novo bloco de dados (receptor) e o bloco de doadores, que atua como verificação. O sistema verifica os dados entre os dois blocos sem gravar o bloco receptor no disco. Em seguida, ele atualiza os metadados para acompanhar os detalhes de compartilhamento.
  • Se o bloco do doador não estiver disponível na memória do cache, o sistema o coletará a partir do disco para compará-lo bit a bit com o bloco do destinatário no cache. Se for uma correspondência exata, o sistema marca o bloco receptor como um duplicado sem gravá-lo no disco, mas atualiza os metadados para rastrear os detalhes de compartilhamento.

O motor de duplicação de fundo funciona de forma semelhante. Procura todos os blocos de dados em massa. Ele compara as impressões digitais em bloco e faz comparações byte a byte para eliminar falsos positivos e remover duplicatas. O processo não perde nenhum dado.

Tipos de eliminação de duplicações de dados

Embora não seja difícil fazer um motor de eliminação de duplicações, não é fácil fazer uma solução com desempenho otimizado e tolerante a falhas que seja escalável. Como e onde ocorre a eliminação de duplicações faz uma diferença significativa na qualidade do serviço. Abaixo estão os principais tipos de eliminação de duplicações:

1.   Eliminação de duplicações pós-processo

Como a forma menos eficiente de deduplicação, a eliminação de duplicações pós-processo requer um grande cache de disco para armazenar temporariamente um conjunto de dados completo mais outro cache de disco para os dados deduplicados. Portanto, ele só aplica o processo de eliminação de duplicações após a escrita bem sucedida dos dados no disco de destino, onde o processamento ocorre utilizando um método de deduplicação pós-processamento. Em seguida, ele armazena os dados em um repositório de eliminação de duplicações.

Enquanto ajuda a obter dados da fonte sem se preocupar com o tempo de processamento, resulta no uso ineficiente do espaço, levando a problemas de integridade dos dados. Devido a estes contratempos, a deduplicação Veritas não oferece a eliminação de duplicações pós-processo.

2.   Eliminação de duplicações em linha

A eliminação de duplicações em linha aplica o processo de eliminação de duplicações ao fluxo de dados antes de escrevê-lo no armazenamento. Ele só escreve segmentos de dados únicos para armazenamento.

  • A eliminação de duplicações em linha no nível alvo significa que todos os dados armazenados são transmitidos para o dispositivo alvo e deduzidos conforme são escritos para o armazenamento.
  • A eliminação de duplicações em nível de fonte em linha significa que a eliminação de duplicações de dados contra dados escritos ocorre antes de ser enviada para o dispositivo alvo.

A eliminação de duplicações do lado da fonte é eficiente do ponto de vista do transporte de dados, pois reduz drasticamente a quantidade de dados que a organização precisa enviar através da rede. Felizmente, a eliminação de duplicações da Veritas executa tanto a eliminação de duplicações em linha de destino quanto a de origem e compressão.

Abaixo estão outros métodos comuns de eliminação de duplicações de dados:

  • Eliminação de duplicações de arquivos: refere-se à eliminação de duplicações no nível do arquivo e examina o arquivo como um todo ao invés de seu conteúdo. As funções de eliminar duplicação removem os arquivos duplicados e fazem referência ao original. No entanto, eles não tratam de conteúdo idêntico dentro do arquivo.
  • Eliminação de duplicações: divide os dados em blocos e os executa por meio de um algoritmo de hash para criar um hash exclusivo desse conjunto de dados. Como na eliminação de duplicações de arquivos, o sistema remove os hashes duplicados e mantém o original.
  • Eliminação de duplicações de subarquivos: avalia o conteúdo individual do arquivo para procurar por conteúdo duplicado antes de removê-lo. Ele divide o conteúdo em blocos de arquivos e os compara uns com os outros para remover conteúdo duplicado para salvar o armazenamento.
  • Eliminação de duplicações de backup do cliente: Também é chamada de deduplicação de fonte e ocorre no programa de backup interno do cliente, usando o método de trituração para remover dados duplicados.
  • Eliminação de duplicações no servidor Windows: permite que os usuários armazenem dados apenas uma vez enquanto criam ponteiros inteligentes em seu local. Microsoft continua melhorando a eliminação de duplicações de janelas. Por exemplo, o Windows Server 2019 pode agora eliminar duplicação de volumes NTFS e ReFS.

Por que a eliminação de dados duplicados é importante?

Mesmo que as capacidades de disco aumentem continuamente, os fornecedores de armazenamento de dados ainda buscam métodos para ajudar os clientes a armazenar seus dados cada vez maiores em dispositivos de armazenamento e backup. Além disso, explorar oportunidades para ajudar a maximizar o armazenamento de dados e a capacidade potencial do disco faz sentido.

Assim, os fornecedores de armazenamento e backup dependem de estratégias de redução de dados, tais como eliminação de duplicações e compressão. Eles permitem que os clientes armazenem efetivamente mais dados do que a capacidade de seus meios de armazenamento sugere. Assim, se o cliente obtém um benefício de cinco para um (5:1) de vários mecanismos de redução de dados, ele pode teoricamente armazenar até 50 TB de dados em uma matriz de armazenamento de 10 TB.

Considere o cenário abaixo:

Uma organização opera um ambiente de trabalho virtual suportando 200 estações de trabalho idênticas que armazenam seus dados em uma matriz de armazenamento cara, comprada explicitamente para esse fim. Suponha que a organização executa cópias do Windows 10, Office 2013 e 2016, software ERP e inúmeras outras ferramentas de software que os usuários necessitam, e cada imagem da estação de trabalho consome cerca de 25 GB de espaço em disco. As 200 estações de trabalho consumirão cinco terabytes de capacidade.

A eliminação de duplicações permite que a organização armazene uma cópia das máquinas virtuais individuais enquanto a matriz de armazenamento coloca apontadores para o resto. Portanto, cada vez que o motor de eliminação de duplicações encontra um recurso de dados idêntico já armazenado no ambiente, ele salva um pequeno ponteiro no lugar da cópia de dados em vez de copiar os dados novamente. Desta forma, a eliminação de duplicações libera os blocos de armazenamento.

Fatores que afetam a eliminação de duplicações de dados

É necessário um planejamento cuidadoso da eliminação de duplicações para garantir que os dados protegidos sejam eliminados. Diferentes tipos de dados podem obter diferentes níveis de eliminação de duplicações com base na composição. Por exemplo, arquivos de imagem, imagens virtuais, dados compactados, dados criptografados e fluxos de NDMP não duplicam bem.

Além disso, bancos de dados com alta taxa de mudança podem exigir mais esforço para garantir a apresentação dos dados de uma maneira que resulte em ótimos resultados de eliminação de duplicações. O processo de eliminação de duplicações Veritas pode implementar políticas separadas dentro do NetBackup para diferentes tipos de dados com base no quão bem eles eliminam a duplicação.

Veritas projetou dois métodos diferentes para melhorar a eliminação de duplicações de dados:

  • Segmentação adaptativa de comprimento variável
  • Segmentação de comprimento fixo com manipuladores de fluxo

O MSDP usa manipuladores de fluxo inteligentes que empregam a tecnologia da Veritas para otimizar o fluxo de eliminação de duplicações com base no tipo de dados. Além disso, os manipuladores de fluxo são adaptáveis e sensíveis aos dados, portanto ajudam a melhorar a eficiência do armazenamento e o desempenho do backup com base no tipo de dados ingeridos.

Como resultado, o fluxo de dados se transforma em algo que atinge consistentemente boas taxas de eliminação de duplicações em altas velocidades com segmentação de comprimento fixo. Além disso, envolve manipuladores de fluxo em backups de sistemas de arquivos padrão e VMware, NetApp, EMC NDMP, Hyper-V, e outras soluções baseadas em snapshot, como FlashBackup.

A Veritas introduziu a segmentação Adaptive Variable Length (VLD) no NetBackup para resultados ótimos de deduplicação sempre que o cliente não puder empregar um manipulador de fluxo. A VLD usa faixas de tamanho de segmento definidas para encontrar a segmentação ideal para os dados deduplicados, permitindo os melhores resultados para dados opacos enquanto utiliza a energia da CPU melhor do que a segmentação de comprimento fixo.

NetBackup, NetBackup Virtual Appliances, e NetBackup Appliances pode criar um pool de deduplicação que se estende além dos limites das prateleiras e não restringe as prateleiras de disco de outros usos de armazenamento. Além disso, o MSDP permite que as organizações selecionem entre comprimento fixo, comprimento variável e sem deduplicação em um servidor de mídia.

Muitas das aplicações atuais utilizam criptografia em repouso, que as tendências de segurança da indústria impulsionam rapidamente. O NetBackup não requer prateleiras de armazenamento dedicadas ao armazenamento de dados, o que significa que essas cargas de trabalho são direcionadas para um pool de armazenamento não duplicado, economizando até 200% nos custos de armazenamento. É algo a ser considerado ao comparar as taxas de fornecedores.

Benefícios da Deduplicação de Dados

A deduplicação de dados é essencial porque reduz significativamente a necessidade de espaço de armazenamento, economiza dinheiro e reduz a quantidade de largura de banda desperdiçada transferindo dados para e de locais de armazenamento remoto. Também melhora a escala e a eficiência no armazenamento e extração de dados de uma única fonte. Ter muitos dados semelhantes armazenados em espaços diferentes torna o sistema inteiro mais lento.

Abaixo estão alguns outros benefícios:

  • Cria capacidade de backup através da redução da redundância, especialmente em backups completos
  • Permite a validação contínua dos dados, em vez de simplesmente armazenar dados de backup, pois estes últimos só descobrem problemas durante a recuperação
  • Permite uma maior recuperação de dados porque é preciso, rápido e confiável
  • Suporta ótimo recuperação de desastres de dados de backup porque a deduplicação tem uma excelente capacidade de otimização de capacidade
  • A eliminação de duplicações tem uma pegada de dados menor
  • Utiliza menos largura de banda enquanto copia dados para replicação, backups remotos e recuperação de desastres
  • Tem períodos de retenção mais longos
  • Atinge backups de fita reduzidos com metas de tempo de recuperação mais rápido

Diferenças entre eliminação de duplicações e compactação de dados

A deduplicação de dados procura por pedaços de dados duplicados e coloca apontadores em vez de copiá-los novamente, enquanto a compressão minimiza o número de bits de armazenamento necessários para representar os dados. No entanto, ambas fazem parte de estratégias de redução de dados que maximizam a capacidade de armazenamento.

Casos de utilização de eliminação de duplicações de dados

Abaixo estão as áreas onde a eliminação de duplicações é aplicável:

Servidores de arquivos de uso geral

Esses servidores de arquivos têm inúmeras finalidades e podem manter os seguintes compartilhamentos:

  • Pastas iniciais para usuários
  • Pastas para o trabalho
  • Compartilhado por grupos
  • Compartilhado no desenvolvimento de software

Vários usuários têm numerosas cópias de dados e revisões de um mesmo arquivo, tornando os servidores de arquivos de uso geral adequados para a eliminação de duplicações. Além disso, beneficia as ações de desenvolvimento de software porque muitos binários permanecem basicamente inalterados de construção para construção.

Implantação de Infraestrutura de Desktop Virtual (VDI)

Os servidores VDI como serviços de desktop remoto permitem que as organizações forneçam PCs aos funcionários de forma eficiente. Abaixo estão algumas razões para o uso desta tecnologia:

  • Permite a implantação de aplicativos em toda a organização, útil quando se trata de aplicativos atualizados regularmente, raramente utilizados e difíceis de administrar.
  • Permite a consolidação de aplicações, eliminando a necessidade de atualizações de software nos computadores clientes, pois as instala e executa a partir de máquinas virtuais controladas centralmente
  • Permite acesso remoto a programas empresariais a partir de dispositivos pessoais, alguns com diferentes sistemas operacionais
  • Permite o acesso às filiais e melhora o desempenho de aplicação dos funcionários das filiais que necessitam de acesso a repositórios de dados centralizados

As implantações de VDI são excelentes candidatos à eliminação de duplicações de dados porque os discos rígidos virtuais que conduzem os desktops remotos são praticamente idênticos.

Metas de Backup

Os aplicativos de backup virtualizados são alvos de backup devido à desduplicação efetiva entre instantâneos de backup. Portanto, os programas de backup são candidatos perfeitos para a eliminação de duplicações.

Eliminação de dados duplicados para backup e recuperação após desastres

A tecnologia de deduplicação conseguiu uma economia significativa quando utilizada na infra-estrutura de backup. Entretanto, logicamente, imagens de backup eventualmente resultarão em dados duplicados.

Por exemplo, é fácil ter uma situação em que várias partes trabalham com os mesmos conjuntos de dados ou documentos. Pode resultar em dados parcial ou totalmente duplicados em vários sistemas, o que é ineficiente e dispendioso. Além disso, cenários que resultem em requisitos de retenção de dados plurianuais poderiam levar a quantidades impressionantes de armazenamento de dados.

O armazenamento em fita foi inicialmente a melhor solução econômica para a retenção de dados. Entretanto, o custo de armazenamento de todos esses dados se tornou um problema significativo. Embora a fita mantenha os custos mais baixos que os conjuntos de matrizes, ela não é uma solução ideal porque a mídia tende a ocupar muito espaço físico.

O armazenamento de fitas também resulta em uma grande área de armazenamento de dados de hardware de gerenciamento especializado. O envio e armazenamento de dados a longo prazo e outros desafios logísticos ocorrem ao se conseguir as fitas onde elas são necessárias. Ele acrescenta um tempo de inatividade significativo durante situações de restauração de emergência e impacta significativamente a capacidade operacional e os custos totais de propriedade.

A Veritas considerou todas estas questões para desenvolver uma solução completa de proteção de dados na forma de um poderoso e integrado mecanismo de armazenamento de deduplicação de dados. Integramos MSDP e NetBackup para criar uma solução completa em uma única aplicação. Como resultado, nosso formato de dados de eliminação de duplicações é agora altamente portátil, com novas possibilidades. Além disso, facilita a replicação de dados em múltiplos locais e alvos diversos.

Finalmente, os clientes NetBackup suportam a deduplicação do lado do cliente, enquanto o MSDP não limita o número de fluxos de entrada ou recusa de conexões, ao contrário de outras soluções de eliminação de duplicações de dados.

Eliminação de duplicações com Ambientes de Virtualização

As soluções de virtualização vieram com um novo conjunto de oportunidades e complexidades. Por exemplo, muitas entidades virtuais geralmente compartilham uma infra-estrutura central comum, levando à expansão da VM onde milhares de hosts compartilham conjuntos de dados ou um modelo padrão enquanto têm elementos únicos. A proteção desses pontos, mantendo a independência dos sistemas de hóspedes, poderia resultar no armazenamento de grandes quantidades de dados históricos.

A eliminação de duplicações ajuda a proteger todos os dados. O NetBackup MSDP protege os dados da máquina virtual (VM) e fornece uma capacidade de recuperação instantânea operacional e de desastres. Além disso, os clientes podem aproveitar NetBackup Appliances e NetBackup Universal Share com o MSDP para garantir acesso instantâneo a arquivos individuais de VMs ou cópias secundárias das VMs para replicação, testes ou outros usos.

O NetBackup também permite que os administradores de backup excluam dados contidos na troca e paginação de arquivos de sistemas operacionais convidados, resultando em menos dados para backup e compactação.

Como resultado, a eliminação de duplicações de dados em ambientes de virtualização ajuda na recuperação de espaço e torna a escrita mais fácil do que remover segmentos de dados não mais necessários. O MSDP tem um processo patenteado chamado rebase para simplificar a limpeza de dados e deduplicar os dados em ambientes de nuvem.

Servidor de armazenamento MSDP

Um servidor de armazenamento MSDP é uma entidade que grava dados para armazenamento e os lê a partir deles. Um host é o servidor de armazenamento e deve ser um servidor de mídia NetBackup com apenas um servidor existente para cada nó de eliminação de duplicação do NetBackup. Além disso, enquanto o componente servidor de armazenamento é executado em um servidor de mídia, ele é uma entidade lógica separada. Abaixo estão as funções do servidor de armazenamento do MSDP:

  • Recebe os backups dos clientes e elimina a duplicação dos dados
  • Recebe dados deduplicados de clientes e outros servidores de mídia
  • Permite que as configurações dos clientes NetBackup e outros servidores de mídia dedupliquem dados, ou seja, o servidor de armazenamento só recebe dados após a deduplicação
  • Ele gerencia a eliminação de duplicações de dados no armazenamento
  • Ele grava e lê dados deduplicados do armazenamento em disco
  • Ele gerencia o processo de eliminação de duplicações

O número de servidores e nós de armazenamento que você configura depende dos requisitos de armazenamento e se você utiliza ou não replicação ou duplicação otimizada.

Eliminação de duplicações de dados com NetBackup Appliances

NetBackup e Virtual Appliances permitem às organizações implantar serviços MSDP de forma segura, flexível, escalonável e fácil de gerenciar. Um único NetBackup Appliance suporta até 960TB de dados deduplicados, enquanto um Appliance Virtual suporta 250TB. Além disso, cada appliance de servidor de mídia NetBackup hospeda dados duplicados e não duplicados.

O NetBackup Appliance executa um sistema operacional (SO) único e seguro ao invés de múltiplas máquinas virtuais (VMs) com diferentes SOs. Entretanto, a última solução é menos segura porque aumenta a superfície de ataque potencial.

A NetBackup Appliances fornece proteção de segurança e capacidade de detecção de intrusão através de controles de acesso baseados em funções e segurança sistêmica do centro de dados (SDCS). Eles também incluem a validação FIPS 140-2 sem custo adicional.

Além disso, a NetBackup Appliances proporciona velocidades de recuperação rápidas que as organizações precisam restaurar em escala. A tecnologia suporta várias recuperações simultâneas sem limitações ou requisitos adicionais como SSD.

A Veritas também conta com uma equipe completa de engenheiros e especialistas em desempenho que testam e validam o desempenho das versões do NetBackup Appliance.

A conclusão?

À medida que as organizações expandem suas operações, o gerenciamento de grandes volumes de dados é crucial para garantir economia de custos e eficiência. A eliminação de duplicações de dados permite que eles lidem com dados grandes da melhor maneira possível.

Os appliances Veritas NetBackup são soluções de tecnologia líderes do mercado para proteção de dados e eliminação de duplicações. Eles também fornecem criptografia de dados e capacidade de compressão em um ambiente seguro e escalável de alto desempenho.

Os appliances NetBackup com tecnologia MSDP proporcionam economias significativas através da minimização da pegada de backup e taxas otimizadas de transferência de dados. Além disso, os dispositivos virtuais NetBackup estendem os serviços do MSDP para a nuvem e outros ambientes virtuais.

Entre os clientes da Veritas estão 98% das empresas da Fortune 100, e o NetBackup™ é a primeira opção para as organizações que desejam fazer backup de grandes quantidades de dados.

Saiba como a Veritas mantém seus dados totalmente protegidos em cargas de trabalho virtuais, físicas, na nuvem e legadas com seus serviços de proteção de dados para empresas.