信息中心

《重复数据删除完整指南》及其重要性

当代企业每天都会在数据库中保存大量信息。他们以自动化方式备份数据,造成数据的反复复制和保存。因此,数据存储中逐渐保存了大量重复的数据副本而不堪重负。这导致成本高涨,数据存储需求持续增长,但数据处理速度却越来越慢。

在此局面下,重复数据删除就变得迫在眉睫。

重复数据删除可消除冗余的数据,减少存储需求。该技术日臻完善,从高端的前沿技术演变成当下普遍采用的主流技术。它于 2003 年问世,当时的企业希望摆脱磁盘存储,转而采用基于磁盘的备份,以期进一步优化性能。

经过十年的发展,重复数据删除已成为备份产品(如 Veritas 旗下的 NetBackup 备份一体机)的标配,让它成为企业数据保护战略的重要工具。

而且为企业选择合适的备份重复数据删除技术时,有诸多因素要加以考量。比如,可用的重复数据删除类型、该技术的运行原理、影响重复数据删除的因素、与压缩技术的区别,以及重复数据删除与虚拟化环境的整合等。

《重复数据删除完整指南》详细阐述了这些考量因素,并介绍了 Veritas 如何在 NetBackup 备份一体机介质服务器中植入高级的重复数据删除技术。Veritas 在设计 NetBackup 介质服务器重复数据删除池 (MSDP) 时,仅在数据去重方面就拥有 80 多项专利。

MSDP 可确保云重复数据删除兼具压缩和加密功能,缩短了备份时间,加快了大规模恢复速度。

何为重复数据删除?

重复数据删除流程可消除冗余的数据副本,缩短软件系统的处理时间。由于每个数据备份的软件系统不断复制和存储大量数据,久而久之,它对数据存储空间的需求越来越大。重复数据删除功能可优化数据存储空间需求,确保企业仅复制和存储不重复的数据实例。

本质上讲,重复数据删除就是消除数据集中的非唯一数据段。从这个定义来看,重复数据删除似乎与压缩功能并无二致。不过,它们真正区别在于,重复数据删除还可以缩减历史数据的大小,从而节省大量存储成本,并防止未来从多个来源复制类似数据。

在重复数据删除功能上市之前,数据压缩功能一度是节省存储开销的主要技术。数据压缩期间,备份解决方案可在数据写入备份磁带或磁盘时压缩数据流。不过,成本节省也只是体现在运行压缩的那一刻。类似的数据备份在其他时间点同样会被压缩,也要占据存储空间。

重复数据删除则迥然不同,它可以对数据进行分段,对照之前已写入的数据矩阵进行检查。最终的结果是,它保证发送到存储的数据段都是独一无二的,而重复的部分则引用类似数据段的唯一实例。

例如,公司的电子邮件系统可能包含 50 份相同的文件附件实例(大小为 1MB)。在没有重复数据删除的情况下,备份平台将看到全部 50 个实例被保存,进而要 50MB 的存储空间。应用重复数据删除后,只有一个电子邮件附件实例进入存储空间,所有后续的实例都会引用保存的副本。因此,这个 50MB 存储需求会下降到 1MB。

重复数据删除的工作原理

简而言之,重复数据删除首先将待删除重复内容的数据集分割成数据块。一个数据块包含一个或多个连续的数据片段。这个流程如何以及在何处分割数据块取决于特定的专利技术。不过,一旦流程开始创建数据块,它就会将数据块与重复数据删除系统之前已经创建和发现的全部数据块进行对比。

该系统通过运行确定性加密哈希算法(可创建一个哈希)来比较各个数据块。如果两个不同数据块的哈希相匹配,则系统会认为它们完全一致,因为哪怕是最细微的更改,数据块哈希也会发生更改。例如,如果加密哈希算法为一个 8 MB 的数据块创建 160 位哈希,称为 SHA-1,则系统每次备份该数据块时都可节省大约 8 MB 的存储空间。因此,重复数据删除是节省存储空间的一大利器。

重复数据删除流程可消除重复的数据块,仅存储独一无二的数据块。它依靠指纹 — 数据块独特的数字化签名来识别数据块。因此,内联重复数据删除会在系统写入数据(内存数据结构)时,检查传入的数据块,为每个数据块制定一个指纹,并存储在哈希存储中。

计算指纹后,该流程在哈希存储中进行查询。然后检查数据块是否与缓存中的指纹(供体数据块)有重复。如果在哈希存储中找到匹配项,则会出现如下两种情况:

  • 如果存在匹配,它会将新的数据块(接收数据块)和供体数据块进行比较,这类似于一种验证。系统会在两个数据块间验证数据,但不会将接收数据块写入磁盘。然后更新元数据以跟踪相同部分的细节。
  • 如果缓存中没有供体数据块,则系统会预先从磁盘中提取,然后将其与缓存中的接收数据块进行逐个字节的比较。如果完全匹配,则系统会将接收数据块标记为重复,不写入磁盘,但会更新元数据以跟踪相同部分的细节。

后台复制引擎的工作原理基本相同。它以批量方式搜索所有数据块,然后比较指纹,并进行逐个字节的比较,消除误报,删除重复内容。该流程不会丢失任何数据。

重复数据删除的类型

虽然打造重复数据删除引擎轻而易举,但创建性能优化的容错可扩展解决方案并非易事。重复数据删除技术的运行方式及地点都会影响服务质量,结果往往天差地别。下文总结了一些主要的重复数据删除类型:

1.   后处理重复数据删除技术

后处理重复数据删除技术是最低效的一种重复数据删除方法,需要一个超大的磁盘缓存来临时存储完整的数据集,还要另一个磁盘缓存来存储去重后的数据。因此,它只有在数据成功写入目标磁盘后才应用去重流程,采用后处理重复数据删除技术处理数据,然后将去重数据存储在存储库中。

虽然它有助于从源头获取数据,不必担心处理时间过长,但会造成空间的低效利用,产生数据完整性问题。因存在上述缺陷,Veritas 重复数据删除产品并不提供后处理重复数据删除技术。

2.   内联重复数据删除技术

内联重复数据删除在将数据流写入存储前应用去重流程。它仅将不重复的数据段写入存储。

  • 目标端同步重复数据删除意味着所有存储数据流向目标设备,在写入存储时去重。
  • 源端同步重复数据删除意味着写入的数据在发送到目标设备之前进行去重处理。

从数据传输的角度来看,源端重复数据删除的效率高,因为它显著减少了企业通过网络发送的数据量。可喜的是,Veritas 重复数据删除同时执行目标和源端内联重复数据删除和压缩。

下文总结了重复数据删除的一些其他常见方法:

  • 文件重复数据删除:这指的是在文件级别进行去重并检查文件整体而非重复内容。重复数据删除功能会删除重复的文件,并引用原始文件。不过,它们无法定位文件内相同的内容。
  • 组块重复数据删除:它将数据分解成组块,运用哈希算法为数据集创建唯一哈希。与文件重复数据删除功能类似,系统会删除重复的哈希,保留原始哈希。
  • 子文件重复数据删除:它可评估单个文件内容,搜索重复内容后予以删除。它会将内容分成文件块,相互对比后删除重复内容,节省存储空间。
  • 客户端备份重复数据删除:它也称为源端重复数据删除,主要发生在内部客户端备份程序上,采用组块方法删除重复数据。
  • Windows 服务器重复数据删除:它允许用户仅存储一次数据,同时创建指向其位置的智能指针。Microsoft 在不断改进 Windows 系统管理的重复数据删除功能。例如,Windows Server 2019 现在可以删除 NTFS 和 ReFS 卷中的重复数据。

为何重复数据删除如此重要?

尽管磁盘容量在不断增加,数据存储供应商仍在设法帮助客户将越来越多的数据存放到存储设备和备份设备上。而且尝试各种方法去实现数据存储空间及潜在磁盘容量的最大化也并非毫无意义。

因此,存储和备份供应商十分倚重压缩和重复数据删除等数据缩减策略。他们支持客户高效存储数据,甚至可以超出存储介质的建议容量。因此,如果客户能通过各种数据缩减机制达到 5:1 的缩减比率,理论上他们可以在 10 TB 的存储空间中存储 50 TB 的数据。

以如下场景为例:

一家运行虚拟桌面环境的企业同时支持 200 个相同的工作站,其数据存储在昂贵的存储设备中。假如这家公司运行 Windows 10、Office 2013 和 2016 、ERP 软件以及用户所需的其他软件工具,且每个工作站映像占据 25 GB 磁盘空间。那么 200 个工作站将占用 5 TB 的容量。

重复数据删除支持企业只存储单个虚拟机的一份数据,而存储设备会将指针指向剩余的副本。因此,每次重复数据删除引擎发现环境中已存储相同的数据资产时,就会在数据副本的位置上保存一个小指针,而不是再次复制数据。如此一来,重复数据删除就释放了存储空间。

影响重复数据删除的因素

企业务必认真规划重复数据删除,确保所保护的数据全部经过了高效去重。但不同类型数据的重复数据删除效果并不相同,具体取决于数据结构。例如,图片文件、虚拟映像、压缩数据、加密数据以及 NDMP 数据流的去重效果不一定理想。

此外,变化率大的数据库要经过更多的处理,才能保证数据达到最佳的去重效果。Veritas 重复数据删除流程可在 NetBackup 中基于不同类型的数据实施单独的去重策略。

Veritas 设计了两种方法来改进重复数据删除率:

  • 自适应的可变长度分割
  • 采用流处理程序的固定长度分割

MSDP 采用智能流处理程序,该程序借助 Veritas 技术按数据类型优化数据流的去重率。此外,流处理程序可感知数据且自适应,能够基于摄入的数据类型优化存储效率和备份性能。

因此,以固定长度分割数据流的方式能够高速持续的进行重复数据删除,且有较高的去重率。此外,标准文件系统备份、 VMware、NetApp、EMC NDMP、Hyper-V 和其他快照式解决方案(如 FlashBackup)中的流处理程序也适用于该方式的数据去重。

Veritas 在 NetBackup 中引入了自适应可变长度 (VLD) 分割,以便在客户端无法使用流处理程序时仍能达到最佳的去重效果。VLD 使用规定的分段大小以最佳方式分割去重后的数据,尽量优化暗数据的去重效果,而 CPU 能耗也比固定长度分割低。

NetBackupNetBackup 虚拟一体机NetBackup 备份一体机可创建一个重复数据删除池,扩展了存储架的范围,例如可以使用磁盘存储架。不仅如此,MSDP 还支持企业在单台介质服务器上自由选择固定长度、可变长度重复数据删除或不进行重复数据删除。

眼下很多应用程序都使用静态加密,这也是行业安全的大势所趋。NetBackup 并不需要专门的存储架来存储数据,意味着这些工作负载产生的数据将流入非去重的存储池,最高可节省 200% 的存储成本。在比较供应商收费时,这一点不容忽视。

重复数据删除的优势

重复数据删除之所以必不可少,因为它可以极大降低存储空间需求,节省成本,不必将带宽浪费在远程存储位置间的来回数据传输上。它还可以优化扩展能力,提高存储数据及从来源获取数据的效率。在不同位置存储大量相似的数据会严重拖慢整个系统的运行速度。

下文总结了有关数据去重的其他优势:

  • 减少冗余,释放备份容量,尤其是完全备份
  • 连续验证数据,而不只是简单地存储备份数据,后者只能在恢复过程中发现数据问题
  • 更准确、更快速、更可靠,提高数据恢复成功率
  • 借助重复数据删除出色的容量优化能力,支持实施备份数据灾难恢复最佳实践
  • 去重数据占用空间小
  • 使用少量带宽拷贝数据以实现复制、远程备份和灾难恢复。
  • 数据保留期更长
  • 减少磁带备份,同时达到更短的恢复时间目标

重复数据删除和数据压缩之间的区别

重复数据删除功能会查找重复的数据块并放置指针,而不会重复复制数据,压缩功能则最大限度地减少数据所需的存储位。不过,两者都是实现存储容量最大化的数据缩减策略。

重复数据删除用例

下文列出重复数据删除适用的领域:

通用文件服务器

这些文件服务器用途广泛,可能保存有如下共享资料:

  • 用户的主文件夹
  • 工作文件夹
  • 组共享内容
  • 软件开发共享内容

由于用户拥有多个数据副本以及相同文件的多个修订版本,因此通用文件服务器适合进行重复数据删除。不仅如此,该功能也适用于软件开发共享,因为内部版本之间的诸多二进制文件基本没有太大更改。

虚拟桌面基础架构 (VDI) 部署

托管远程桌面服务的 VDI 服务器有利于企业高效地为员工配置工作电脑。下文例举了这项技术的部分优势:

  • 支持在整个企业中部署应用程序。在执行定期更新、处理几乎不用及难以管理的应用程序时,非常有用。
  • 支持应用程序整合,只需在中央控制虚拟机上安装和运行软件,而不必在客户端计算机上更新软件。
  • 支持从操作系统各异的个人设备远程访问企业程序。
  • 支持分支机构员工访问集中数据存储库,提高了应用程序的性能。

VDI 部署是采用重复数据删除技术的典型案例,因为驱动远程桌面的虚拟硬盘几乎完全相同。

备份目标

备份快照之间可实现高效重复数据删除,所以虚拟化备份应用程序是理想的备份目标。正因如此,备份程序是执行重复数据删除的完美选择。

在备份和灾难恢复中使用重复数据删除

在备份基础架构中采用重复数据删除技术,可实现巨大节省。不过从逻辑层面来说,备份映像始终都会造成数据重复。

举例来说,企业中多方使用同一个数据集或文档的现象并不少见。这就会在众多系统中生成部分或完全重复的数据,整个流程效率低、成本高。此外,数据若要保留多年,还可能导致数据存储堆积如山。

磁带存储一开始是数据保留性价比最高的解决方案。不过,存储全部数据的成本逐步成为一个大问题。磁带尽管比各种存储阵列的成本低,但它并非理想的解决方案,因为磁带要占据大量的室内空间。

磁带存储还导致专用管理硬件大量占用数据中心资源。运送磁带以实现长期数据保留,也难逃运输和存储及其他物流挑战。它会在应急恢复期间造成过长的停机时间,显著影响运行能力和总拥有成本。

Veritas 全盘考虑了这些问题,制定出全面数据保护解决方案 — 强大的一体化数据去重引擎。我们集成了 MSDP 和 NetBackup,依托单一应用程序打造完整的解决方案。因此,我们交付的重复数据删除技术具备高度可移植性,开辟了更多新可能。不仅如此,它还有利于在多个位置和各种目标中进行数据复制。

最后,NetBackup 客户端支持客户端侧重复数据删除,MSDP 不限制传入数据流的数量,也允许来自外部的连接,这一点与其他重复数据删除解决方案不同。

在虚拟环境中使用重复数据删除

虚拟化解决方案既带来了新的机遇,也带来了一系列复杂问题。例如,诸多虚拟实体通常会共享一个共同的核心基础架构,导致虚拟机无序增长。在这里成千上万的主机共享数据集或标准模板,同时又有自己独特的内容。要全部予以保护,同时维护来宾系统的独立性,就要存储大量的历史数据。

重复数据删除有助于保护全部数据。NetBackup MSDP 可保护虚拟机数据,提供即时操作和灾难恢复功能。此外,客户可利用 NetBackup 备份一体机和 NetBackup Universal Share with MSDP,即时安全访问虚拟机中的个别文件或虚拟机的备用副本以进行复制和测试等。

NetBackup 还支持备份管理员排除来宾操作系统的交换文件和分页文件数据,从而进一步减少要备份和压缩的数据量。

因此,虚拟环境下的重复数据删除有助于回收存储空间,简化了数据写入流程,比删除不必要的数据段更为简便。MSDP 还拥有一项称为 rebase 的专利技术流程,可简化数据清理,删除云环境中的重复数据。

MSDP 存储服务器

MSDP 存储服务器是在存储中写入和读取数据的实体。存储服务器是一台主机,同时还必须是 NetBackup 介质服务器,每个 NetBackup 重复数据删除节点只能对应一个该服务器。不仅如此,存储服务器组件在介质服务器上运行时,它就变成一个单独的逻辑实体。参见下文的 MSDP 存储服务器功能:

  • 它从客户端接收备份,然后删除重复的数据。
  • 它从客户端和其他介质服务器接收经去重的数据。
  • 它允许从 NetBackup 客户端和其他介质服务器进行配置以删除重复的数据,这意味着存储服务器只接收去重后的数据。
  • 它管理存储中的重复数据删除。
  • 它在磁盘存储中写入和读取经过去重的数据。
  • 它管理重复数据删除流程。

您配置的存储服务器和节点数量取决于存储需求,以及是否对复制进行了优化。

NetBackup 备份一体机的重复数据删除技术

NetBackup 和虚拟一体机支持企业以安全、灵活、可扩展和易于管理的方式部署 MSDP 服务。一台 NetBackup 备份一体机最高支持 960TB 去重数据,而虚拟一体机只能支持 250TB。不仅如此,每台 NetBackup 介质服务器都托管了去重和未去重的数据。

NetBackup 备份一体机运行单一安全操作系统,而非像多台虚拟机那样具有不同的操作系统。而且,后一种解决方案不太安全,它会增加潜在的攻击面。

NetBackup 备份一体机通过基于角色的访问控制和数据中心系统性安全 (SDCS) 措施提供安全保护和入侵检测功能。它们还免费提供 FIPS 140-2 认证。

不仅如此,NetBackup 备份一体机还可以助力企业大规模快速恢复数据。该技术可支持多个并行恢复,也没有 SSD 等额外需求。

Veritas 还拥有技术熟练的工程师和性能专家团队,他们负责测试和验证 NetBackup 备份一体机的性能,为产品把关。

结论

随着业务扩大,企业要管理海量数据,节省成本和提高管理效率就成为重要的一环。重复数据删除支持他们以最有效的方式处理大量数据。

Veritas NetBackup 备份一体机是行业领先的数据保护和重复数据删除解决方案,具备数据加密、数据压缩和高度扩展功能,保证数据安全和迅速恢复。

加持 MSDP 技术的 NetBackup 备份一体机可通过最大限度减少备份空间和优化数据传输率,节省大量成本。此外,NetBackup 虚拟一体机还将 MSDP 服务拓展到云及其他虚拟环境。

Veritas 客户包括 98% 的财富 100 强企业,而且 NetBackup™ 是寻求备份大量数据的企业的首选。

了解 Veritas 如何通过企业数据保护服务跨虚拟、物理、云和传统工作负载全面保护数据。