您的位置: 网界网 > 存储 > 正文

在网络存储环境下的重复数据删除技术

2013年04月15日 19:03:10 | 作者:转载自网络 | 来源:51CTO | 查看本文手机版

摘要:重复数据删除技术(De-Dupe)可透过重复删除运算,去除数据冗余,大幅缩减占用的存储空间。然而重复删除运算相当消耗运算资源,对存取能效会造成相当程度冲击,要应用在对存取能效较敏感的网络存储设备上,将会面临许多困难。 ...

标签
数据冗余
网络存储
重复数据删除

重复数据删除[注]技术(De-Dupe)可透过重复删除运算,去除数据冗余,大幅缩减占用的存储空间。然而重复删除运算相当消耗运算资源,对存取能效会造成相当程度冲击,要应用在对存取能效较敏感的网络存储设备上,将会面临许多困难。

自问世以来,重复数据删除技术一直被定位于备份应用,整合在备份软件、虚拟磁带库、磁盘到磁盘(D2D)备份存储装置等设备中使用。

相较于网络存储设备,作为备份装置使用的近线(Near-Line)存储设备可容许较大的存取延迟,对吞吐量要求也较低,因而能容忍重复删除运算所造成的能效冲击,可充分利用其缩减备份数据容量的特点,让使用磁盘存储设备长期保存备份数据成为可能,从而减少对于磁带的依赖。

但面对企业数据量不断增长,以及虚拟化应用普及后所带来的数据处理问题,一些厂商试图将De-Dupe技术应用到网络存储设备上。

成型的网络重复数据删除技术

相较于已十分普遍的备份型De-Dupe技术,线上型De-Dupe技术目前仍在初期发展阶段,提供的厂商十分有限。

网络存储的特性,影响了重复数据删除的应用

相比于居于第二线的备份设备,网络存储设备有许多不同的特性,连带地,De-Dupe技术也面临不同的要求:

对能效更敏感

将数据以重复删除运算分解为基本元素与索引存储,以及反向运作将经过重复删除运算后的数据回复为原始状态,以便供前端主机存取,都需要消耗运算资源。

网络存储设备必须因应前端主机即时写入与读取数据的要求,对能效十分敏感,不能允许因执行De-Dupe与还原运算,而导致前端主机的存取出现延迟。

重复删除率先天较低

许多备份型De-Dupe技术宣称的20~30倍,甚至是50倍以上的空间节省比率,都是以“每天执行全备份”为基准。

一般情况下,企业数据的异动量通常有限,每天新增或异动部份,占总数据量的比率并不大,因此若每天都执行全备份,则两次全备份之间,绝大部分的数据显然都是重复的。在这个基础上运用De-Dupe,得到几十倍的空间节省效果是理所当然的。

但换成网络存储环境,就没有前述那种数据先天就带有很高重复性的现象,能缩减的比率十分有限。

网络存储直接处理原始数据

备份装置存放的数据是原始数据的复本,只有需要还原时才派得上用场;网络存储装置存放的,则是必须随时因应前端主机存取的原始数据。因此整合在网络存储设备中的De-Dupe技术,对重复删减运算法的可靠性与可用性,将有更高要求。

需与其他存储功能整合

许多进阶存储功能,都是基于网络存储设备的原始磁盘进行,如快照、Clone、远端复制等,因而在线上磁盘运作的De-Dupe,也必须整合这些应用功能,不能因启用De-Dupe而妨碍其他功能执行。

NetApp

NetApp在2007年推出的A-SIS,就是一种可应用在网络存储设备的De-Dupe技术。

A-SIS可搭配NetApp的NearStore R200、FAS与V系列存储设备使用,只要存储设备的Data ONTAP操作系统版本是在7.2.5.1以上,并启用A-SIS与NearStore授权即可。

A-SIS属于后处理(post-processing)类型De-Dupe技术,待数据写入Volume后,再按照排程设定或以CLI或GUI介面手动启动执行,执行重复删除运算时以固定的4KB区块为单位(也就是WAFL档案系统的区块单位)。

A-SIS重复删除运算并非在存取时即时进行,因而能避开影响前端主机存取的问题,可在离峰时间再执行重复删除;而且在NetApp存储设备的WAFL档案系统管理下,A-SIS处理后的数据仍可直接读取与写入,不像其他厂商De-Dupe后的数据必须先还原成原始状态,才能进行存取。缺点则是只能应用在FlexVol型的Volume,不能用在传统Volume,且重复比对也仅限于该Volume。

Dell Ocarina

Dell在2010年7月藉由并购新创厂商Ocarina,取得了后者的内容感知存储最佳化技术(Content-Aware Storage Optimization),除获得Ocarina原本的软件与应用服务器产品外,预期还会将相关技术应用到Dell自身NAS产品上。

这项技术特点在于整合了压缩与重复数据删除两类技术,系统会解析档案类型,分别使用不同运算法进行压缩与重复数据删除处理,还能让使用者调整运作区块大小,适应处理不同型态档案。

架构上分为Ocarina Optimizer与Ocarina Reader两个元件,前者负责对原始数据进行重复删除与压缩,后者负责将前者处理后的数据、重组为前端主机可读取的原始档案形式,并提供弹性的政策功能。缺点是不适用写入密集环境,较适合读取密集或少量写入环境。

部署时采用类似闸道器的方式,将Ocarina的应用服务器部署在NAS存取路径上,充当前端主机与后端NAS间的中介,并支援高可用性丛集架构。Ocarina也提供纯软件与OEM的销售形式。

EMC

透过并购,EMC先后取得了Avamar与Data Domain的De-Dupe技术(+微信关注网络世界),两者基本上都是定位于备份应用,不过在这之外,EMC亦在2009年初为Celerra系列NAS的DART操作系统增加称为Celerra Data deduplication[注]的De-Dupe功能。

Celerra Data deduplication以档案为基础运作,兼具De-Dupe与压缩两种功能,为避免对前端主机的存取形成冲击,使用者可透过Celerra Manager介面,设定De-Dupe扫描周期(预设是每隔7天),可接受De-Dupe处理档案的条件(多久没被存取、大小),以及排除在De-Dupe外的档案,藉此可将较不被存取的档案纳入De-Dupe、经常被存取的档案则不进行De-Dupe.

若是未进行De-Dupe的档案,在存取方面将不会受到任何影响。若前端主机要读取已被De-Dupe的档案,DART操作系统会将档案读进Celerra记忆体中还原后,再回应给前端主机,整个操作都不在磁盘上进行,藉以提高速度。

若要对De-Dupe的档案进行写入或修改,则须先在档案系统中还原回原始状态,对能效有较大影响。整体来说亦是较适合读取密集或少量写入环境,不太适合写入密集环境。

Permabit

Permabit是一家De-Dupe软件厂商,由于该公司业务以OEM形式为主,主要产品是2010年中推出的Albireo数据最佳化软件,设计上是以嵌入第三方厂商存储软件[注]中的方式运作,透过API为存储软件提供一个De-Dupe谘询机制,确认写入数据是否重复(不参与读取操作)。

依用户要求,Albireo可采用线上处理(in-line)、后处理与平行处理等三种部署架构,并提供区块、档案与串流等三种形式的API,可供整合到不同类型的存储软件中,其中档案与串流两种档案层级的API还提供内容感知功能,可解析写入档案类型、调整De-Dupe处理使用的区块大小以达到更好的效果。

Albireo可搭配线上、备份、归档等不同类型存储设备,或备份软件使用,当应用在网络存储设备时,可采用对能效冲击最小的平行处理架构,当前端主机将数据写入存储设备时,Albireo会透过API同时取得一份数据复本,对其进行De-Dupe比对,若确认数据为重复,则会驱动存储系统软件以非同步方式更新与整并重复的数据。

目前已有Bluearc、Xiotech等存储厂商与Permabit签约,准备引进Albireo来搭配他们的存储设备与软件。

Nimbus

Nimbus的HALO操作系统可提供整合存储管理服务,能透过存储虚拟化[注]技术,将管理的磁盘空间透过CIFS、NFS、iSCSI等协议给前端主机存取,而且还整合了in-line型De-Dupe技术。目前已被应用在Nimbus的S-Class企业存储设备。

参考资料

1.重复数据删除:是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复...详情>>

2.软件定义存储:如同云计算的概念刚刚出现时一样,也没有一个确切的定义,但软件定义存储普遍代表了一种趋势,那就是软件和硬件的分离。对于数据中心用户来说,只需要通过软件来实现对自身...详情>>

[责任编辑:存储 chai_shasha@cnw.com.cn]