您的位置: 网界网 > 存储 > 正文

一起归档吧!

2013年11月26日 22:12:03 | 作者:Phil Goodwin | 来源:TechTarget中国 | 查看本文手机版

摘要:高效存储管理的最佳实践核心之一就是归档。这种技术能够释放出代价高昂的存储资源,改善性能,并有助于保护那些需要长期保存的数据。

标签
存储管理
数据归档
基础架构

高效存储管理的最佳实践核心之一就是归档。这种技术能够释放出代价高昂的存储资源,改善性能,并有助于保护那些需要长期保存的数据。

通常我们在某种程度上会默认将数据归档认为是某种形式的存储基础架构。在很早之前也确实如此,即将陈旧的数据从昂贵的磁盘上移除。通常这意味着将数据迁移到磁带并就此将其遗忘。一般保存期限是7年,但恢复往往是问题所在,诸如磁带的损坏、应用程序的废弃以及数据格式的转变。企业为响应各类法律相关的电子检索头疼不已,因为他们不得不检索、恢复并读取潜在的成百上千盘磁带来找寻其中的一小段数据,并且要在很短的时间内完成。

归档技术的双重角色

即便是在今天,海量数据驱使陈旧的数据迁移到更低成本的媒介,以获取直接的经济回报,然而归档技术正逐渐成为存储管理任务中的一项分支,以及驱动业务的一种应用。作为业务应用,其主要使用场景仍然是出于规范因素的数据保存;但迁移后直接将其遗忘已经远远不够了。以某种格式进行数据恢复成为必然,而且这种格式是无法预期的,取决于合规审核者或法庭的一时兴起。况且,某些数据,比如健康卫生相关的信息,需要在产生后的20年中保存查找。邮件、SharePoint以及其它文件系统数据几乎成为所有企业的问题领域,其过分消耗海量空间并且受限于法律规范。

由于各种新的需求,IT经理[注]人在部署归档方案时需以合作的方式,和业务及法务部门进行协作。IT人员很难预计到法律规范的实际要求,不过他们应当了解那些可以使归档部署有助于业务需求的技术。我们将列举出一些归档技术以使存储经理人认识到市场上大量的可选方案以及他们可以获取到的功能。

当归档技术成为管理应用时

随着归档的最终目的从存储管理转变为数据管理,归档方案有了大量数据管理应用的特性。随之而来的是关键的使用者也发生了转变。存储经理人不再是唯一的关键用户,归档应用还应当考虑CIO[注],合规主任和律师的感受。用户的关注点也倾向于更严格的行业规范,尤其是在财务和医疗行业。

归档有从通用到专用的不同解决方案。不过其中的绝大部分都包含分类、迁移、索引和数据发现特性。许多还会包含加速长期数据恢复、数据销毁、数据重复删除及压缩、单一实例存储和完整性检查的功能。而最终包含哪些特性通常由目标用户和使用场景决定。

由于早期的归档技术仅限于向离线备份磁带迁移,企业或许会将新的归档应用看成一块“新的绿地”。在绝大多数情况下,传统磁带仍需要保存在库中,只是有不同的保留和过期策略。存储经理人需要确保备份策略不会和归档策略产生冲突。过早销毁数据可能会使企业陷于法规要求时无法满足合规规范的危险境地。而另一方面,将数据多保留一些有助于电子发现工作,即便这并非强制性的要求。不管怎样,其结果对成本的影响都会让企业在各自利弊之前权衡两难。

横向应用供应商

像CommVault这样的公司是从单一出发点定位备份和归档。公司的Simpana OnePass特性旨在通过单次工作时限综合的扫描、拷贝、索引、存储和报告。数据会被迁移到Simpana ContentStore,用于所有备份和归档元数据的后端虚拟仓库。ContentStore能够对所有数据进行全局观察,数据可以进行检索、查找和重复删除。在这单一的数据仓库中可以部署例如保留、合法保存以及“防删除”等策略。CommVault公司还由于其数据源无关性,将该解决方案定位为大数据[注]应用。不过社交媒体、实时通讯(IM)、博客及相关功能并没有包含在该产品内。

归档解决方案要素

必要项:

· 数据归档

· 数据迁移

· 数据索引

· 查找工具

最好具有项:

· 数据消除

· 重复删除

· 压缩

· 单一实例存储

· 完整性检查

硬件特性:

· 可扩展性

· 成本效益

· 可靠性

· 可变性(根据要求)

· 完整性检查

EMC公司的SourceOne归档套装以及Symantec公司的Enterprise Vault是两款特别针对邮件和文件系统问题的产品,当然这两款产品也都能支持法律诉讼。SourceOne中包含针对Microsoft Exchange、IBM Lotus Notes、SharePoint和文件系统的支持组件。而且,该产品包含一个邮件控制器能够监控进出邮件的策略合规情况;该控制器能够使得金融业监管局(FIRA)合规规范的遵从更为简化。SourceOne Discovery Manager会在SourceOne仓库中检索相关信息,并能够将数据以XML格式导出到电子发现参考模型(EDRM)之中。

SourceOne基于EMC的Data Domain平台构建,这表示该公司已经进而成为整合备份和归档的“保护存储平台”。虽然目前并没有元数据可以整合的备份和归档,但这确实实现了上述目标中重复删除和单一物理平台的好处。

Symantec Enterprise Vault设计用于存储优化和电子发现。Symantec这一举措显示电子发现在美国目前已是最主要的应用,虽然在欧洲其仍混合着优化和发现的因素。鉴于Exchange 2010中移除了单一实例存储的特性,Enterprise Vault仍会对这些文件进行重复删除。重复删除的最大好处体现在备份和归档操作中。因此你可以同时获取物理空间节省以及缩短备份和归档操作时间两项好处。Enterprise Vault在所有数据源端进行重复删除,在整合归档时同样如此。其中不仅针对邮件和SharePoint文件,还包括社交媒体。同时,Symantec通过对Clearwell System公司的收购,Enterprise Vault包含一项自助的电子发现功能,适用于律师和其他非IT人士。这样就能够将IT从电子发现流程中解放出来并降低律师的成本。

专业的应用供应商

有两家更为专业的归档技术供应商,分别是Patrina公司和HP公司的Autonomy。Patrina关注金融行业,坐落于华尔街,紧靠核心市场的中心。Patrina提供基于软件即服务[注]的记录管理解决方案,包含典型的非结构化数据和邮件(+本站微信networkworldweixin),以及社交媒体、博客、即时通讯和聊天。它主要通过客户定制实现其产品的差异化,预计其90%的客户都有一定量的定制化。

对于Patrina的用户,关键在于能够发现并汇总数据。因为合规部门要求的是无法预见到的数据碎片,为了避免合规条例的更改,Patrina提供自助的数据发现以及支持团队来协助其客户。Patrina使用Windows平台,而数据则存储在仅Windows可读的、一次写入多次读取的CD中,确保媒介长期可供读取。

而HP的Autonomy产品主要针对受管辖行业的合规市场,并且强调仅归档必要的数据。这意味着有稳健的政策管理数据的整个生命周期,包括数据删除,用HP的术语称为“删除设计”。HP使用的Autonomy分析引擎是其最显著的特征。该分析引擎用来管理那些使用模式匹配和内容去“噪”的数据,并且提供大量非结构化数据信息。该技术同时能够并发扫描文本、视频和声音文件。除了非结构化数据的归档,HP已经注意到归档结构化数据的趋势,例如在某款应用程序被淘汰后。Autonomy索引所有数据源并提供压缩的单一实例存储。

存储平台的注意事项

可支持归档操作的存储平台必需具备可扩展性、数据完整性和安全性。而安全性又包含了加密和防篡改。虽然一些归档应用在软件层面提供单一实例存储和重复删除,像EMC这样的企业会利用Data Domain硬件的本机功能。

除了Data Domain平台,EMC将其Isilon横向扩展阵列产品线定位为归档平台。Isilon阵列可用于存储数百TB的数据,因此对相关数据的检索比使用的单一平台要简化许多。虽然Isilon可以明确支持传统的归档工作负载,该公司将该产品特别定位于大数据和大文件,比如地质和医疗影像文件。此外,Isilon包含一项InsightIQ管理平台来为存储管理员提供趋势报告、性能属性及其它信息以优化系统。EMC同时还有Centera内容寻址存储用于防篡改方面的要求,以及Atmos用于分布在不同区域的云环境。

HP使用HPStore-All阵列家族搭载其Autonomy应用。StoreAll的特点之一在于其不断验证特性来提供长期的完整性检查。处于该领域大规模应用的考虑,HP认为写入后的数据完整性检查是主动防止各类问题以及文件意外更改的关键。在整合Autonomy的过程中,该公司宣称HP StoreAll的Express Query特性能够以比传统文件扫描快出100000倍的速度扫描元数据,而非实际文件。

磁带仍在归档应用中发挥作用

在讨论归档技术平台不得不提到磁带技术。在这一方面,LTO阵营的线性磁带文件系统(LTFS)使得磁带从简单的媒介转变为归档方案中不可或缺的一部分。该文件系统同时跨越近线磁带盒磁盘。随着主动归档联盟行业阵营的推广,在结合自动化分层软件后,归档技术可以自动将数据移动到更低成本的媒介上。磁带仍然是数据长期存储时成本最低的媒介,而LTFS使得磁带更简便地整合到归档系统中,因为其支持相似的文件系统。Cleversafe公司(横向存储)、HP、Scality(大规模非结构化数据)以及XenData公司(视频归档)是最近加盟该阵营的。Spectra Logic公司是传统磁带供应商和主动归档联盟成员,其持续推广“归档级别”磁盘在前端磁带的使用,并提供更佳的性能和完整性检查。

参考资料

1.SaaS:软件即服务(Software as a Service,简称)有时被作为“即需即用软件”(即“一经要求,即可使用”)提及,它是一种软件交付模式。在这种交付模式中云端集中式托管软件及其...详情>>

2.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

3.CIO:(Chief Information Officer),首席信息官,亦可称之为信息主管、信息总监等,是企业中信息化建设“统筹”人,是企业中不可或缺的高级主管职位之一,主要负责企业内部信息...详情>>

[责任编辑:存储 chai_shasha@cnw.com.cn]