您的位置: 网界网 > 存储 > 正文

部署大数据项目 必须要了解的十件事

2013年04月19日 19:24:50 | 作者:转载自网络 | 来源:51CTO | 查看本文手机版

摘要:怎样才能使企业运营中产生的大数据变得更少,而不是让企业必须要保留下数百TB的信息?这主要取决于客户的需要和处理优先级。

标签
存储
大数据
数据压缩

怎样才能使企业运营中产生的大数据[注]变得更少,而不是让企业必须要保留下数百TB的信息?这主要取决于客户的需要和处理优先级。广告及调研公司Interclick认为,一个快速的平台能够使得生产更加高效,同时还可以提供近乎于实时的数据洞察力;哈佛医学院认为,一些理论上经年不变的数据,比如说病人总数以及数年的研究数据,实际上也会不断增长。另外,数字媒体监测公司comScore拥有12年的数据压缩经验,其主要通过一种列存储数据库(column-store databases)来应对数据增长的挑战。事实上,这家公司主要使用排序技术来优化数据压缩,同时减少对数据处理的需求。

雅虎、eHarmony、Facebook、Netflix以及Twitter都认为,Hadoop是一个理想且低成本的处理非结构化数据的平台。不过,这个开源项目也并不仅仅适用于大型互联网企业。摩根大通和其他主流行业的企业,也正在应用Hadoop。数据供应商InfoChimps认为,随着越来越多有助于部署的附加组件和辅助应用的出现,Hadoop正在快速地走向成熟。

要知道,并非所有的大数据部署都要以总规模来衡量。以LinkShare举例,其只保留了数个月的内容或者数据,但这家公司每天都要读取数十GB的内容,并且必须迅速做出分析,因此其所谓的大型部署实际上是建立在每日分析的规模上缓慢进行的。因此,最重要的教训也就是本文最后Richard Winter的建议要注意数据仓库所有六个维度的可扩展性只有这样,才能够为某个提案系统地阐发准确的需求,为最苛刻的需求进行测试,并做出能够满足长期需求的恰当的技术投资。

一、快速分析提高生产力

大规模并行处理平台、列存储数据库、数据库处理技术,以及内存计算等项目,可以将数据查询时间从以天或小时为单位,削减到以分钟或秒为单位。不过,为什么我们需要这么快的速度呢?Interclick公司发现,实施快速分析所带来的最明显的好处就是生产力的提高快速的响应时间使得查询次数能够变得更多,或者能够使得数据分析的层级更加深入,甚至于可以实现“鱼和熊掌兼得”的效果;第二个好处,是几近实时的洞察力这样一来我们就可以迅速展开行动,而不会让机会溜走。

通过快速的响应速度实施,Interclick可以在数小时甚至数分钟内就为广告业主提供上网用户行为演示,进而达到细分广告目标人群市场的效果。举例来说,航空公司、连锁酒店以及汽车租赁机构的广告,就可以在用户访问旅游相关网站后迅速展现在他面前。而在这时,用户可能还没有做出相关的旅行安排。

二、了解所有的动态

当规划一个针对数据仓库的投资时,我们的眼光不要仅仅停留在那些客户,记录或交易数量的多少这是哈佛医学院所传授的重要一课。

哈佛医学院拥有着长达约20年的医疗记录,以研究各种药物的疗效和不同药物的风险状况。当病人的数量和时间积累到一定幅度时,新的指数就会补充到每一份医疗记录中,比如身体质量指数,以及低密度脂蛋白胆固醇。

数据以意想不到的方式生长,因此,我们需要在理清项目需求之前了解所有的动态。

三、压缩因数据而异

更好的数据压缩方式能够节省存储空间,更为重要的是,甚至每TB的硬件成本都会下降。 像HP Vertica、Infobright、ParAccel以及Sybase IQ这类列存储数据库,可以实现30:1或40:1的压缩率。而行存储数据库(row-store databases)产品,如EMC Greenplum、IBM Netezza和Teradata的平均压缩比是4:1。这是因为列状的数据是一致的,而行存储的数据则是混合保存。Aster Data和甲骨文的数据库提供列/行存储混合的功能,甲骨文的Hybrid Columnar Compression(混合列压缩)可以使压缩比达到10:1。

压缩级别的不同因数据而异,我们要牢记的是,列存储数据库并不总是最好的选择。如果客户的查询需要调用多种属性,一个行存储产品可能会提供更好的性能。事实上,行存储数据库更常用于处理混合查询的企业级数据库,而列存储数据库更多时候则主要用于集中的数据查询。列存储数据库的用户包括数字媒体监测公司comScore,其自1999年以来就一直在应用Sybase IQ;同时,快速增长的在线网站Interclick也于2009年部署了ParAccel。

四、排序改善压缩

与将列数据保持一致能够提高压缩比一样,客户也可以通过在数据读取前对数据进行排序来改善数据压缩。在数据被读取到Sybase IQ前,comScore使用了Syncsort DMExpress软件来对数据进行字母排序。comScore公司CTO Michael Brown表示说,10个字节的经过排序后的数据,通常可以被压缩到1个字节,“这使得我们的数据总量和实际存储空间总量间,形成了巨大的反差。”

排序还可以简化处理流程。排序也是IBM、Informatica、甲骨文、SAP、SAS、Syncsort以及其他软件所集成的一个共通的特性化功能。对于真正意义上的大型数据群集来说,Hadoop是一个对数据进行排序和其他处理步骤的好选择。

五、应用Hadoop者众

Apache Hadoop是目前发展最快的开源项目之一,其是一个用于处理分布式数据进程(特别是大量的非结构化数据)的组件集合,比如像Facebook的文章评论和Twitter的微博信息、电子邮件和即时消息,以及安全和应用日志。而MapReduce是一个为Hadoop所支持的针对大批量信息快速处理的程序模型。传统的关系型数据库,如IBM Netezza、甲骨文、Teradata以及MySQL都无法处理这类分布式非结构化数据,这是因为其并不适合被整齐地排列成行或列。而且,即使这些传统关系型数据库能够做到处理工作,其授权(license)成本依然会让人望而却步,要知道我们所谈到的数据容量可是上百TB甚至以PB计算的。

Hadoop是一款免费的软件,而且可以在低成本的成品硬件上运行。

应用Hadoop的先驱包括雅虎、eHarmony、Facebook、Netflix和Twitter,此外摩根大通等金融巨头也在将Hadoop引入日常工作。越来越多的商业支持选项,将会帮助Hadoop成长。

六、在Hadoop平台上飞奔

根据预测,未来Hadoop的市场价值将增长到数十亿美元,同时其配套产品和集成方案数量正在日益增加。著名的数据整合厂商Informatica、Pervasive Software、SnapLogic和Syncsort等都发布了相应的产品和集成方案,这些公司都希望自己的方案和产品能够同Hadoop这个年轻的处理平台一起更快、更简单地协同工作。

Pervasive Software的Data Rush工具,优化了数据在Hadoop中的并发和并行处理;数据供应商InfoChimps使用Data Rush整合了Hadoop实例,并运行在了亚马逊的弹性云(EC2)上。InfoChimps的CTO Philip Kromer表示说,通过对Data Rush的测试,在处理上百GB的数据时性能得到了2至4倍的提升,同时将原本16小时的工作时间缩减到了4~8个小时这使得InfoChimps能够降低计算成本,同时也可以从Twitter和其他非相关数据源获得更多的数据。

Informatica、SnapLogic、Syncsort和其他厂商,正在努力在单一工具集中实现传统数据库和Hadoop部署的数据加载、排序和汇总。一个单一且易上手的方式和工具集,能够让客户的数据管理专业人员在处理工作时更加得心应手。

七、分析数据获取价值

在许多情况下,大数据的“大”并非是指数据库的无限扩展(+微信关注网络世界),而是尽可能多地加载和分析每天的信息数量。比如说,市场营销人员通常需要读取和分析大量的数据,以尽快获得敏锐的市场洞察力,迅速确定新的细分市场和列表,并为下个计划改善目标定位或内容创意。

广告网络服务商LinkShare每天都会对数十GB的点击流量进行读取和分析,来为发行商和广告业主提供搜索、潜在客户实施流程以及附加市场机会等服务,不过其数据库总量却仅仅只有6TB左右。低延迟的市场洞察力,现在是LinkShare的一个强劲的竞争力。

八、大厂商的蛋糕

Netezza和Greenplum在2005年前后切入了由甲骨文、IBM DB2和Microsoft SQL Server把持着的数据仓库市场,时代已经变了。甲骨文于2008年推出了Exadata,IBM则在去年买下了Netezza,而微软已经开始出货SQL Server 2008 Parallel Data Warehouse(PDW)并行数据仓库设备。IBM、微软和甲骨文的客户,现在已经有了充分的理由去对现有供应商进行考量。举例来说,DirectEdge证券交易所一直以来都是微软的客户,因此PDW就成为了“一个显而易见的选择”。

汽车数据提供商Polk公司是甲骨文的客户,其数据库开发和运营总监Doug Miller说,公司选择Exadata的很大一部分原因,是工作人员对管理这一类型数据库比较熟悉,他们正在等待着第二版的产品更新。

九、可贵的兼容性

有些数据仓库平台提供了对前一代产品的兼容性,而其他产品则要强制用户去进行数据迁移和产品更迭。Teradata数据仓库一直以来都保持着对前几代产品之间的兼容性,用户可以混合使用新旧硬件来提升整体环境规模。

不过,即使用户能够选择兼容性,仍然会遇到障碍:数据库的版本和可混用的硬件厂商都是有限制的。因此,在部署前,用户需要仔细考量供应商的产品兼容性,同时对路线图升级要有长远眼光。

零售业巨头沃尔玛应用Teradata已经超过了20年。去年,作为新协议的一部分,沃尔玛的Teradata应用部署将继续扩大和更新。一般来说,到达“服役期”的硬件通常都会为升级提供很好的理由。根据介绍,同上代产品相比,最新的Teradata产品能够减少50%的占地面积,降低40%的能源消耗。

十、考虑六方面的可扩展性

数据库专家Richard Winter建议,对于规划新的数据仓库平台投资时,要考虑六个方面的可扩展性:数据的大小、数据的复杂性、用户数、查询量、查询的复杂性以及数据延迟要求。大量的并发用户(1000名、10000名乃至更多),混合查询以及复杂的分析,会被纯粹的大数据规模所制约。如果无法遵循以上这六个方面,那么很可能会发现其系统不堪重负的速度要比预期更快。

最后,用最复杂的数据,以及最难的查询需求去测试那些数据仓库平台,这是非常有必要的;同时,对将要面对的并发用户工作量进行复制,以及进行混合查询,这样也将可以挑战那些接受测试的数据仓库平台。

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:存储 chai_shasha@cnw.com.cn]