您的位置: 网界网 > 存储 > 正文

大数据的理想与现实

2012年08月08日 20:36:40 | 作者:周源 | 来源:CNW.COM.CN | 查看本文手机版

摘要:大数据的价值和重要性已经毋庸置疑,但大数据究竟带来了哪些新的技术趋势,它对当前IT产业的势力格局会造成何种影响,更关键的是,每个企业如何才能获取大数据中的“宝藏”?则是我们真正关注的焦点。

标签
英特尔
大数据
Hadoop

一是大数据[注]将创造细分的市场。数据分析、数据代理将可能作为一种服务出现,专门面向数据分析人才培训的市场也会随之火爆。当然,肯定还有一些目前无法想象的细分市场涌现出来。

二是将可能出现打包的大数据行业应用。“从传统概念来讲,大数据太复杂了,无法形成打包好的分析应用,但是在未来几年中,某一个行业的应用会形成一定的共性,将会有厂商根据行业的分析应用,打包好一些分析的应用,然后将基于大数据的分析应用推广到行业方面,这不仅需要做数据分析的专长,也需要很多行业方面的专业知识,将会有很多行业的ISV加入到大数据行列中,基于大数据平台开展他们的大数据分析应用。” 周震刚说。

事实上,有些动作敏捷的IT公司已经开始与一些专注于特定行业需求的本地系统集成商协作,开始构建专为相关行业应用优化的大数据解决方案。例如,英特尔正在支持2011年夺得全世界视频监控产品市场份额第一,并在全球安防领域内拥有最大规模研发中心的海康威视,去开发和推广基于至强平台和英特尔发行版Hadoop的大数据处理方案,以满足平安城市和智能交通应用对海量非结构化数据进行高效处理的要求。

总之言之,大数据市场正在积蓄无限商机。根据IDC的预测,到2015年,全球大数据市场规模将从2012年的20亿美元增长至160亿美元。无疑,企业级市场将对此增长贡献良多。

征战新蓝海 IT厂商布局忙

拥有广阔市场发展前景的大数据俨然成了一众IT厂商心中的新蓝海,IT厂商们早已开始为此排兵布阵。他们或发布战略、或推出产品,各种合作、收购动作频频,着实热闹。

例如,2010年IBM收购了数据分析公司Netezza,并在去年5月推出了InfoSphere BigInsights软件(该软件包包括Apache Hadoop发行版);惠普不仅将Vertica揽入怀中,还重金收购了对Autonomy,并于今年推出了与Vertica 6实现高级集成了的大数据应用平台HP AppSystem for Apache Hadoop;EMC自收购Greenplum后,很快发布支持大数据分析的下一代EMC Greenplum统一分析平台;甲骨文则通过NoSQL数据库和Big Data Appliance(大数据机)让客户直接拥有处理非结构化海量数据的能力;而HANA则让SAP享有风光无限;戴尔选择联手Cloudera跻身Hadoop阵营;微软已推出了基于Azure云平台的Hadoop服务;就连传统芯片厂商英特尔也宣布,不仅继续打造的高效IT基础设施,还推出了针对英特尔平台优化的Hadoop产品和服务。

市场研究Wikibon认为,得益于深厚的积累,IBM、英特尔这些老牌劲旅目前还是占据了优势地位。根据该公司的调研报告,IBM所占有的大数据市场份额最大,总价值约10亿美元,英特尔的大数据运营收入为7.65亿美元,惠普则位列第三,分得5.5亿美元。

此外,Cloudera、Splunk 、Clustrix、1010data等一些新兴的大数据企业异军突起,它们力争在未来庞大的市场需求中打拼出自己的创新空间。不过,令人较为遗憾的是,国内类似的大数据创新企业还比较少,希望这一局面能够尽早得以改变。

文章最后,请容许笔者引用戴尔服务部首席创新官James Stikeleather的一句话寄语已经莅临的大数据:“对于一项新技术,人们总容易高估它的短期影响,又低估它的长期效益。”

【表】IDC全球大数据市场规模与预测 2012~2015

【IDC对大数据的十大预测】

1. Hadoop迈向商业化

2. 部分早期的Hadoop项目面临挑战

3. 开源软件带来更多相关市场机会

4. 大数据推动软件公司间的并购

5. 针对大数据的应用市场迅速增长

6. 大数据由网络处理走向企业级应用

7. 大数据创造新的细分市场

8. 打包的大数据行业分析应用出现

9. 大数据推动基础架构向Scale-Out发展

10. 中国成为全球最重要的大数据市场之一

【关于Hadoop,你应该知道的8个事实】

事实1:Hadoop是由多个产品组成的。

人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的开源产品共同组成,这些产品都是Apache软件基金会的项目。

事实2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。

由于Hadoop属于开源技术,可免费下载,所以英特尔、IBM、Cloudera等厂商都可以推出他们各自的Hadoop特别发行版本。这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务,特别适合企业用户。

事实3:Hadoop是一个生态系统,而非一个产品。

Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop产品的结构化和关系性更强一些。

事实4:HDFS是文件系统,而不是数据库管理系统。

经常有人把二者混为一谈,但其实并非如此,能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。而且,在数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

事实5:Hadoop的意义不仅仅在于数据量,更在于数据的多样化。

有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据(主要指半结构化与非结构化数据)处理的能力。

事实6:Hadoop是数据仓库的补充,不是数据仓库的替代品。

Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,但其实并非如此,传统数据仓库在其领域中的性能仍然出色,Hadoop对数据仓库技术是补充的作用。

事实7:大数据不一定非Hadoop不可。

别看现在大数据和Hadoop已经密不可分,但Hadoop并不是大数据的“唯一”。许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被惠普收购)等都适用于大数据分析。

事实8:Hadoop不是“免费午餐”。

虽然Hadoop属于开源技术,但其实有许多隐形开销。由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,企业用户只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲,更不用提部署Hadoop集群的硬件及相关配置的成本。

 

123 4

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:周源 zhou_yuan@cnw.com.cn]