大数据时代 微软被迫接受开源

新闻来源:51CTO
微软于2012年春季启动了永久VM特性的一个社区技术预览(Community Technology Preview, CTP)测试构建(test-build)。微软自己已经为支持永久VM,特别是在上面支持Linux,作好了准备。微软将允许用户在Azure上建立永 久VM这一事件来得并不意外。 虽然Azure拥有永久存储能力,但其无法保持一个永久VM的缺陷已惹恼了许多人,而且他们不光是Linux服务器管理员。 还有部分SharePoint和SQl Server管理员,他们曾为此缺陷而有意避开Azure。其实也有办法弥补Azure无法保持永久VM的缺陷,但它们都不简单。

在过年几年的时间里,从SUSE Linux开始,微软已经在其Hyper-V 虚拟机平台上对Linux提供了支持。今天,微软还支持上了Red Hat Enterprise Linux (RHEL) 和CentOS。此外,还有传言称去年夏天,微软打算在Hyper-V上支持Debian 和Ubuntu,但后来就不了不之了。微软当时没支持Linux 是因为它太爱Linux 了;它当时支持它,是因为它的顾客需要Linux服务器支持;现在,顾客更是更进一步地推动微软去支持Linux,不过此时已经是在云端。

而今,微软的业务顾客正要求在云端有同样的VM支持,而微软则不得不提供这一支持。正如发言人Foley 报道的,“在Azure上运行Linux已经成了一个大得惊人的业务顾客需求”。亚马逊弹性计算云(EC2)上操作系统的云市场分析表明,相比1,120 个Windows实例,有6,556个Linux实例在云上运行。几乎6:1的比例。

大数据的泡沫在毫无止境的膨胀,它给IT企业带来了颠覆性的改革。 Hortonworks的CEO Eric Baldeschwieler表示,目前企业中80%的数据是非结构化数据。更为雷人的是这些数据在以60%的速度呈现指数级增长,到2020年,全球数 据使用量预计将暴增44倍,达到35.2ZB(1ZB=10亿TB)。大数据的急剧蔓延使得企业在存储架构方面逐渐面临着史无前例的考验,由此引发了数据 仓库、数据挖掘、商业智能、云计算等应用的一连串连锁反应。

各大企业巨头纷纷有所行动,雅虎、AOL、谷歌、Facebook等早期采用并使用Hadoop来存储和分析PB级别的非结构化数据。IBM也在 SmartCloud 平台上新增基于 Apache Hadoop 的服务 InfoSphere BigInsights 分析软件。Oracle的Big Data机采用了NoSQL数据库和Hadoop框架。EMC也推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备—— Greenplum HD数据计算设备。Google 的网络搜索引擎在得益于算法发挥作用的同时,Hadoop的核心MapReduce 在后台发挥了极大的作用。亿贝的Hadoop系统能够很好地处理大规模非结构化数据,高效处理用户邮件数据。

Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域 Hadoop已经成为分布式数据处理的标准。通过集成Hadoop技术,Microsoft允许客户访问快速增长的Hadoop生态系统。同时随着越来越 多善于在Hadoop平台进行开发的人才涌出,这对Hadoop发展极其有利。

Microsoft的目标不仅仅是将Hadoop集成到Windows系统之中,Microsoft有意向Apache Hadoop社区贡献代码,并希望得到社区的采纳。最终使任何人都可以在Windows上运行纯粹开源的Hadoop。

Microsoft的Hadoop版本目前发展到“客户技术预览版”的阶段。这意味着Microsoft在接受客户群体的评价,预计正式版会在 2012年中期推出。Microsoft的Hadoop基于Windows Server平台或Microsoft云平台Azure之上。在将要推出的1.0版本之中,产品核心包括MapReduce、HDFS、以及Hadoop 组件Pig和Hive。

Microsoft的目标是兼容所有的Hadoop组件。Hadoop生态系统中的Zookeeper、HBase、HCatalog和 Mahout等组件也会被附加到Microsoft的Hadoop版本之中。在后端,Microsoft对Hadoop进行了其他的改 善,Microsoft将整合Active Directory方便访问控制。同时集成System Center用于管理人员管理。

Microsoft官方计划在即将于6月举行的TechED大会上公布有关WAAD(Windows Azure Active Directory)的更多细节。这与Microsoft在Windows Server系统上的Active Directory的概念如出一辙。未来使用ACS(Access Control Service)与现有的Active Directory部署时可保证良好的互操作性。

历史回眸

1984年,Richard Stallman 发起GNU和Free SoftwareFoundation,至今,开源已经有28年的历史。从最底层的操作系统到高级桌面应用,都有开源的足迹。而其中尤以开源操作系统 Linux争议引人注目,也受到许多的商业攻击。很多人喜欢把开源和商业放到一起去比,以指责开源是如何的“不正规”、“耗费精力”、“不稳定”等等,其 中尤以微软为甚。

对付开源微软公司最擅长的莫过于专利,十几年前只有200件专利,而现在的专利数就达到了每年3000件。红帽公司的法律顾问韦布力克(Mark Webbink)认为微软此举的目的正是出于保护商业利益和限制竞争对手的考虑。 据悉,由于在查询专利侵权方面成本很高(每查询一次专利就耗费5000美元),很多Linux的客户或开发人员在专利问题上投入的精力不多。一旦遭到侵权 指控,他们将处于弱势地位。

微软对Linux有很多杀招,比如通过访问与Linux相关的网站和新闻组,甚至直接与开源软件的投资人电话交谈,充分了解Linux的运作情况, 以便最终摧毁Linux。雇佣大量的Linux开发人员,其中包括前IBM的Linux技术负责人,对大约20种开源软件进行测试、研究,找出其弱点进行 攻击。(这就是微软雇佣Linux开发人员的真相)

微软还资助约13个有关Linux与其自己的产品进行比较的研究,发动”真相运动”,攻击Linux的成本优势。在Linux潜在用户中制造不确定 性,动摇其使用Linux的决心。为此资助SCO继续与Linux的主要支持者IBM进行法律诉讼。获得与Linux相关的专利,声称要起诉侵犯其专利的 企业。采用灵活的价格策略,阻止用户迁移到Linux上。针对Linux的中间销售商,进行所谓的”深度谈心”,要他们同时销售其产品。