hadoop简介

2013-02-22|来源: 黄奕能

Hadoop的源起——Lucene

l Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎

l 早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目

l Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎

l 对于大数量的场景,Lucene面对与Google同样的困难。迫使Doug Cutting学习和模仿Google解决这些问题的办法

l 一个微缩版:Nutch


从lucene到nutch,从nutch到hadoop

l 2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升

l Yahoo招安Doug Cutting及其项目

l Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的 一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中

l 名字来源于Doug Cutting儿子的玩具大象


目前Hadoop达到的高度

l实现云计算的事实标准开源软件

l包含数十个具有强大生命力的子项目

 

l已经能在数千节点上运行,处理数据量和排序时间不断打破世界纪录


本文链接:hadoop简介,本文由领悟书生整理发表,转载请注明出处http://www.656463.com/article/375

相关问答

更多

java框架技术简介

重点推荐spring框架,非常实用。 基本上把所有事情都做了,只剩下业务逻辑留给你自己实现。

hadoop视频教程

目前hadoop视频教程网上太少了,免费的都是很基础的东西,我这里有一套30课时的教程,结合3个实战项目对hadoop进行详细的剖析

hadoop下载,hadoop视频

hadoop算是当前最热门的技术了,越来越多的企业需要这方面的人才,如果能学好这个技术,将来的前途是无可限量的 。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应 用程序。它主要有以下几个优点: ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点 中。 ⒊高效性。Hadoop能够在节点之间动态地移动数据,并 ...

hadoop云计算

Hadoop是由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSI ...

hadoop 链接eclipse的连不上

1请选择和环境匹配版本hadoop-eclipse的jar包 2请正确填写插件中hdfs、mapreduce的host和port 3请检查hadoop集群是否正常运行