重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。今天加米谷大数据就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备。
狭义上,Hadoop就是单独指代Hadoop这个软件;
广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件。
Hadoop的起源
1、2001年,Nutch问世。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题;
2、2003-2004年,Google发布论文:GFS、MapReduce,受此启发的Doug Cutting等人实现了NDFS(HDFS的前身)和MapReduce机制,使Nutch性能飙升;
GFS:Google的分布式文件系统Google File System
MapReduce:Google的MapReduce开源分布式并行计算框架
3、2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会;
4、2006年,Hadoop(HDFS+MapReduce)从Nutch中剥离成为独立项目。Doug Cutting加入Yahoo,领导Hadoop的开发。
.在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:529867072 ,裙文件有我这几年整理的大数据学习手册,开发工具,PDF文档书籍,你可以自行下载。
Hadoop的发展简史
5、2006年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展;Yahoo建设了第一个Hadoop集群用于开发;4月,第一个Apache Hadoop发布;11月,Google发表了Bigtable论文,Hbase的创建的灵感来源;
BigTable:一个大型的分布式数据库
演变关系:
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase
6、2007年,第一个Hadoop用户组会议召开,社区贡献开始急剧上升;同年,Facebook开始使用Hadoop,百度开始使用Hadoop做离线处理,中国移动开始研究使用Hadoop;
7、2008年,Hive、HBase问世,Hadoop成为Apache顶级项目。8月,第一个Hadoop商业化公司Cloudera成立。同年,淘宝开始使用Hadoop;
8、2009年-2012年,Hadoop不断发展。
2009年Cloudera推出CDH平台(首个Hadoop发行版),完全由开放源码软件组成。《Hadoop权威指南》初版出版(被誉为Hadoop圣经);2010年,HBase、Hive( Facebook) 、Pig脱离Hadoop,均成为Apache顶级项目;Hadoop社区建立大量新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性;2011年,ZooKeeper 脱离Hadoop,成为Apache顶级项目;加米谷大数据培训机构,6月大数据开发0基础班、提高班,即将开课,预报名中... 2012年,Yarn成为Hadoop子项目;
9、2014年,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。
Hadoop能干什么?
大数据存储:分布式存储
日志处理:擅长日志分析
ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
机器学习: 比如Apache Mahout项目
搜索引擎:Hadoop + lucene实现
数据挖掘:目前比较流行的广告推荐,个性化广告推荐
Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。
学习Hadoop前的准备:
准备电脑(用于学习):内存最少8G、CPU起码四核(cpu i5 系列)
支持平台:Linux(CentOS)(产品开发和运行的平台)
所需软件:以Linux为例
Java8.0,必须安装,建议选择Oracle公司发行的Java版本。
ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。
安装所需软件:以Linux为例
$ sudo yum install ssh
$ sudo yum install rsync
下载Hadoop的发行版并解压安装
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。