hadoop教程 安装hadoop步骤
一、Hadoop如何快速入门
简单来说下,我对hadoop的理解。
狭义上说:
Hadoop1.x版本是hdfs+mapReduce
Hadoop2.x版本是hdfs+yarn+mapReduce
广义上说:
haddop是一个生态。
建议从1.x到2.x,先看架构,了解1.x的架构以及缺点不足,2.x是如何改进的。现在推出的3.x又有什么改进呢?
生态圈,都有什么?每个模块是做什么的?工作中会有什么应用场景?
以上是学习思路,仅供参考,欢迎与我在线交流
二、学Hadoop需要哪些基础知识来支撑
Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。本简要教程提供了大数据,MapReduce算法和Hadoop分布式文件系统的快速介绍。
适合人群
本教程为希望通过HadoopFramework学习大数据分析基础知识并成为Hadoop开发人员的专业人员准备。软件专业人员,分析专业人员和ETL开发人员是本课程的主要受益人。
预备知识
在开始本教程之前,我们假设您已经接触过CoreJava,数据库概念和任何Linux操作系统。
HadoopAPI类库
更多HadoopAPI详细内容,请参考:HadoopAPI类库
Hadoop教程内容导航
三、学习大数据Hadoop需要哪些基础
Hadoop是目前被广泛使用的大数据平台,Hadoop平台主要有HadoopCommon、HDFS、HadoopYarn、HadoopMapReduce和HadoopOzone。
Hadoop平台目前被行业使用多年,有健全的生态和大量的应用案例,同时Hadoop对硬件的要求比较低,非常适合初学者自学。目前很多商用大数据平台也是基于Hadoop构建的,所以Hadoop是大数据开发的一个重要内容。
学习Hadoop开发需要有三个基础知识,下面进行分别介绍:
第一:Linux操作系统知识。通常情况下,Hadoop平台是构建在Linux系统之上的,所以学习Hadoop首先要学习Linux操作系统的使用。目前比较流行的Linux操作系统包括CentOS和Ubuntu,这两个Linux系列操作系统有广泛的应用场景。学习Linux并不复杂,通常情况下可以在虚拟机上完成,很多初学者都是在虚拟机上搭建一个伪分布式集群,然后完成Hadoop实验。
第二:编程语言。目前在Hadoop平台下多采用Java和Python来完成程序的编写,由于Hadoop本身是采用Java语言编写的,所以在Hadoop平台下采用Java语言是比较方便的选择,Hadoop的官方demo往往也是采用Java语言实现的。Python语言由于比较简单,同时Python有丰富的库可以使用,所以目前使用Python完成Hadoop平台的开发也是一个比较常见的选择。另外,在Spark平台下Scala也有广泛的应用。
第三:算法。大数据的核心就是数据价值化的过程,而算法设计则是数据价值化的基础。因此,大数据平台的开发离不开算法,要想学习Hadoop开发一定要有一个扎实的算法基础。
Hadoop平台自身有非常丰富的开发组件,所以学习Hadoop的过程还是比较漫长的,由于大数据开发有较强的场景特征,所以建议结合具体的场景来完成Hadoop平台的学习。
大数据是我的主要研究方向之一,目前我也在带大数据方向的研究生,我会陆续在头条写一些关于大数据方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。
如果有大数据方面的问题,也可以咨询我。
谢谢!