在ubuntu系统上使用Hadoop搭建集群

hadoop-env.sh ：配置运行时的环境，指定JAVA_HOME的安装目录：export JAVA_HOME=安装目录（注意必须直接指出安装路径，不能使用$JAVA_HOME,否则运行时会报错找不到JAVA_HOME）
slaves （标明所有的附属节点主机名，使用该主机名可以直接ssh登录主机）（该文件仅master节点持有）把所有从节点的主机名写到这儿就可以，这是告诉hadoop进程哪些机器是从节点。每行写一个，例如

前提是你已经为每个节点进行了hostname的命名。而且每个节点的hosts文件你修改了本地dns的指向，让这些主机指向约定好的IP。然后每个节点的hosts文件保持同步。
核心配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

core-site.xml :文件系统采用hdfs实现、临时数据存放的位置、缓冲区大小，实际工作中根据服务器性能动态调整、开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收

hdfs-site.xml :

mapred-site.xml

yarn-site.xml :这个文件就是配置资源管理系统yarn了，其中主要指定了一些节点资源管理器nodemanager，以及总资源管理器resourcemanager的配置。可以看到这个配置中，跟mapreduce框架是相关的。

执行NameNode的格式化：hdfs namenode -format（第一次启动服务前进行的操作，之后再开启集群无需此操作）
启动 Hadoop：
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
可以在master和slave节点上使用jps命令查看各个节点所启动的进程

master

slave1
关闭集群
stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver