Hadoop

发布于 2022-04-04  107 次阅读


Apache Hadoop 概述

Hadoop是Apache软件基金会旗下的一款Java开源软件框架。其提供了大数据存储、计算的一套解决方案。
Hadoop HDFS(分布式文件系统):解决海量数据存储
Hadoop MapReduce(分布式运算编程框架):解决海量数据计
Hadoop Yarn(作业调度和集群资源管理框架):解决集群资源任务调度

Hadoop 架构变迁

Hadoop 1.0

HDFS(分布式文件存储)
MapReduce(资源管理和分布式数据处理)

Hadoop 2.0

HDFS(分布式文件存储)
MapReduce(分布式数据处理)
YARN(集群资源管理、任务调度)

Hadoop 3.0

Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。
通用方面:精简内核、类路径隔离、shell脚本重构
HDFS:EC纠删码、多NameNode支持
MapReduce:任务本地化优化、内存参数自动推断
YARN:Timeline Service V2、队列配置

Hadoop 集群

Hadoop 集群简介

● Hadoop 集群包括两个集群:HDFS集群、YARN集群(MapReduce是计算框架,是代码层面的组件,没有集群之说)
● 两个集群逻辑上分离(两个集群互相之间没有依赖、互不影响),通常物理上在一起(某些角色进程往往部署在同一台物理服务器上)
两个集群都是标准的主从架构集群

Hadoop 部署模式

单机模式 Standalone mode

一个机器运行一个Java进程所有角色(HDFS三角色+YARN两角色)在一个进程运行,主要用于调试。

伪分布式 Pseudo-Distributed mode

一个机器运行多个进程每个角色一个进程,主要用于调试。

集群模式 Cluster mode

集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上

HA高可用 HA mode

在集群模式的基础上为单点故障部署备份角色,形成主备架构,实现容错。

Hadoop 安装包目录结构


logs:Hadoop启动日志

编辑配置文件

NameNode format

hdfs namenode -format

首次启动HDFS时,必须对其进行格式化操作。
● format只能进行一次,如果多次format除了造成数据丢失外,还会导致HDFS集群主从角色之间互不识别。(通过删除所有机器hadoop.tmp.dir目录并重新format解决)
● format本质是初始化工作,进行HDFS清理和准备工作。

HDFS 集群启动关闭

逐个进程启停

● 每台机器上每次手动启动关闭一个角色进程
● 优点:精准控制每一个进程的启动和关闭
● HDFS集群

hdfs --daemon start namenode|datanode|secondarynamenode
hdfs --daemon stop namenode|datanode|secondarynamenode

● YARN集群

yarn --daemon start resourcemanager|nodemanager
yarn --daemon stop resourcemanager|nodemanager

一键启停

● HDFS集群

start-dfs.sh
stop-dfs.sh

● YARN集群

start-yarn.sh
stop-yarn.sh

● Hadoop集群

start-all.sh
stop-all.sh

Hadoop生态系统

分布式文件系统 HDFS

MapReduce