1. 初识 hadoop shell 命令
在启动 dfs 后,可以通过 Hadoop 提供的 shell 命令进行操作
2. 创建项目
2.0. 预备
2.1. 修改 maven settings
路径在 maven/conf/settings.xml
2.1.1. 修改本地仓库路径
Caution
Windows 下的文件目录使用 \\
来进行引导
2.1.2. 修改镜像为阿里云
2.2. 通过 IDEA 创建项目
2.2.1. 通过 maven 环境管理创建
2.2.2. 选择项目目录,并写入 GroupId,以及项目名称
2.2.3. 选择刚刚在 maven settings 中修改的配置
2.2.4. 自动下载
2.3. 修改项目配置
2.3.1. pom.xml
配置
在项目创建时,项目会自动生成 pom.xml
文件,对它进行一些修改。
- 添加
hadoop
版本
- 添加
hadoop-common
依赖
- 添加
hadoop-hdfs
依赖
2.3.2. 修改本机 hosts
在本机上添加 hosts,路径在 C:\\Windows\\System32\\drivers\\etc\\hosts
2.3.3. 虚拟机中打开端口
为了省去一些麻烦,在虚拟机中关闭防火墙
打开 hdfs 服务
2.4. 在 App.java 中测试
在 IDEA 中打开 main.java.cn.edu.nnu.App
,尝试使用 Java 代码创建一个目录。
3. 使用 Java 代码对 hadoop 文件系统进行操作
App
类模板
3.1. 创建文件夹
3.2. 上传
3.3. 下载
3.4. 删除
3.5. 使用流操作进行传送
4. 伪分布式 Hadoop
4.1. 删除临时文件
4.1.1. 删除 tmp 文件夹和 hdfs 文件夹
4.1.2. 修改 hdfs-site.xml
本机内存为 8G,将会使用 1 台 master 虚拟机和 2 台 slave 虚拟机,因此将 hdfs-site.xml
中的 value
值改为 3
4.1.3. 添加数据节点主机名
修改配置文件 hadoop/etc/hadoop/slaves
,写入的从机作为数据节点的服务器。
4.2. 克隆虚拟机
本机内存为 8G,因此克隆 2 台从属机,并且使用链接克隆。
4.3. 修改 IP & 修改主机名
4.3.1. 将 hadoop2 的 IP 地址分别改为预订的 IP
4.3.2. 重启网络服务并重连从属机
4.3.3. 使用命令改变主机名
4.3.4. 对于克隆机 hadoop3 也做同样的操作,IP 地址使用预写的 172.22.0.5
4.4. 开启伪分布式文件系统
4.4.1. 测试每一台主机之间的连接
使用 ssh
命令测试每台主机之间两两互相连接。
4.4.2. 关闭三台虚拟机的防火墙
4.4.3. 重新初始化 NameNode
在 master 主机上执行命令
4.4.4. 开启文件系统
在 master 主机上开启文件系统
master 主机上的节点
slave 从机上的数据节点
4.4.5. 运行测试程序
回到 IDEA,运行刚才写的程序。在 172.22.0.3:50070
端可以看到上传的文件,有多个副本 (Replication)。