HTTP方式在线访问Hadoop HDFS上的文件解决方案

背景：

在做大数据和大模型产品的时候，方式设计的是将文件放在hdfs上进行管理，前几天遇到一个需求：需要通过http的方式去访问hdfs上的问题，以前基本上都是通过hdfs://hadoop01:9000,去访问文件，于是经过一番调研对这个进行一下总结，为后续做个记录。

为了通过HTTP方式在线访问HDFS上的文件，您可以利用WebHDFS REST API或者HttpFS Gateway这两种机制实现。以下是使用这两种方式访问HDFS文件的基本步骤。

注：本例使用的是Hadoop2.7.X版本，请各位同学留意！

一、使用WebHDFS REST API

1.HTTPFS简介

1：httpfs是cloudera公司提供的一个hadoop hdfs的一个http接口，通过WebHDFS REST API 可以对hdfs进行读写等访问

2：与WebHDFS的区别是不需要客户端可以访问hadoop集群的每一个节点，通过httpfs可以访问放置在防火墙后面的hadoop集群

3：httpfs是一个Web应用,部署在内嵌的tomcat中

2.webHDFS设置

做这个的前提是Hadoop已经安装ok，没有任何问题了，如果安装Hadoop步骤或问题，可参考博主的这篇文章：超详细的Hadoop集群部署_hadoop部署-CSDN博客

namenode的hdfs-site.xml是必须将dfs.webhdfs.enabled属性设置为true，否则就不能使用webhdfs的LISTSTATUS、LISTFILESTATUS等需要列出文件、文件夹状态的命令，因为这些信息都是由namenode来保存的。

在namenode和一台datanode中向 etc/hadoop/conf/hdfs-site.xml中添加属性：

vi hdfs-site.xml

复制代码

<property>
  <name>dfs.webhdfs.enabled</name>
  <value>true</value>
</property>

3.使用说明

Hadoop 2.x版本可能会监听在50070端口提供Web界面

访问namenode的hdfs使用50070端口，访问datanode的webhdfs使用50075端口。访问文件、文件夹信息使用namenode的IP和50070端口，访问文件内容或者进行打开、上传、修改、下载等操作使用datanode的IP和50075端口。要想不区分端口，直接使用namenode的IP和端口进行所有的webhdfs操作，就需要在所有的datanode上都设置hdfs-site.xml中的dfs.webhdfs.enabled为true。

4.curl 操作命令示例

(需要将 host 替换为实际部署 httpfs 的服务器 IP)

复制代码

curl -c ~/.httpsauth "http://host:50070/webhdfs/v1?op=gethomedirectory&user.name=hdfs"

curl -b ~/.httpsauth "http://host:50070/webhdfs/v1?op=gethomedirectory"

curl -b ~/.httpsauth "http://host:50070/webhdfs/v1/test/data1.txt?op=OPEN"

curl -b ~/.httpsauth -X DELETE "http://host:14000/webhdfs/v1/test/data1.txt?op=DELETE"
创建和追加都是分为两步，测试都没有成功 (注意，一定要追加 --header 参数，否则创建会失败)
curl -b ~/.httpsauth -i -X PUT "http://172.168.63.221:14000/webhdfs/v1/test2?op=CREATE&buffersize=1000"
    curl -b ~/.httpsauth -i -X PUT -T data2.txt --header "Content-Type: application/octet-stream" "http://172.168.63.221:14000/webhdfs/v1/test2/data.txt?op=CREATE&user.name=hdfs&buffersize=1000&data=true"

其他API：

复制代码

创建并写一个文件
 curl -i -X PUT "http://localhost:50070/webhdfs/v1/<PATH>?op=CREATE
 [&overwrite=<true|false>][&blocksize=<LONG>][&replication=<SHORT>]
 [&permission=<OCTAL>][&buffersize=<INT>]"
 curl -i -X PUT -T <LOCAL_FILE> "http://<DATANODE>:<PORT>/webhdfs/v1/<PATH>?
 op=CREATE..."
 注意这个地方填入的是DataNode的信息
 

在一个文件内追加内容
 curl -i -X POST "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=APPEND[&buffersize=<INT>]"
 curl -i -X POST -T <LOCAL_FILE> "http://<DATANODE>:<PORT>/webhdfs/v1/<PATH>?
 op=APPEND..."
 注意该条命令获得的是DataNode的信息。
 

打开并读取一个文件
 curl -i -L "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=OPEN
 [&offset=<LONG>][&length=<LONG>][&buffersize=<INT>]"
 

创建一个目录
 curl -i -X PUT "http://<HOST>:<PORT>/<PATH>?op=MKDIRS[&permission=<OCTAL>]"
 

重名命文件、文件夹
 curl -i -X PUT "<HOST>:<PORT>/webhdfs/v1/<PATH>?op=RENAME&destination=<PATH>"
 

删除文件/文件夹
 curl -i -X DELETE "http://<host>:<port>/webhdfs/v1/<path>?op=DELETE [&recursive=<true|false>]"
 

文件/ 文件夹的状态信息
 curl -i "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=GETFILESTATUS"
 

目录列表
 curl -i "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=LISTSTATUS"
 

获取目录的上下文环境汇总信息
 curl -i "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=GETCONTENTSUMMARY"
 

获取Check Sum File
 curl -i "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=GETFILECHECKSUM"
 

获取Home 目录
 curl -i "http://<HOST>:<PORT>/webhdfs/v1/?op=GETHOMEDIRECTORY"
 

设置权限
 curl -i -X PUT "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=SETPERMISSION [&permission=<OCTAL>]"
 

设置所有者
 curl -i -X PUT "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=SETOWNER [&owner=<USER>][&group=<GROUP>]"
 

设置备份
 curl -i -X PUT "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=SETREPLICATION [&replication=<SHORT>]"