Hadoop proxy user

如何理解Proxy user(包括proxy、impersonation和常见的Proxy use case)
官方文档的一些configurations及相应解释

帮助理解的两个博客:
hadoop的用户代理机制
HDFS-- Hadoop中的ProxyUser

有了上面的前置知识,接下来,我们开始理解下面这段话:

Hive 的运行依赖于 Hadoop ( HDFS 、 MapReduce 、 YARN 都依赖),同时涉及到 HDFS 文件系统的访问

所以需要配置 Hadoop 的代理用户,即设置 hadoop 用户允许代理(模拟)其它用户

即需要配置如下内容在 Hadoop 的 core-site.xml 中,并分发到其它节点,且重启 HDFS 集群

python 复制代码
# hadoop.proxyuser.hadoop.hosts第2个hadoop可以替代成你信任的并想将其设置为proxy user的用户
<property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
</property>

下面这几段话解决了我的困惑(即为什么明明是Hive存在与Hadoop的依赖和交互,照理说应该配置的HIve的Proxy,但是实际上配置的却是Hadoop):

Configuring a proxy user in Hadoop allows Hive to impersonate or act

on behalf of other users when accessing HDFS (Hadoop Distributed File

System). However, this doesn't mean that Hive itself inherently has

the capability to directly impersonate other users. Instead, Hive

leverages the proxy user settings configured in Hadoop to achieve this

functionality.

When a user submits a query or job to Hive, Hive interacts with Hadoop

components such as HDFS, MapReduce, or YARN on behalf of that user.

Hive uses the configured proxy user in Hadoop to authenticate and

execute actions on behalf of the user who submitted the query. This

ensures that the user's permissions and access controls are respected

when accessing data stored in HDFS or executing tasks on the Hadoop

cluster.

In summary, while Hive doesn't have its own built-in capability to

directly impersonate other users, it can utilize the proxy user

configuration in Hadoop to achieve user impersonation for accessing

HDFS or performing tasks within the Hadoop ecosystem.

简单说,就是当一个在上述配置文件中的user(针对上述配置文件来说,是任意user),试图利用Hive去和Hadoop产生交互时(例如对HDFS中的表进行查询),Hive就会利用proxy user(针对上述配置文件来说,是hadoop)来impersonate或act on behalf of 这个user来实现和Hadoop的交互,而无需作为这些用户进行身份验证。

proxy user'features

  • 值得信赖的;少;无需身份验证
  • 要去模拟或代表其他用户的
相关推荐
江沉晚呤时13 小时前
.NET 9 快速上手 RabbitMQ 直连交换机:高效消息传递实战指南
开发语言·分布式·后端·rabbitmq·.net·ruby
Volunteer Technology13 小时前
zookeeper基础应用与实战二
分布式·zookeeper·云原生
GIS数据转换器13 小时前
洪水时空大数据分析与评估系统
大数据·人工智能·机器学习·数据挖掘·数据分析·无人机·宠物
rainbow72424413 小时前
企业AI学习体系选型与构建:内部培训、外部引进与实战项目的深度结合方案
大数据·人工智能
Web3_Daisy13 小时前
Token 分红机制详解:实现逻辑、激励结构与风险分析
大数据·人工智能·物联网·web3·区块链
B站计算机毕业设计之家14 小时前
Python 基于协同过滤的动漫推荐与数据分析平台 Django框架 协同过滤推荐算法 可视化 数据分析 大数据 大模型 计算机毕业设计(建议收藏)✅
大数据·python·scrapy·数据分析·django·课程设计·推荐算法
未来之窗软件服务14 小时前
全能合同管理系统/上百种合同类型/到期提醒——东方仙盟
大数据·合同管理·仙盟创梦ide·东方仙盟
guoji778815 小时前
Gemini 3.1 Pro 评估科学:超越基准测试的硬核能力测评方法论
大数据·人工智能
逸Y 仙X15 小时前
文章八:ElasticSearch特殊数据字段类型解读
java·大数据·linux·运维·elasticsearch·搜索引擎
姚青&15 小时前
Pytest 测试用例并行运行与分布式运行
分布式·测试用例·pytest