（踩坑实录）DBeaver 中新建的表，在 HDFS 上看（三个 Web UI：HDFS、YARN、Hive）不到的原因排查和解决

Hadoop/Hive环境常见问题总结

问题1：HDFS WebUI看不到表数据

可能原因：HDFS格式化导致数据丢失，但MySQL元数据仍在

解决方案：重建表结构并重新插入数据

问题2：DBeaver连接异常

连接中断：重启HiveServer2服务（hive-start）

default库丢失：手动创建数据库（CREATE DATABASE default）

问题3：插入数据慢

本质原因：Hive单条插入会触发MapReduce作业

优化建议：改用批量插入或LOAD DATA加载数据文件

关键点：

Hive表=MySQL元数据+HDFS数据文件

重要操作前备份数据，慎用hdfs namenode -format

WebUI端口：HDFS(9870)/YARN(8088)/Hive(10002)

HDFS: http://localhost:9870

YARN: http://localhost:8088

Hive: http://localhost:10002

这三个UI主要都是干嘛的，总结对比

📊 三个 Web UI 对比总结

UI	端口	主要功能	使用场景
HDFS	9870	查看 HDFS 文件系统、数据节点状态、存储使用情况	检查文件是否上传成功、查看数据块分布
YARN	8088	查看资源调度、正在运行/已完成的作业、集群资源使用	监控 SQL 查询/MapReduce 任务的执行进度
Hive	10002	查看 HiveServer2 的会话、连接、配置信息	调试连接问题、查看当前活跃的 Hive 会话

💡 一句话总结

HDFS 看文件，YARN 看任务，Hive 看连接。

HDFS → 存了什么文件
YARN → 跑了什么任务
Hive → 谁在连接

我在DBeaver新建的表，在哪看呢

在 HDFS Web UI 中查看新建的表，需要理解 Hive 表的存储位置。

🔍 Hive 表的默认存储路径

Hive 表默认存储在 HDFS 的 /user/hive/warehouse/ 目录下。

在 HDFS Web UI (localhost:9870) 中：

点击顶部菜单 "Utilities" → "Browse the file system"
在路径框中输入：/user/hive/warehouse
点击 "Go"

你应该能看到你新建的表文件夹（如 test、students 等）。

📌 或者直接在 DBeaver 中查看

在 DBeaver 中更直观：

展开左侧的 "default" 数据库
展开 "表" 节点
就能看到你创建的所有表

📂 路径说明

存储位置	说明
`/user/hive/warehouse/`	Hive 表的默认仓库目录
`/user/hive/warehouse/表名/`	每个表的数据文件存储位置

示例：如果你创建了 students 表，数据文件在：

text

复制代码

/user/hive/warehouse/students/

🧪 快速验证

在 DBeaver 中执行：

sql

复制代码

-- 查看表的存储路径
DESCRIBE FORMATTED students;

找到 Location: 字段，就能看到该表在 HDFS 中的具体路径。

快去 HDFS Web UI 的 /user/hive/warehouse/ 看看吧！你的表数据文件就在那里 📂

/user/hive/warehouse 没找到，是之前配置的时候误删了吗

不是误删，这是 Hive 配置的问题。Hive 表的默认仓库路径没有设置，所以可能存到了其他地方，或者你还没有创建任何表。

🔍 先确认一下 Hive 的仓库目录配置

bash

复制代码

# 查看 Hive 配置中的仓库路径
grep -A 1 "hive.metastore.warehouse.dir" $HIVE_HOME/conf/hive-site.xml

📌 如果没有输出，说明没有配置

Hive 默认的仓库路径是 /user/hive/warehouse，但这个目录可能不存在。手动创建：

bash

复制代码

# 创建 Hive 仓库目录
hdfs dfs -mkdir -p /user/hive/warehouse

# 设置权限
hdfs dfs -chmod 777 /user/hive/warehouse

# 验证
hdfs dfs -ls /user/hive/warehouse

🔧 配置默认仓库路径

编辑 $HIVE_HOME/conf/hive-site.xml：

bash

复制代码

nano $HIVE_HOME/conf/hive-site.xml

在 <configuration> 标签内添加：

xml

复制代码

<property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
</property>

重启 HiveServer2：

bash

复制代码

hive-stop
hive-start

🧪 在 DBeaver 中创建测试表

sql

复制代码

CREATE TABLE test_hive (id INT, name STRING);
INSERT INTO test_hive VALUES (1, 'hello');

然后再次访问 HDFS Web UI：

text

复制代码

/user/hive/warehouse/test_hive/

应该就能看到数据文件了。

📌 注意

你之前的 test 表在 MySQL 元数据库中记录了信息，但实际数据文件可能不存在了。重新创建表后，数据就会出现在 /user/hive/warehouse/ 目录下。

先执行 hdfs dfs -mkdir -p /user/hive/warehouse 创建目录，然后在 DBeaver 中创建新表试试！

bash 复制代码

mumu@MuJinqiu:~$ # 查看 Hive 配置中的仓库路径 grep -A 1 "hive.metastore.warehouse.dir" $HIVE_HOME/conf/hive-site.xml <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> mumu@MuJinqiu:~$ mumu@MuJinqiu:~$

配置已经有了！仓库路径是 `/user/hive/warehouse`，但目录可能还没有创建。

🔧 创建 Hive 仓库目录

bash

bash 复制代码

# 1. 创建目录
hdfs dfs -mkdir -p /user/hive/warehouse

# 2. 设置权限
hdfs dfs -chmod 777 /user/hive/warehouse

# 3. 验证
hdfs dfs -ls /user/hive/warehouse

🧪 然后在 DBeaver 中创建测试表

sql

bash 复制代码

-- 创建测试表
CREATE TABLE students (id INT, name STRING, age INT);

-- 插入数据
INSERT INTO students VALUES (1, '张三', 20);
INSERT INTO students VALUES (2, '李四', 22);

-- 查询
SELECT * FROM students;

-- 查看表的存储位置
DESCRIBE FORMATTED students;

📂 创建完成后，在 HDFS Web UI 查看

访问 http://localhost:9870
Utilities → Browse the file system
输入路径：/user/hive/warehouse/
应该能看到 students 文件夹及其中的数据文件

🚨 如果提示权限错误

bash

bash 复制代码

# 检查 /user 目录权限
hdfs dfs -ls /user

# 如果权限不足，设置权限
hdfs dfs -chmod -R 777 /user/hive

先执行 hdfs dfs -mkdir -p /user/hive/warehouse，然后在 DBeaver 中创建表试试！

bash 复制代码

mumu@MuJinqiu:~$ # 查看 Hive 配置中的仓库路径 grep -A 1 "hive.metastore.warehouse.dir" $HIVE_HOME/conf/hive-site.xml <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> mumu@MuJinqiu:~$ mumu@MuJinqiu:~$ # 1. 创建目录 hdfs dfs -mkdir -p /user/hive/warehouse # 2. 设置权限 hdfs dfs -chmod 777 /user/hive/warehouse # 3. 验证 hdfs dfs -ls /user/hive/warehouse mumu@MuJinqiu:~$ mumu@MuJinqiu:~$

很好，目录创建成功了（`ls` 命令没有输出，说明目录是空的，这是正常的）。

但 HDFS Web UI 中 /tmp 目录权限报错 Permission denied: user=dr.who，这是因为 Web UI 默认使用 dr.who 用户访问，权限不够。这个不影响你查看到 /user/hive/warehouse 目录。

📂 在 HDFS Web UI 中查看 `/user/hive/warehouse`

访问 http://localhost:9870
点击顶部菜单 "Utilities" → "Browse the file system"
在路径框中输入：/user/hive/warehouse
点击 "Go"

你应该能看到这个空目录（没有文件）。如果权限报错，用下面的方法。

🔧 如果 Web UI 权限报错

在 WSL2 中执行，给 /user 目录更开放的权限：

bash

复制代码

# 递归设置权限
hdfs dfs -chmod -R 755 /user
hdfs dfs -chown -R mumu:supergroup /user

或者直接在 Web UI 中：

在路径框输入 /user/hive/warehouse，不要停留在 /tmp

🧪 创建表，生成数据文件

现在在 DBeaver 中执行：

sql

复制代码

-- 创建测试表
CREATE TABLE test_data (id INT, name STRING);

-- 插入数据
INSERT INTO test_data VALUES (1, 'hello'), (2, 'world');

-- 查看数据
SELECT * FROM test_data;

📂 然后在 HDFS Web UI 查看

输入路径：/user/hive/warehouse/test_data/

你会看到：

表的数据文件（如 000000_0）
文件大小等信息

🚨 如果 DBeaver 插入数据失败

可能是因为 Hive 需要 MapReduce 来执行插入操作。试试另一种方式：

sql

复制代码

-- 方式二：直接从已有表导入（如果可行）
-- 或者使用 LOAD DATA（从本地文件加载）

现在在 DBeaver 中创建表，然后去 HDFS Web UI 的 /user/hive/warehouse/test_data/ 看看！

SQL 错误 $08S01$ : org.apache.thrift.transport.TTransportException: java.net.SocketException: 你的主机中的软件中止了一个已建立的连接。我原来在DBeaver建的表呢

这个问题是 HiveServer2 连接中断 了，通常发生在服务重启或网络波动时。你建的表还在，只是连接断了。

🔧 解决方案：重新连接

方法一：在 DBeaver 中重新连接

在 DBeaver 左侧面板，右键点击你的 Hive 连接
选择 "断开连接"
再次右键，选择 "重新连接"

方法二：如果重连失败，检查服务是否还在运行

在 WSL2 中执行：

bash

复制代码

# 检查 HiveServer2 是否还在运行
sudo netstat -tlnp | grep 10001

如果端口还在监听，说明服务正常，直接重连即可。

如果端口没有监听，说明服务挂了，重新启动：

bash

复制代码

hive-start

📌 你建的表还在吗？

是的，表还在！ 原因如下：

内容	存储位置	是否持久化
表结构（元数据）	MySQL metastore	✅ 永久保存
表数据（文件）	HDFS `/user/hive/warehouse/`	✅ 永久保存

只要你不主动 DROP TABLE，表就一直在。

🔍 验证你的表

连接恢复后，在 DBeaver 中执行：

sql

复制代码

-- 查看当前数据库的所有表
SHOW TABLES;

-- 查看之前建的表
SELECT * FROM test;
SELECT * FROM test_data;
SELECT * FROM students;

🚨 如果 `SHOW TABLES` 看不到之前建的表

可能是因为你创建表时没有指定数据库，Hive 默认使用 default 数据库，表都在里面。

sql

复制代码

-- 切换到 default 数据库
USE default;

-- 查看所有表
SHOW TABLES;

✅ 快速恢复步骤

bash

复制代码

# 1. 检查服务
sudo netstat -tlnp | grep 10001

# 2. 如果没有输出，启动服务
hive-start

# 3. 在 DBeaver 中右键连接 → 重新连接

试试重连，然后 SHOW TABLES 看看，你的表应该都还在 🎯

不是连接中断，是修改了连接。所以，现在是需要重新建表。那原来建的表要删除吗，还是不用管？

不用管，留着就行。 👍

📌 原因

原来的表是：

元数据 存储在 MySQL 的 metastore 数据库中
数据文件 存储在 HDFS 的 /user/hive/warehouse/ 目录下

你现在修改了连接（比如换了端口、改了配置），但这些数据并没有被删除，只是你当前的连接看不到它们了。

🗑️ 要不要删除？

场景	建议
学习环境，数据不重要	可以不管，留着也不碍事
想要干净的环境重新开始	可以删除，但不是必须
磁盘空间充足	完全不用管，继续建新表就行

默认建议：不管它，继续用。 等以后磁盘满了再清理也不迟。

🧹 如果想删除旧表

方法一：在 DBeaver 中删除（如果能连接到旧的 metastore）

sql

复制代码

DROP TABLE test;
DROP TABLE test_data;
DROP TABLE students;

方法二：手动清理 HDFS 数据文件

bash

复制代码

# 查看仓库目录
hdfs dfs -ls /user/hive/warehouse/

# 删除指定表的数据
hdfs dfs -rm -r /user/hive/warehouse/test
hdfs dfs -rm -r /user/hive/warehouse/test_data
hdfs dfs -rm -r /user/hive/warehouse/students

# 或者全部清空（谨慎操作！）
hdfs dfs -rm -r /user/hive/warehouse/*

方法三：清理 MySQL 元数据

sql

复制代码

-- 登录 MySQL
mysql -u root -p123456

-- 查看 metastore 数据库中的表
USE metastore;
SELECT * FROM TBLS;

不建议手动删除 MySQL 中的元数据，容易搞乱。

✅ 最佳做法

什么都不做，直接创建新表。 旧表的数据文件会留在 HDFS 中，但不会影响新表的创建和使用。

等到你确认不再需要旧数据时，再统一清理：

bash

复制代码

# 一次性清空所有 Hive 表数据（谨慎！）
hdfs dfs -rm -r /user/hive/warehouse/*

所以现在直接建新表就行，旧表不用管 🎉

bash 复制代码

hive (default)> use default; OK Time taken: 0.248 seconds hive (default)> show tables; OK tab_name test Time taken: 0.156 seconds, Fetched: 1 row(s) hive (default)>

太好了！✅ 你的表 `test` 还在！

SHOW TABLES; 显示 test 表存在，说明元数据完好，数据也还在 HDFS 中。

🔍 查看 `test` 表的数据

sql

复制代码

-- 查看表结构
DESCRIBE test;

-- 查看数据
SELECT * FROM test;

-- 查看表的存储路径
DESCRIBE FORMATTED test;

✅ 如果数据还在

那就直接继续用，不需要重建表。

🗑️ 如果你确实想清理旧表

sql

复制代码

-- 删除 test 表
DROP TABLE test;

📌 总结

情况	操作
`test` 表有用	继续使用，查询数据
`test` 表没用	`DROP TABLE test;` 删除
想保留但清理数据	`TRUNCATE TABLE test;`

现在执行 SELECT * FROM test; 看看数据还在不在！如果数据丢了（表结构还在但数据文件没了），可以重新插入数据或删除表重建。告诉我结果！

bash 复制代码

hive (default)> use default; OK Time taken: 0.248 seconds hive (default)> show tables; OK tab_name test Time taken: 0.156 seconds, Fetched: 1 row(s) hive (default)> DESCRIBE FORMATTED test; OK col_name data_type comment # col_name data_type comment id int name string # Detailed Table Information Database: default OwnerType: USER Owner: mumu CreateTime: Mon Jun 22 13:18:59 CST 2026 LastAccessTime: UNKNOWN Retention: 0 Location: hdfs://localhost:9000/user/hive/warehouse/test Table Type: MANAGED_TABLE Table Parameters: COLUMN_STATS_ACCURATE {\"BASIC_STATS\":\"true\",\"COLUMN_STATS\":{\"id\":\"true\",\"name\":\"true\"}} bucketing_version 2 numFiles 1 numRows 1 rawDataSize 7 totalSize 8 transient_lastDdlTime 1782105566 # Storage Information SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe InputFormat: org.apache.hadoop.mapred.TextInputFormat OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat Compressed: No Num Buckets: -1 Bucket Columns: [] Sort Columns: [] Storage Desc Params: serialization.format 1 Time taken: 0.205 seconds, Fetched: 32 row(s) hive (default)>

🎉 完美！`test` 表完好无损！

从 DESCRIBE FORMATTED 的输出可以看到：

信息	值	说明
Location	`hdfs://localhost:9000/user/hive/warehouse/test`	✅ 数据文件在 HDFS 中
Table Type	`MANAGED_TABLE`	✅ 内部表，数据和元数据都由 Hive 管理
numRows	`1`	✅ 有 1 行数据
totalSize	`8`	✅ 数据文件有 8 字节

🔍 查看 `test` 表的数据

sql

复制代码

SELECT * FROM test;

应该能看到之前插入的数据。

📂 在 HDFS Web UI 中查看

访问 http://localhost:9870
Utilities → Browse the file system
输入路径：/user/hive/warehouse/test/
点击 "Go"

你应该能看到数据文件（如 000000_0）。

✅ 结论

你的表和数据都还在，直接继续使用就行！ 不需要重建表。

如果想新建其他表，直接 CREATE TABLE 即可。

hdfs上面怎么没有数据

这里AI判断错了，我的路径没有写错。

这个路径写错了！从 Hive 的 DESCRIBE FORMATTED 输出看，实际路径是：

text

复制代码

hdfs://localhost:9000/user/hive/warehouse/test

注意是 /user/hive/warehouse/，不是 /usr/hive/warehouse/。

📂 正确的访问路径

在 HDFS Web UI 中输入：

text

复制代码

/user/hive/warehouse/test

而不是 /usr/hive/warehouse/test

✅ 验证

在 WSL2 中确认：

bash

复制代码

# 查看 test 表的数据文件
hdfs dfs -ls /user/hive/warehouse/test

# 查看数据内容
hdfs dfs -cat /user/hive/warehouse/test/000000_0

📌 路径对比

路径	说明
❌ `/usr/hive/warehouse/test`	错误路径（/usr 是系统目录）
✅ `/user/hive/warehouse/test`	正确路径（Hive 仓库目录）

快去 Web UI 输入 /user/hive/warehouse/test，应该就能看到数据了！📂

还是没有啊，看不到test表

你在路径框里输入的是 /usr/hive/warehouse/，但正确的路径是 /user/hive/warehouse/ （注意是 user 不是 usr）。

📂 正确的路径

在 HDFS Web UI 的路径框中输入：

text

复制代码

/user/hive/warehouse/

然后点击 Go。

✅ 验证

在 WSL2 中确认数据确实存在：

bash

复制代码

# 1. 查看 test 表目录
hdfs dfs -ls /user/hive/warehouse/

# 2. 查看 test 表的数据文件
hdfs dfs -ls /user/hive/warehouse/test

# 3. 查看数据内容
hdfs dfs -cat /user/hive/warehouse/test/000000_0

📌 路径对比

路径	是否正确
`/usr/hive/warehouse/`	❌ 系统目录，没有数据
`/user/hive/warehouse/`	✅ Hive 仓库目录，有数据

快去 Web UI 输入 /user/hive/warehouse/（不是 /usr），就能看到 test 表了！🎯

bash 复制代码

mumu@MuJinqiu:~$ # 1. 查看 test 表目录 hdfs dfs -ls /user/hive/warehouse/ # 2. 查看 test 表的数据文件 hdfs dfs -ls /user/hive/warehouse/test # 3. 查看数据内容 hdfs dfs -cat /user/hive/warehouse/test/000000_0 ls: `/user/hive/warehouse/test': No such file or directory cat: `/user/hive/warehouse/test/000000_0': No such file or directory mumu@MuJinqiu:~$ mumu@MuJinqiu:~$

看来 HDFS 上确实没有 `test` 表的数据文件。

只有元数据存在 MySQL 中，但实际数据文件丢了（可能是之前格式化 NameNode 或清理数据时被删除了）。

🔧 解决方案

方案一：删除表重建（推荐，简单干净）

sql

复制代码

-- 在 DBeaver 或 Beeline 中执行
DROP TABLE test;

-- 重新创建表
CREATE TABLE test (id INT, name STRING);

-- 插入数据
INSERT INTO test VALUES (1, 'hello');
INSERT INTO test VALUES (2, 'world');

-- 查询验证
SELECT * FROM test;

然后在 HDFS 上验证：

bash

复制代码

hdfs dfs -ls /user/hive/warehouse/test

方案二：不删表，直接插入数据

如果表结构还在，可以直接插入数据，Hive 会自动创建数据目录：

sql

复制代码

-- 直接插入数据（表已存在）
INSERT INTO test VALUES (1, 'hello');
INSERT INTO test VALUES (2, 'world');

-- 或者批量插入
INSERT INTO test VALUES (3, 'hive'), (4, 'learning');

方案三：使用 LOAD DATA 从本地文件加载

bash

复制代码

# 1. 创建本地数据文件
echo "1,hello" > /tmp/data.txt
echo "2,world" >> /tmp/data.txt

sql

复制代码

-- 2. 加载数据
LOAD DATA LOCAL INPATH '/tmp/data.txt' OVERWRITE INTO TABLE test;

✅ 推荐：方案一（DROP + CREATE）

这是最干净的方式，确保表结构和数据一致。

执行后告诉我结果！

方案一（DROP + CREATE）执行后，有数据了，恢复正常

🎉 完美！数据恢复正常了！

📌 简单总结一下这次的问题

环节	状况
元数据 (MySQL)	✅ 完好，`test` 表结构还在
数据文件 (HDFS)	❌ 丢失（可能格式化 NameNode 时被清掉了）
解决方案	`DROP TABLE` + `CREATE TABLE` + `INSERT`，重建搞定

✅ 验证一下

在 HDFS 上确认：

bash

复制代码

hdfs dfs -ls /user/hive/warehouse/test

应该能看到数据文件了。同时在 DBeaver 中查询也能正常返回结果。

📋 后续使用建议

操作	命令
查看所有表	`SHOW TABLES;`
查看表结构	`DESCRIBE 表名;`
查看存储路径	`DESCRIBE FORMATTED 表名;`
删除表	`DROP TABLE 表名;`
清空表数据	`TRUNCATE TABLE 表名;`

🎯 现在环境已经完全正常

✅ HiveServer2 运行正常（端口 10001）

✅ DBeaver 连接正常

✅ 表可以正常创建、插入、查询

✅ HDFS 上数据文件正常显示

可以愉快地继续学习 Hive 了！有任何问题随时问我 🚀😊

总结一下，可以从哪些方面或哪些方式，判断表到底存不存在

📊 判断 Hive 表是否存在的 5 种方式

1️⃣ 在 Hive/Beeline/DBeaver 中查看（最直接）

sql

复制代码

-- 查看当前数据库的所有表
SHOW TABLES;

-- 查看指定表是否存在（不报错就存在）
SHOW TABLES LIKE 'test';

-- 查看表结构（存在会有输出，不存在会报错）
DESCRIBE test;

-- 查看表的详细信息（含存储路径）
DESCRIBE FORMATTED test;

结果	判断
有输出	✅ 表存在
报错 `Table not found`	❌ 表不存在

2️⃣ 查询 Hive 元数据库 MySQL（元数据层）

表结构存储在 MySQL 的 metastore 数据库中：

bash

复制代码

mysql -u root -p123456 -e "USE metastore; SELECT TBL_NAME, DB_ID, CREATE_TIME FROM TBLS WHERE TBL_NAME='test';"

结果	判断
有记录	✅ 表结构存在（元数据存在）
无记录	❌ 表结构不存在

3️⃣ 查看 HDFS 存储目录（数据层）

表数据存储在 HDFS 中：

bash

复制代码

# 查看 Hive 仓库目录
hdfs dfs -ls /user/hive/warehouse/

# 查看具体表的数据目录
hdfs dfs -ls /user/hive/warehouse/test

# 查看表数据文件
hdfs dfs -cat /user/hive/warehouse/test/000000_0

结果	判断
目录存在，有数据文件	✅ 数据存在
目录不存在或为空	❌ 数据不存在

4️⃣ HDFS Web UI 图形化查看

访问 http://localhost:9870 → Utilities → Browse the file system

输入路径：/user/hive/warehouse/

结果	判断
看到表文件夹	✅ 数据目录存在
404 或空	❌ 数据不存在

5️⃣ 组合判断：三种状态

有时会遇到 元数据和数据不一致 的情况：

元数据 (MySQL)	数据 (HDFS)	结论
✅ 有记录	✅ 有目录/文件	✅ 表完整存在
✅ 有记录	❌ 无目录/文件	⚠️ 表结构存在，但数据丢了
❌ 无记录	✅ 有目录/文件	⚠️ 孤儿数据（Hive 不识别）
❌ 无记录	❌ 无目录/文件	❌ 表完全不存在

📋 快速判断表是否完整存在

bash

复制代码

# 一条命令三重验证
echo "=== 1. Hive 元数据 ===" && \
hive -e "DESCRIBE test;" 2>/dev/null && \
echo "=== 2. HDFS 数据目录 ===" && \
hdfs dfs -ls /user/hive/warehouse/test 2>/dev/null && \
echo "=== 3. 数据内容 ===" && \
hdfs dfs -cat /user/hive/warehouse/test/000000_0 2>/dev/null

🎯 一句话总结

方式	看什么	判断什么
`SHOW TABLES`	表名列表	表是否存在
`DESCRIBE`	表结构	元数据是否存在
MySQL `TBLS` 表	元数据记录	元数据是否存在
HDFS `/user/hive/warehouse/`	数据目录	数据文件是否存在
HDFS Web UI	图形化文件	数据文件是否存在

元数据存在 + 数据存在 = 表完整可用 ✅

所以，我们之前到底是什么情况呢，怎么一会儿判断表存在，一会儿又说不存在

好问题！你之前确实遇到了元数据和数据不一致的情况，这导致了"一会儿说存在，一会儿说不存在"的困惑。下面还原整个过程：

📊 之前的真实情况

检查方式	结果	说明
`SHOW TABLES;`	✅ 显示 `test`	元数据存在（MySQL 中有记录）
`DESCRIBE test;`	✅ 显示表结构	元数据存在（表定义在 MySQL 中）
`hdfs dfs -ls /user/hive/warehouse/test`	❌ No such file or directory	数据不存在（HDFS 上没文件）
HDFS Web UI	❌ 看不到 `test` 文件夹	数据不存在（HDFS 上没目录）
`SELECT * FROM test;`	❌ 0 行或报错	数据不存在（查询不到内容）

🔍 为什么会出现这种情况？

根本原因：元数据（MySQL）和数据（HDFS）不同步

text

复制代码

MySQL (metastore)          HDFS
┌─────────────────┐       ┌─────────────────┐
│  test 表结构    │  ✅   │  数据文件       │  ❌ 丢失
│  列: id, name   │       │  /user/hive/   │
│  创建时间: ...  │       │  warehouse/test │
└─────────────────┘       └─────────────────┘

数据丢失的可能原因：

执行了 hdfs namenode -format（格式化 HDFS，数据被清空）
执行了 rm -rf /user/hive/warehouse/*（手动删除了数据）
NameNode 数据目录被清理过

但 MySQL 中的元数据没有清理 ，所以 SHOW TABLES 还能看到表名。

📌 整个过程时间线

text

复制代码

1. 最初：创建 test 表 → 元数据 + 数据 ✅ 都存在
                    ↓
2. 后来：格式化 NameNode 或清理 HDFS
                    ↓
3. 结果：数据 ❌ 丢失，但元数据 ✅ 还在 MySQL 中
                    ↓
4. 你执行 SHOW TABLES → 看到 test → ✅ 以为表还在
                    ↓
5. 你查数据 → ❌ 查不到 → 困惑
                    ↓
6. 你执行 DROP + CREATE → 元数据重建 + 数据重建
                    ↓
7. 现在：元数据 ✅ + 数据 ✅ = 表完整存在 ✅

✅ 结论

阶段	SHOW TABLES	SELECT *	HDFS 上有数据	判断
初始状态	✅ test	✅ 有数据	✅ 有文件	表完整存在
中间状态	✅ test	❌ 0 行	❌ 无文件	⚠️ 只有表结构，数据丢了
现在	✅ test	✅ 有数据	✅ 有文件	表完整存在 ✅

💡 经验教训

SHOW TABLES 只能证明元数据存在，不能证明数据存在！

要判断表是否完整可用，需要同时检查元数据和数据：

bash

复制代码

# 完整判断
SHOW TABLES;          # 元数据存在？
SELECT COUNT(*) FROM test;  # 数据存在？
hdfs dfs -ls /user/hive/warehouse/test  # 文件存在？

三者都通过，表才完整可用！

还有HDFS上面的文件夹 /user/hive/warehouse/ 我记得之前建过，现在也没有了，是因为WSL换了IP的原因吗

不是 IP 的原因。 🙅

WSL 换 IP 只影响网络通信，不会影响 HDFS 上的数据。

🔍 真正的原因

数据丢失是因为你执行过 hdfs namenode -format（格式化 NameNode）。

回顾一下之前的操作：

bash

复制代码

# 之前为了解决 NameNode 启动问题，你执行过：
rm -rf /home/mumu/hadoop_tmp/dfs/*
$HADOOP_HOME/bin/hdfs namenode -format -force

这条命令的作用：

清空了 HDFS 的元数据（包括所有目录和文件的索引）
相当于对 HDFS 执行了 "格式化硬盘" 操作
虽然实际数据块可能还在磁盘上，但 NameNode 已经"忘记"了它们

📊 为什么表还在，但 HDFS 目录没了？

组件	状态	原因
MySQL (元数据)	✅ 表记录还在	MySQL 不受 `hdfs namenode -format` 影响
HDFS (实际数据)	❌ 目录和数据被清空	`hdfs namenode -format` 清空了 HDFS 元数据

这就是"元数据存在，数据不存在"的根本原因！

🔄 类比理解

text

复制代码

NameNode 格式化 = 图书馆的索引卡全部烧了

书（数据块）还在书架上（磁盘），
但管理员（NameNode）不知道书在哪，
所以读者（Hive）找不到书了。

需要重新建表（重新录入索引），
重新插入数据（重新上书），
才能再次找到书。

✅ 结论

操作	影响 HDFS 数据？	影响 MySQL 元数据？
`hdfs namenode -format`	✅ 清空数据	❌ 不影响
`rm -rf hadoop_tmp/dfs/*`	✅ 清空数据	❌ 不影响
WSL 更换 IP	❌ 不影响数据	❌ 不影响数据

所以：数据丢失是因为格式化了 HDFS，不是 IP 变了。

💡 以后注意

除非你想清空 HDFS 重新开始，否则不要轻易执行：

bash

复制代码

hdfs namenode -format   # ⚠️ 这会清空所有 HDFS 数据！
rm -rf /tmp/hadoop-mumu/*  # ⚠️ 也会删除数据！

现在你重新建了表，数据又回来了，环境恢复正常 🎉

清空 HDFS 重新开始吧，都是测试数据，可以删

好，清理干净重新开始！

🗑️ 清空所有 Hive 表和数据（保留服务）

1. 删除所有 Hive 表（在 Beeline/DBeaver 中执行）

sql

复制代码

-- 查看所有表
SHOW TABLES;

-- 删除所有表
DROP TABLE test;
DROP TABLE students;
-- ... 如果有其他表也删掉

2. 清理 HDFS 上的 Hive 仓库目录

bash

复制代码

# 清空整个 warehouse 目录
hdfs dfs -rm -r /user/hive/warehouse/*

# 重新创建空目录
hdfs dfs -mkdir -p /user/hive/warehouse

# 设置权限
hdfs dfs -chmod 777 /user/hive/warehouse

# 验证
hdfs dfs -ls /user/hive/warehouse

3. 清理 MySQL 中的元数据（确保彻底干净）

bash

复制代码

# 登录 MySQL
mysql -u root -p123456

# 切换到 metastore 数据库
USE metastore;

# 查看所有表
SELECT TBL_NAME, DB_ID FROM TBLS;

# 清空所有表记录（谨慎！）
DELETE FROM TBLS;
DELETE FROM DBS;
DELETE FROM COLUMNS_V2;
DELETE FROM SDS;
DELETE FROM TABLE_PARAMS;
DELETE FROM PARTITIONS;
DELETE FROM PARTITION_PARAMS;
DELETE FROM PARTITION_KEYS;
DELETE FROM SORT_COLS;
DELETE FROM SERDES;
DELETE FROM SERDE_PARAMS;

# 退出
EXIT;

4. 彻底一点：重建 metastore 数据库

bash

复制代码

# 登录 MySQL
mysql -u root -p123456

# 删除并重建 metastore 数据库
DROP DATABASE metastore;
CREATE DATABASE metastore;

# 退出
EXIT;

# 重新初始化 Hive 元数据
schematool -dbType mysql -initSchema

5. 验证干净状态

bash

复制代码

# 查看 HDFS 仓库目录
hdfs dfs -ls /user/hive/warehouse

# 在 Hive 中查看表
hive -e "SHOW TABLES;"

6. 创建测试表，重新开始

sql

复制代码

-- 创建测试表
CREATE TABLE students (id INT, name STRING, age INT);

-- 插入数据
INSERT INTO students VALUES (1, '张三', 20);
INSERT INTO students VALUES (2, '李四', 22);
INSERT INTO students VALUES (3, '王五', 21);

-- 查询验证
SELECT * FROM students;

-- 查看表在 HDFS 上的位置
DESCRIBE FORMATTED students;

7. 确认 HDFS 上有数据

bash

复制代码

hdfs dfs -ls /user/hive/warehouse/students

📋 完整清理脚本（一键执行）

bash

复制代码

#!/bin/bash
echo "🗑️ 清理 Hive 环境..."

# 1. 删除 HDFS 仓库数据
hdfs dfs -rm -r /user/hive/warehouse/* 2>/dev/null

# 2. 重建仓库目录
hdfs dfs -mkdir -p /user/hive/warehouse
hdfs dfs -chmod 777 /user/hive/warehouse

# 3. 重建 MySQL 元数据
mysql -u root -p123456 -e "DROP DATABASE IF EXISTS metastore; CREATE DATABASE metastore;"
schematool -dbType mysql -initSchema

echo "✅ 清理完成！"
echo "🚀 现在可以创建新表了"

✅ 清理完成标志

检查项	预期结果
`SHOW TABLES;`	空（没有表）
`/user/hive/warehouse/`	空目录
`DESCRIBE FORMATTED students;`	报错（表不存在）

执行完清理后，环境就是全新的了，可以重新开始学习！🎯

我有个疑惑，hdfs上不是可以做隔离吗，不同IP连接上去互相隔离，所以最开始看不到表数据，我以为是换了连接导致的，WSL的IP换了，DBeaver的连接改了

你这个问题问得很好！涉及了 HDFS 的多租户隔离机制 和 DBeaver 连接方式 的区别。我来帮你理清楚：

一、HDFS 的"隔离"到底是什么？

HDFS 确实支持多用户隔离 ，但这种隔离是基于 Linux 系统用户 的，不是基于 IP 地址的。

隔离维度	HDFS 是否支持	说明
基于 Linux 用户	✅ 支持	用户 `mumu` 和 `hdfs` 访问不同目录，权限不同
基于 IP 地址	❌ 不支持	HDFS 不按 IP 隔离，只按用户身份隔离
基于客户端连接	❌ 不支持	同一个用户从任何 IP 连过来，看到的是同一个 HDFS

二、那为什么你换了连接就看不到数据了？

你之前遇到的情况是：WSL IP 变了，DBeaver 连接参数改了，然后看不到表数据了。

这背后不是 HDFS 隔离的问题，而是以下几个原因的组合：

1️⃣ HiveServer2 服务状态变了

WSL 重启 → 服务停止 → 重连时可能没启动成功

2️⃣ DBeaver 连接的端口变了（10000 → 10001）

HiveServer2 本身是高可用服务，换端口意味着连接到不同实例或不同配置

3️⃣ 用户身份可能变了

连接时填写了不同的用户名，导致 HDFS 权限不同（但大概率不是这个原因）

4️⃣ 数据确实丢了（原因是 format 了 HDFS）

这才是根本原因------不是隔离，是数据真的没了

三、用一张图看懂你的情况

text

复制代码

┌─────────────────────────────────────────────────────────┐
│  WSL 换了 IP → 你修改 DBeaver 连接参数                 │
│                    │                                    │
│                    ▼                                    │
│  DBeaver 连的是同一个 HiveServer2（只是端口不同）      │
│                    │                                    │
│                    ▼                                    │
│  HiveServer2 查的是同一个 HDFS（localhost:9001）       │
│                    │                                    │
│                    ▼                                    │
│  HDFS 是同一个文件系统，数据不会因 IP 变化而隔离       │
│                    │                                    │
│                    ▼                                    │
│  为什么查不到？ → 因为数据被 format 删了               │
└─────────────────────────────────────────────────────────┘

四、如果 HDFS 真的按 IP 隔离会怎样？

如果 HDFS 按 IP 隔离，那：

WSL IP	看到的数据
172.18.230.242	表 A、表 B
172.18.230.243	表 C（看不到 A 和 B）
localhost	表 D

但这不是 HDFS 的设计，它不会这么做。

五、那 HDFS 真正怎么隔离？

HDFS 的隔离是基于 Linux 系统用户 + 目录权限：

text

复制代码

/user/hive/warehouse/
    ├── mumu/          # 只有 mumu 可以读写
    │   └── my_table
    ├── hive/          # 只有 hive 用户可以读写
    │   └── test
    └── public/        # 所有人可读
        └── shared

如果你用 mumu 用户连接 Hive，就只能看到 mumu 有权限访问的数据。

但是你的 Hive 配置中 warehouse 目录是 /user/hive/warehouse，而且 test 表的 Owner 是 mumu，所以权限上没问题。

六、总结

你的困惑	正确答案
"IP 变了，数据被隔离了？"	❌ HDFS 不按 IP 隔离
"是不是换连接导致看不到表？"	⚠️ 换连接确实可能导致服务不可用，但数据本身不受影响
"那数据哪去了？"	✅ 因为执行了 `hdfs namenode -format`，数据被清空了

✅ 结论

HDFS 不按 IP 做隔离，数据丢失的真正原因是格式化了 HDFS。

你用不同 IP 连同一个 HDFS，只要用户身份相同，看到的数据就是一样的。但数据被删了，那怎么连都看不到了。

为什么执行了完整清理脚本（一键执行），DBeaver显示表还在，需要关闭DBeaver重启吗

不需要重启 DBeaver ，只需要刷新连接即可。

🔍 为什么清理后 DBeaver 还显示表？

DBeaver 有本地缓存 ，它不会每次操作都实时去 Hive 拉取最新元数据。清理脚本删了 HDFS 数据和 MySQL 元数据，但 DBeaver 左侧的树形结构还没有刷新。

✅ 刷新方法

方法一：刷新连接（最快）

在 DBeaver 左侧，右键点击你的 Hive 连接 → 选择 "刷新" （或按 F5）

方法二：断开重连

右键连接 → "断开连接"
再次右键 → "重新连接"

方法三：刷新整个数据库

展开 default 数据库 → 右键 default → "刷新"

📌 如果刷新后还有残留

在 DBeaver 中执行：

sql

复制代码

-- 1. 确认表是否真的还存在
SHOW TABLES;

-- 2. 如果还看到表名，说明清理没完全成功
-- 3. 如果 SHOW TABLES 为空，DBeaver 左侧还没更新，强制刷新

🚨 如果 `SHOW TABLES` 还有表

说明清理脚本可能没有完全清掉 MySQL 中的元数据。手动再删一次：

sql

复制代码

-- 查看所有表
SHOW TABLES;

-- 逐个删除
DROP TABLE 表名;

✅ 刷新后应该看到

位置	预期结果
DBeaver 左侧树	无表，只有 `default` 空库
`SHOW TABLES;`	空（0 rows）
`/user/hive/warehouse/`	空目录

现在右键刷新连接试试，表就应该消失了 🎯

DBeaver重启后报错

这个错误信息非常明确：Database default does not exist（default 数据库不存在）。

这是因为你执行了 完整清理脚本 ，删除了 Hive 的元数据库（MySQL），并重新初始化了。但重新初始化后，Hive 默认的 default 数据库没有被正确创建。

🔍 问题原因

清理脚本执行了：

bash

复制代码

DROP DATABASE metastore;           # 删除了整个元数据库
CREATE DATABASE metastore;         # 重建空库
schematool -dbType mysql -initSchema  # 初始化 Hive 元数据表

但 schematool 初始化后，default 数据库需要手动创建或由 HiveServer2 首次启动时自动创建 。HiveServer2 在启动时尝试连接 default 数据库，发现不存在，所以报错。

🔧 解决方案

方法一：手动创建 `default` 数据库

sql

复制代码

-- 用 Beeline 或 DBeaver 连接（如果连不上，用 beeline -u jdbc:hive2://localhost:10001 直接连）
CREATE DATABASE default;
USE default;

方法二：重启 HiveServer2（让它自动创建）

bash

复制代码

# 停止 HiveServer2
pkill -f hiveserver2

# 重新启动
nohup $HIVE_HOME/bin/hiveserver2 -hiveconf hive.server2.thrift.port=10001 > /tmp/hiveserver2.log 2>&1 &

# 等待几秒后查看日志
sleep 5
tail -20 /tmp/hiveserver2.log

HiveServer2 启动时会自动检查 default 数据库是否存在，如果不存在会自动创建。

方法三：在 Hive 命令行中创建

bash

复制代码

# 进入 Hive CLI
hive

# 在 Hive CLI 中执行
CREATE DATABASE default;

📌 快速修复（推荐）

执行以下命令，通过 Beeline 连接并创建 default 数据库：

bash

复制代码

# 1. 启动 Beeline
beeline -u jdbc:hive2://localhost:10001 -n mumu

# 2. 如果能连接成功，执行：
CREATE DATABASE default;

# 3. 退出
!exit

✅ 验证

bash

复制代码

# 在 Beeline 中查看数据库
beeline -u jdbc:hive2://localhost:10001 -n mumu -e "SHOW DATABASES;"

应该能看到 default 数据库。

然后在 DBeaver 中右键连接 → 刷新，重新连接即可。

🚨 如果 Beeline 也连不上

直接重启 HiveServer2，让它自动创建：

bash

复制代码

# 重启 HiveServer2
pkill -f hiveserver2
nohup $HIVE_HOME/bin/hiveserver2 -hiveconf hive.server2.thrift.port=10001 > /tmp/hiveserver2.log 2>&1 &

# 查看日志确认启动成功
tail -20 /tmp/hiveserver2.log

看到 Starting ThriftBinaryCLIService on port 10001 说明启动成功，再重试 DBeaver 连接。

📋 总结

问题	原因	解决方法
`Database default does not exist`	清理脚本删除了元数据，`default` 数据库丢失	重启 HiveServer2 自动创建，或手动 `CREATE DATABASE default;`

执行重启 HiveServer2 或手动创建 default 数据库，DBeaver 就能重新连接了！🎯

为什么DBeaver插入一条数据这么慢：INSERT INTO test VALUES (1,'hello');，甚至需要十几秒

INSERT INTO 在 Hive 里执行慢，甚至要等上十几秒，这个问题在 Hive 的学习和测试环境中很典型。这背后有几个根本原因，我们来逐个拆解一下。

🤔 为什么单条插入在 Hive 里是"重型操作"？

Hive 的设计初衷是处理海量数据的批量分析，而不是像传统关系型数据库那样做高频的、单条记录的事务处理。单条插入会触发一系列耗时操作：

每个插入都是一个 MapReduce 作业 ：执行 INSERT INTO 时，Hive 会在后台启动一个完整的 MapReduce 任务来处理。启动这个任务本身就有不小的开销。一条数据也要跑一个作业，就像用卡车去快递一张纸条，效率很低。
默认是事务表 (ACID) ：在 Hive 3.x 中，新建的表默认就是事务表。对于每一条插入，Hive 都会创建一个新的增量文件（delta file）。文件越多，后续的查询和合并（Compaction）就越慢。
元数据压力 ：执行 INSERT 后，Hive 需要更新表的统计信息，它会递归地扫描表目录来获取文件数量、总大小等信息。当表里的小文件越来越多时，这个过程会线性地变慢，导致每次插入都越来越慢。

📊 不只是你遇到这个问题

你的感受是准确的，社区中很多使用者都反馈过 Hive 单条插入性能差的问题，甚至有人报告过插入 6000 行数据耗时 300 秒 的极端情况。查询慢几倍，插入慢几十倍，这在 Hive 里是常态。

⚙️ 能不能优化一下？

虽然很难让单条插入变得飞快，但通过一些配置调整，可以稍微改善体验：

合并小文件：可以启用 Hive 的文件合并功能，在作业结束时把小文件合并成大文件。

sql

复制代码

-- 开启作业结束时合并小文件
SET hive.merge.mapfiles = true;
SET hive.merge.smallfiles.threshold = 134217728; -- 128MB

调整执行引擎：默认的 MapReduce 启动慢，可以换成更快的引擎，比如 Tez。

sql
复制代码
```
SET hive.execution.engine = tez;
```
注意，切换引擎前需要集群已经安装并配置好 Tez。
调整事务参数：对于测试环境，如果不需要 ACID 特性，可以考虑创建非事务表来减少开销。

💎 最佳实践建议

对于你现在的情形，我建议：

顺其自然：如果只是偶尔测试几条数据，十几秒的等待在 Hive 世界里是正常的，可以接受。
批量插入 ：把你要插入的几条数据整理到一个文件里，用 LOAD DATA 一次全部导入，这才是 Hive 的"正确打开方式"。

总的来说，Hive 单条插入慢是它"基因"里决定的行为。理解了原理，我们就能更好地在实际工作和学习中使用它，而不是和它的设计初衷对抗。

（踩坑实录）DBeaver 中新建的表，在 HDFS 上看（三个 Web UI：HDFS、YARN、Hive）不到的原因排查和解决

这三个UI主要都是干嘛的，总结对比

📊 三个 Web UI 对比总结

💡 一句话总结

我在DBeaver新建的表，在哪看呢

🔍 Hive 表的默认存储路径

📌 或者直接在 DBeaver 中查看

📂 路径说明

🧪 快速验证

/user/hive/warehouse 没找到，是之前配置的时候误删了吗

🔍 先确认一下 Hive 的仓库目录配置

📌 如果没有输出，说明没有配置

🔧 配置默认仓库路径

🧪 在 DBeaver 中创建测试表

📌 注意

配置已经有了！仓库路径是 /user/hive/warehouse，但目录可能还没有创建。

🔧 创建 Hive 仓库目录

🧪 然后在 DBeaver 中创建测试表

📂 创建完成后，在 HDFS Web UI 查看

🚨 如果提示权限错误

很好，目录创建成功了（ls 命令没有输出，说明目录是空的，这是正常的）。

📂 在 HDFS Web UI 中查看 /user/hive/warehouse

🔧 如果 Web UI 权限报错

🧪 创建表，生成数据文件

📂 然后在 HDFS Web UI 查看

🚨 如果 DBeaver 插入数据失败

SQL 错误 08S01: org.apache.thrift.transport.TTransportException: java.net.SocketException: 你的主机中的软件中止了一个已建立的连接。我原来在DBeaver建的表呢

🔧 解决方案：重新连接

📌 你建的表还在吗？

🔍 验证你的表

🚨 如果 SHOW TABLES 看不到之前建的表

✅ 快速恢复步骤

不是连接中断，是修改了连接。所以，现在是需要重新建表。那原来建的表要删除吗，还是不用管？

📌 原因

🗑️ 要不要删除？

🧹 如果想删除旧表

✅ 最佳做法

太好了！✅ 你的表 test 还在！

🔍 查看 test 表的数据

✅ 如果数据还在

🗑️ 如果你确实想清理旧表

📌 总结

🎉 完美！test 表完好无损！

🔍 查看 test 表的数据

📂 在 HDFS Web UI 中查看

✅ 结论

hdfs上面怎么没有数据

📂 正确的访问路径

✅ 验证

📌 路径对比

还是没有啊，看不到test表

📂 正确的路径

✅ 验证

📌 路径对比

看来 HDFS 上确实没有 test 表的数据文件。

🔧 解决方案

✅ 推荐：方案一（DROP + CREATE）

方案一（DROP + CREATE）执行后，有数据了，恢复正常

📌 简单总结一下这次的问题

✅ 验证一下

📋 后续使用建议

🎯 现在环境已经完全正常

总结一下，可以从哪些方面或哪些方式，判断表到底存不存在

1️⃣ 在 Hive/Beeline/DBeaver 中查看（最直接）

2️⃣ 查询 Hive 元数据库 MySQL（元数据层）

3️⃣ 查看 HDFS 存储目录（数据层）

4️⃣ HDFS Web UI 图形化查看

5️⃣ 组合判断：三种状态

📋 快速判断表是否完整存在

🎯 一句话总结

所以，我们之前到底是什么情况呢，怎么一会儿判断表存在，一会儿又说不存在

📊 之前的真实情况

🔍 为什么会出现这种情况？

📌 整个过程时间线

✅ 结论

💡 经验教训

🔍 真正的原因

📊 为什么表还在，但 HDFS 目录没了？

🔄 类比理解

✅ 结论

配置已经有了！仓库路径是 `/user/hive/warehouse`，但目录可能还没有创建。

很好，目录创建成功了（`ls` 命令没有输出，说明目录是空的，这是正常的）。

📂 在 HDFS Web UI 中查看 `/user/hive/warehouse`

SQL 错误 $08S01$ : org.apache.thrift.transport.TTransportException: java.net.SocketException: 你的主机中的软件中止了一个已建立的连接。我原来在DBeaver建的表呢

🚨 如果 `SHOW TABLES` 看不到之前建的表

太好了！✅ 你的表 `test` 还在！

🔍 查看 `test` 表的数据

🎉 完美！`test` 表完好无损！

🔍 查看 `test` 表的数据

看来 HDFS 上确实没有 `test` 表的数据文件。

🚨 如果 `SHOW TABLES` 还有表

方法一：手动创建 `default` 数据库