PostgreSQL逻辑备份-pg_dumpall

pg_dumpall 用于将所有数据库转储到一个文本文件中。该文本文件包含可用作恢复数据
库的 SQL 命令。它通过为集群中的每个数据库调用 pg_dump 来做到这一点。
pg_dumpall 还转储所有数据库共有的全局对象,即数据库角色和表空间(pg_dump 不
保存这些对象)。
pg_dumpall 调用 pg_dump 来进行备份,备份不同的数据库需要切换连接,无法在不同
的数据库之间共享 snapshot,因此只能单库一致。这意味着每个数据库自身是一致的,
但是不同数据库的快照并不同步。

1.pgdumpall优缺点
优点:
 它转储全局的东西------角色和表空间,这些不能被 pg_dump 转储。
 单个命令,你可以获得整个集群的结果
 常用来备份全局对象而非全库数据
缺点:
 转储很大,因为它未压缩
 转储非常慢,因为它是顺序完成的,只有一个工作程序
 仅恢复部分转储很难
 生成 sql 脚本,pg_dumpall 只支持文本格式
 它在内部调用 pg_dump
建议每天对角色和表空间定义等全局对象进行备份,但不建议每天使用 pg_dumpall 来备份全库数据,因为 pg_dumpall 仅支持导出为 SQL 文本格式,而使用这种庞大的 SQL 文
本备份来进行全库级别的数据库恢复是及其耗时的,所以一般只建议使用 pg_dumpall 来
备份全局对象而非全库数据。
2.pg_dumpall示例:
2.1导出所有数据库

bash 复制代码
pg_dumpall > all.sql 

-- 排除单个数据库 
pg_dumpall --exclude-database='testdb' -f all.sql 

-- 排除多个名字相近数据库 
pg_dumpall --exclude-database='testdb[12]' -f all.sql 

-- 排除多个名字完全不同数据库 
pg_dumpall --exclude-database='testdb' --exclude-database='newdb' -f all.sql

2.2导出所有Role和Tablespace

bash 复制代码
#仅导出 Role: 
pg_dumpall -r > pg_roles.sql 
或 
pg_dumpall -g > pg_global.sql 

# 仅导出 Tablespace: 
pg_dumpall -t > pg_tablespace.sql

3.恢复

bash 复制代码
# 导入 :不存在的会导入,存在的不导入 
psql -f pg_roles.sql

4.copy导入导出

4.1简介

COPY 命令可以快速的导入数据到 postgresql 数据库中,文件格式类似 TXT 、 CVS 之类。
适合批量导入数据, 相比 insert 命令插入效率更高 。

4.2copy和\copy区别

COPY 和\copy 都支持这两类操作,但两者有如下区别:
 COPY 是 SQL 命令,\copy 是元命令.
 COPY 必须具有 SUPERUSER 超级权限,而 \copy 是元命令,不需要 SUPERUSER
权限。
 COPY 读取或写入数据库服务端主机上的文件,而 \copy 是从 psql 客户端主机读取
或写入文件。
从性能方面看, 大数据量导出文件或大文件数据导入数据库,COPY 比 \copy 性能高。
通常大数据量的文件导入一般在数据库服务端主机通过 PostgreSQL 超级用户使用 copy
命令导入。

4.3copy应用案例

4.3.1从 Postgresql 导出表

bash 复制代码
-- 拷贝表至控制台,并使用竖线(|)作为字段直接的分隔符 
COPY t1 TO STDOUT (DELIMITER '|'); 

-- 拷贝表至文件,使用空格作为字段直接的分隔符 
COPY t1 TO '/tmp/t1.sql' WITH DELIMITER ' '; 

 -- 导出查询结果至文件: 
COPY (SELECT * FROM t1 WHERE name LIKE 'a%') TO '/tmp/t1.sql'; 

-- 如果需要压缩数据,使用下面命令: 
COPY t1 TO PROGRAM 'gzip > /tmp/t1.gz'; 

-- 解压 
gzip -dv t1.gz 

-- 如果仅导出 2 列,使用下面命令: 
COPY t1(name,age) TO '/tmp/t1.sql' DELIMITER ' '; 

-- 如果需要导出二进制文件: 
copy t1 to '/tmp/t1.dat' with binary; 
copy binary t1 to'/tmp/t1.dat';


-- 导出 csv 文件: 
copy t1 to '/tmp/t1.csv' with csv; 
copy t1 to '/tmp/t1.csv' with csv header; 

csv 文件还有一些其他参数: 
DELIMITER -- 数据行中分割每个字段的分隔符。csv 文件一般使用逗号. 
HEADER -- 指定 csv 文件的标题,如果不需要标题行,可以忽略 HEADER.

4.3.2导入文件至PostgreSQL表

bash 复制代码
-- 传入文件至已经存在的表: 
COPY t1 FROM '/tmp/t1.sql' (DELIMITER ' '); 
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER; 

-- 指定编码: 
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER encoding 'utf-8'; 

-- 支持 WHERE 条件过滤 
COPY t1 FROM '/tmp/t1.sql' with DELIMITER '|' WHERE id < 5;

4.3.3将excel表中的数据导入到postgresql数据库中

步骤:
1.将 excel 表格字段,按照 postgresql 数据库中表的字段顺序来整理数据,并保存为 csv
文件。
2.用记事本打开 csv 文件,另存为 UTF-8 格式。
3.使用客户端链接 postgresql 数据库,执行如下脚本,导入 csv 文件到 Postgresql 数据
表:
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER;
注意事项:
1.csv 文件要为 utf-8 格式,否则导入时可能会有报错:
ERROR:invalid bytesequence for encoding "UTF8": 0xcdf5

4.3.5copy与事务

copy 导入导出数据是在同一个事务中执行的吗
copy 和普通的 insert 语句不同, copy 是在一条命令里加载所有记录, 而不是一连串
的 INSERT 命令。
copy 会在遇到错误时中止,但是不是简单的回滚。如果是 copy to ,那么则出现错误
前的数据不会受影响;而如果是 copy from ,那么在出现错误前的数据在目标表中会变
的不可见,这个并不是说回滚了,而是不可见或者不可访问,这部分数据在目标表中
仍然占用磁盘空间。

例子:
---copy to:
可以看到表 t1 中有 100W 条数据, copy 到文件大小为 41M

copy t1 to '/tmp/t1.sql';
COPY 1000000
$ ll -h
-rw-r--r--. 1 postgres postgres 41M 3 月 27 14:28 t1.sql
重新 copy ,然后中断该操作,发现只有部分数据被 copy to 文件中了,说明中断前的
数据没受到影响。
postgres=# copy t1 to '/tmp/t1.sql';
^CCancel request sent
2023-03-27 14:31:31.553 CST [2002] ERROR: canceling statement due to user
request
$ ll -h
-rw-r--r--. 1 postgres postgres 32M 3 月 27 14:31 t1.sql
---copy from
copy 时进行中断。
postgres=# truncate t1;
TRUNCATE TABLE
postgres=# copy t1 from '/tmp/t1.sql';
^CCancel request sent
2023-03-27 14:33:44.317 CST [2016] ERROR: canceling statement due to user
request
查看:
发现表中没有任何数据,但是大小为 27MB !
postgres=# select * from t1;
id | name | age
----+------+-----
(0 rows)
postgres=# \dt+
List of relations
Schema | Name | Type | Owner | Persistence | Access method | Size |
Description
--------+------+-------+----------+-------------+---------------+-------+-------------
public | t1 | table | postgres | permanent | heap | 27 MB |
(1 row)

可以看到,当该表被 vacuum 后,表占用的磁盘空间便被回收了。
postgres=# vacuum t1;
VACUUM
postgres=# \dt+
List of relations
Schema | Name | Type | Owner | Persistence | Access method | Size |
Description
--------+------+-------+----------+-------------+---------------+-------+-------------
public | t1 | table | postgres | permanent | heap | 24 kB |
(1 row)

总结:
通过上面的实验可以的出结论,对于 copy 操作,如果中途出现问题导致中断:
 copy to:不会受到影响,中断前已经 copy 的数据仍然有效;
 copy from:目标表中已经拷贝的数据会变得不可见,但是仍然占用磁盘空间,等到
被 vacuum 时空间将被回收。

相关推荐
杨江几秒前
ThingsBoard安装测试
服务器·数据库
mit6.8249 分钟前
[Redis#4] string | 常用命令 | + mysql use:cache | session
数据库·redis·后端·缓存
Beekeeper&&P...1 小时前
map和redis关系
数据库·redis·缓存
jianqimingtian1 小时前
如何使用 Matlab 制作 GrabCAD 体素打印切片
数据结构·数据库
真真假假々1 小时前
MySQL和ADSDB
数据库·mysql
秦老师Q1 小时前
MySQL第二章 sql约束与sql数据类型
数据库·sql·mysql
不是二师兄的八戒1 小时前
mysql in查询大数据量业务无法避免情境下优化
数据库·mysql
----云烟----2 小时前
Qt获取文件夹下的文件个数(过滤和不过滤的区别)
数据库·qt
Dotrust东信创智2 小时前
浅谈丨功能安全测试,汽车的守护者
运维·服务器·数据库
清水白石0083 小时前
从一个“支付状态不一致“的bug,看大型分布式系统的“隐藏杀机“
java·数据库·bug