PostgreSQL逻辑备份-pg_dumpall

pg_dumpall 用于将所有数据库转储到一个文本文件中。该文本文件包含可用作恢复数据
库的 SQL 命令。它通过为集群中的每个数据库调用 pg_dump 来做到这一点。
pg_dumpall 还转储所有数据库共有的全局对象，即数据库角色和表空间（pg_dump 不
保存这些对象）。
pg_dumpall 调用 pg_dump 来进行备份，备份不同的数据库需要切换连接，无法在不同
的数据库之间共享 snapshot，因此只能单库一致。这意味着每个数据库自身是一致的，
但是不同数据库的快照并不同步。

1.pgdumpall优缺点
优点：
 它转储全局的东西------角色和表空间，这些不能被 pg_dump 转储。
 单个命令，你可以获得整个集群的结果
 常用来备份全局对象而非全库数据
缺点：
 转储很大，因为它未压缩
 转储非常慢，因为它是顺序完成的，只有一个工作程序
 仅恢复部分转储很难
 生成 sql 脚本，pg_dumpall 只支持文本格式
 它在内部调用 pg_dump
建议每天对角色和表空间定义等全局对象进行备份，但不建议每天使用 pg_dumpall 来备份全库数据，因为 pg_dumpall 仅支持导出为 SQL 文本格式，而使用这种庞大的 SQL 文
本备份来进行全库级别的数据库恢复是及其耗时的，所以一般只建议使用 pg_dumpall 来
备份全局对象而非全库数据。
2.pg_dumpall示例：
2.1导出所有数据库

bash 复制代码

pg_dumpall > all.sql 

-- 排除单个数据库 
pg_dumpall --exclude-database='testdb' -f all.sql 

-- 排除多个名字相近数据库 
pg_dumpall --exclude-database='testdb[12]' -f all.sql 

-- 排除多个名字完全不同数据库 
pg_dumpall --exclude-database='testdb' --exclude-database='newdb' -f all.sql

2.2导出所有Role和Tablespace

bash 复制代码

#仅导出 Role： 
pg_dumpall -r > pg_roles.sql 
或 
pg_dumpall -g > pg_global.sql 

# 仅导出 Tablespace: 
pg_dumpall -t > pg_tablespace.sql

3.恢复

bash 复制代码

# 导入 :不存在的会导入，存在的不导入 
psql -f pg_roles.sql

4.copy导入导出

4.1简介

COPY 命令可以快速的导入数据到 postgresql 数据库中，文件格式类似 TXT 、 CVS 之类。
适合批量导入数据，相比 insert 命令插入效率更高。

4.2copy和\copy区别

COPY 和\copy 都支持这两类操作，但两者有如下区别：
 COPY 是 SQL 命令，\copy 是元命令.
 COPY 必须具有 SUPERUSER 超级权限，而 \copy 是元命令，不需要 SUPERUSER
权限。
 COPY 读取或写入数据库服务端主机上的文件，而 \copy 是从 psql 客户端主机读取
或写入文件。
从性能方面看，大数据量导出文件或大文件数据导入数据库，COPY 比 \copy 性能高。
通常大数据量的文件导入一般在数据库服务端主机通过 PostgreSQL 超级用户使用 copy
命令导入。

4.3copy应用案例

4.3.1从 Postgresql 导出表

bash 复制代码

-- 拷贝表至控制台,并使用竖线(|)作为字段直接的分隔符 
COPY t1 TO STDOUT (DELIMITER '|'); 

-- 拷贝表至文件，使用空格作为字段直接的分隔符 
COPY t1 TO '/tmp/t1.sql' WITH DELIMITER ' '; 

 -- 导出查询结果至文件： 
COPY (SELECT * FROM t1 WHERE name LIKE 'a%') TO '/tmp/t1.sql'; 

-- 如果需要压缩数据，使用下面命令： 
COPY t1 TO PROGRAM 'gzip > /tmp/t1.gz'; 

-- 解压 
gzip -dv t1.gz 

-- 如果仅导出 2 列，使用下面命令： 
COPY t1(name,age) TO '/tmp/t1.sql' DELIMITER ' '; 

-- 如果需要导出二进制文件： 
copy t1 to '/tmp/t1.dat' with binary; 
copy binary t1 to'/tmp/t1.dat';


-- 导出 csv 文件： 
copy t1 to '/tmp/t1.csv' with csv; 
copy t1 to '/tmp/t1.csv' with csv header; 

csv 文件还有一些其他参数： 
DELIMITER -- 数据行中分割每个字段的分隔符。csv 文件一般使用逗号. 
HEADER -- 指定 csv 文件的标题，如果不需要标题行，可以忽略 HEADER.

4.3.2导入文件至PostgreSQL表

bash 复制代码

-- 传入文件至已经存在的表： 
COPY t1 FROM '/tmp/t1.sql' (DELIMITER ' '); 
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER; 

-- 指定编码： 
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER encoding 'utf-8'; 

-- 支持 WHERE 条件过滤 
COPY t1 FROM '/tmp/t1.sql' with DELIMITER '|' WHERE id < 5;

4.3.3将excel表中的数据导入到postgresql数据库中

步骤：
1.将 excel 表格字段，按照 postgresql 数据库中表的字段顺序来整理数据，并保存为 csv
文件。
2.用记事本打开 csv 文件，另存为 UTF-8 格式。
3.使用客户端链接 postgresql 数据库，执行如下脚本，导入 csv 文件到 Postgresql 数据
表：
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER;
注意事项：
1.csv 文件要为 utf-8 格式，否则导入时可能会有报错：
ERROR:invalid bytesequence for encoding "UTF8": 0xcdf5

4.3.5copy与事务

copy 导入导出数据是在同一个事务中执行的吗
copy 和普通的 insert 语句不同， copy 是在一条命令里加载所有记录，而不是一连串
的 INSERT 命令。
copy 会在遇到错误时中止，但是不是简单的回滚。如果是 copy to ，那么则出现错误
前的数据不会受影响；而如果是 copy from ，那么在出现错误前的数据在目标表中会变
的不可见，这个并不是说回滚了，而是不可见或者不可访问，这部分数据在目标表中
仍然占用磁盘空间。

例子：
---copy to：
可以看到表 t1 中有 100W 条数据， copy 到文件大小为 41M

copy t1 to '/tmp/t1.sql';
COPY 1000000
$ll -h -rw-r--r--. 1 postgres postgres 41M 3 月 27 14:28 t1.sql 重新 copy ，然后中断该操作，发现只有部分数据被 copy to 文件中了，说明中断前的数据没受到影响。 postgres=# copy t1 to '/tmp/t1.sql'; \^CCancel request sent 2023-03-27 14:31:31.553 CST \[2002\] ERROR: canceling statement due to user request$ ll -h
-rw-r--r--. 1 postgres postgres 32M 3 月 27 14:31 t1.sql
---copy from ：
copy 时进行中断。
postgres=# truncate t1;
TRUNCATE TABLE
postgres=# copy t1 from '/tmp/t1.sql';
^CCancel request sent
2023-03-27 14:33:44.317 CST [2016] ERROR: canceling statement due to user
request
查看：
发现表中没有任何数据，但是大小为 27MB ！
postgres=# select * from t1;
id | name | age
----+------+-----
(0 rows)
postgres=# \dt+
List of relations
Schema | Name | Type | Owner | Persistence | Access method | Size |
Description
--------+------+-------+----------+-------------+---------------+-------+-------------
public | t1 | table | postgres | permanent | heap | 27 MB |
(1 row)

可以看到，当该表被 vacuum 后，表占用的磁盘空间便被回收了。
postgres=# vacuum t1;
VACUUM
postgres=# \dt+
List of relations
Schema | Name | Type | Owner | Persistence | Access method | Size |
Description
--------+------+-------+----------+-------------+---------------+-------+-------------
public | t1 | table | postgres | permanent | heap | 24 kB |
(1 row)

总结：
通过上面的实验可以的出结论，对于 copy 操作，如果中途出现问题导致中断：
 copy to：不会受到影响，中断前已经 copy 的数据仍然有效；
 copy from：目标表中已经拷贝的数据会变得不可见，但是仍然占用磁盘空间，等到
被 vacuum 时空间将被回收。