pg_dumpall 用于将所有数据库转储到一个文本文件中。该文本文件包含可用作恢复数据
库的 SQL 命令。它通过为集群中的每个数据库调用 pg_dump 来做到这一点。
pg_dumpall 还转储所有数据库共有的全局对象,即数据库角色和表空间(pg_dump 不
保存这些对象)。
pg_dumpall 调用 pg_dump 来进行备份,备份不同的数据库需要切换连接,无法在不同
的数据库之间共享 snapshot,因此只能单库一致。这意味着每个数据库自身是一致的,
但是不同数据库的快照并不同步。
1.pgdumpall优缺点
优点:
它转储全局的东西------角色和表空间,这些不能被 pg_dump 转储。
单个命令,你可以获得整个集群的结果
常用来备份全局对象而非全库数据
缺点:
转储很大,因为它未压缩
转储非常慢,因为它是顺序完成的,只有一个工作程序
仅恢复部分转储很难
生成 sql 脚本,pg_dumpall 只支持文本格式
它在内部调用 pg_dump
建议每天对角色和表空间定义等全局对象进行备份,但不建议每天使用 pg_dumpall 来备份全库数据,因为 pg_dumpall 仅支持导出为 SQL 文本格式,而使用这种庞大的 SQL 文
本备份来进行全库级别的数据库恢复是及其耗时的,所以一般只建议使用 pg_dumpall 来
备份全局对象而非全库数据。
2.pg_dumpall示例:
2.1导出所有数据库
bash
pg_dumpall > all.sql
-- 排除单个数据库
pg_dumpall --exclude-database='testdb' -f all.sql
-- 排除多个名字相近数据库
pg_dumpall --exclude-database='testdb[12]' -f all.sql
-- 排除多个名字完全不同数据库
pg_dumpall --exclude-database='testdb' --exclude-database='newdb' -f all.sql
2.2导出所有Role和Tablespace
bash
#仅导出 Role:
pg_dumpall -r > pg_roles.sql
或
pg_dumpall -g > pg_global.sql
# 仅导出 Tablespace:
pg_dumpall -t > pg_tablespace.sql
3.恢复
bash
# 导入 :不存在的会导入,存在的不导入
psql -f pg_roles.sql
4.copy导入导出
4.1简介
COPY 命令可以快速的导入数据到 postgresql 数据库中,文件格式类似 TXT 、 CVS 之类。
适合批量导入数据, 相比 insert 命令插入效率更高 。
4.2copy和\copy区别
COPY 和\copy 都支持这两类操作,但两者有如下区别:
COPY 是 SQL 命令,\copy 是元命令.
COPY 必须具有 SUPERUSER 超级权限,而 \copy 是元命令,不需要 SUPERUSER
权限。
COPY 读取或写入数据库服务端主机上的文件,而 \copy 是从 psql 客户端主机读取
或写入文件。
从性能方面看, 大数据量导出文件或大文件数据导入数据库,COPY 比 \copy 性能高。
通常大数据量的文件导入一般在数据库服务端主机通过 PostgreSQL 超级用户使用 copy
命令导入。
4.3copy应用案例
4.3.1从 Postgresql 导出表
bash
-- 拷贝表至控制台,并使用竖线(|)作为字段直接的分隔符
COPY t1 TO STDOUT (DELIMITER '|');
-- 拷贝表至文件,使用空格作为字段直接的分隔符
COPY t1 TO '/tmp/t1.sql' WITH DELIMITER ' ';
-- 导出查询结果至文件:
COPY (SELECT * FROM t1 WHERE name LIKE 'a%') TO '/tmp/t1.sql';
-- 如果需要压缩数据,使用下面命令:
COPY t1 TO PROGRAM 'gzip > /tmp/t1.gz';
-- 解压
gzip -dv t1.gz
-- 如果仅导出 2 列,使用下面命令:
COPY t1(name,age) TO '/tmp/t1.sql' DELIMITER ' ';
-- 如果需要导出二进制文件:
copy t1 to '/tmp/t1.dat' with binary;
copy binary t1 to'/tmp/t1.dat';
-- 导出 csv 文件:
copy t1 to '/tmp/t1.csv' with csv;
copy t1 to '/tmp/t1.csv' with csv header;
csv 文件还有一些其他参数:
DELIMITER -- 数据行中分割每个字段的分隔符。csv 文件一般使用逗号.
HEADER -- 指定 csv 文件的标题,如果不需要标题行,可以忽略 HEADER.
4.3.2导入文件至PostgreSQL表
bash
-- 传入文件至已经存在的表:
COPY t1 FROM '/tmp/t1.sql' (DELIMITER ' ');
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER;
-- 指定编码:
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER encoding 'utf-8';
-- 支持 WHERE 条件过滤
COPY t1 FROM '/tmp/t1.sql' with DELIMITER '|' WHERE id < 5;
4.3.3将excel表中的数据导入到postgresql数据库中
步骤:
1.将 excel 表格字段,按照 postgresql 数据库中表的字段顺序来整理数据,并保存为 csv
文件。
2.用记事本打开 csv 文件,另存为 UTF-8 格式。
3.使用客户端链接 postgresql 数据库,执行如下脚本,导入 csv 文件到 Postgresql 数据
表:
COPY t1 FROM '/tmp/t1.csv' WITH delimiter ',' CSV HEADER;
注意事项:
1.csv 文件要为 utf-8 格式,否则导入时可能会有报错:
ERROR:invalid bytesequence for encoding "UTF8": 0xcdf5
4.3.5copy与事务
copy 导入导出数据是在同一个事务中执行的吗
copy 和普通的 insert 语句不同, copy 是在一条命令里加载所有记录, 而不是一连串
的 INSERT 命令。
copy 会在遇到错误时中止,但是不是简单的回滚。如果是 copy to ,那么则出现错误
前的数据不会受影响;而如果是 copy from ,那么在出现错误前的数据在目标表中会变
的不可见,这个并不是说回滚了,而是不可见或者不可访问,这部分数据在目标表中
仍然占用磁盘空间。
例子:
---copy to:
可以看到表 t1 中有 100W 条数据, copy 到文件大小为 41M
copy t1 to '/tmp/t1.sql';
COPY 1000000
$ ll -h
-rw-r--r--. 1 postgres postgres 41M 3 月 27 14:28 t1.sql
重新 copy ,然后中断该操作,发现只有部分数据被 copy to 文件中了,说明中断前的
数据没受到影响。
postgres=# copy t1 to '/tmp/t1.sql';
^CCancel request sent
2023-03-27 14:31:31.553 CST [2002] ERROR: canceling statement due to user
request
$ ll -h
-rw-r--r--. 1 postgres postgres 32M 3 月 27 14:31 t1.sql
---copy from :
copy 时进行中断。
postgres=# truncate t1;
TRUNCATE TABLE
postgres=# copy t1 from '/tmp/t1.sql';
^CCancel request sent
2023-03-27 14:33:44.317 CST [2016] ERROR: canceling statement due to user
request
查看:
发现表中没有任何数据,但是大小为 27MB !
postgres=# select * from t1;
id | name | age
----+------+-----
(0 rows)
postgres=# \dt+
List of relations
Schema | Name | Type | Owner | Persistence | Access method | Size |
Description
--------+------+-------+----------+-------------+---------------+-------+-------------
public | t1 | table | postgres | permanent | heap | 27 MB |
(1 row)
可以看到,当该表被 vacuum 后,表占用的磁盘空间便被回收了。
postgres=# vacuum t1;
VACUUM
postgres=# \dt+
List of relations
Schema | Name | Type | Owner | Persistence | Access method | Size |
Description
--------+------+-------+----------+-------------+---------------+-------+-------------
public | t1 | table | postgres | permanent | heap | 24 kB |
(1 row)
总结:
通过上面的实验可以的出结论,对于 copy 操作,如果中途出现问题导致中断:
copy to:不会受到影响,中断前已经 copy 的数据仍然有效;
copy from:目标表中已经拷贝的数据会变得不可见,但是仍然占用磁盘空间,等到
被 vacuum 时空间将被回收。