FDW（Foreign Data Wrapper）

在上一篇博客里，最末尾提到了 FDW。

FDW 到底是什么呢？

标准

FDW（Foreign Data Wrapper）遵循了 SQL/MED 标准，标准全称：ISO/IEC 9075-9 Management of External Data (SQL/MED)

2003 年，SQL/MED（SQL Management of External Data）被加入 SQL 标准，其为外部数据管理提供了规范。在 2011 年发行的 PostgreSQL 9.1 开始支持外部数据读，2013 发行的 PostgreSQL 9.3 开始支持外部数据写。

下面两篇 PG wiki 内容介绍得很详细：

FDW 有何用？

source：https://leileiluoluo.com/posts/postgres-foreign-data-wrappers.html

数据分片

使用 FDW 将数据分布式存储在多个数据库上从而实现数据分片（如 pg_shardman 插件，即是使用 postgres_fdw 和 pg_pathman 插件来实现数据分片的）。

数据同步

使用 FDW 建立本地数据库与外部数据库的连接，即可定时同步外部数据至本地。

数据迁移

使用 FDW 建立本地数据库与外部数据库的连接，即可进行数据迁移。

ETL（Extract-Transform-Load，抽取转换加载）

使用 FDW 将来自不同类型数据库的数据抽取到一个数据仓库中，便于统一化访问。

PG 实现

pg 实现了数百个 fdw，用于访问外部数据，包括：

Generic SQL Database Wrappers (如 JDBC、ODBC）
Specific SQL Database Wrappers（如 MySQL、SQLServer）
NoSQL Database Wrappers（如 Redis、Cassandra）
File Wrappers（如 CSV、JSON、Parquet）
Geo Wrappers
LDAP Wrappers
Generic Web Wrappers（如 git、www）
Specific Web Wrappers
Big Data Wrappers（如 ES、HDFS、Hive、Arrow）
Operating System Wrappers
Exotic Wrappers（如 faker_fdw）

这个页面里，可以找到这些 Wrapper 的源码。

从上面的实现里可以看到，所有 wrapper 的核心，都是实现 FdwRoutine 中的接口。

cpp 复制代码

/*
 * Foreign-data wrapper handler function: return a struct with pointers
 * to my callback routines.
 */
Datum
jdbc_fdw_handler(PG_FUNCTION_ARGS)
{
	FdwRoutine 	*fdwroutine = makeNode(FdwRoutine);
	
	#if (PG_VERSION_NUM < 90200)
	fdwroutine->PlanForeignScan = jdbcPlanForeignScan;
	#endif

	#if (PG_VERSION_NUM >= 90200)
	fdwroutine->GetForeignRelSize = jdbcGetForeignRelSize;
	fdwroutine->GetForeignPaths = jdbcGetForeignPaths;
	fdwroutine->GetForeignPlan = jdbcGetForeignPlan;
	#endif

	fdwroutine->ExplainForeignScan = jdbcExplainForeignScan;
	fdwroutine->BeginForeignScan = jdbcBeginForeignScan;
	fdwroutine->IterateForeignScan = jdbcIterateForeignScan;
	fdwroutine->ReScanForeignScan = jdbcReScanForeignScan;
	fdwroutine->EndForeignScan = jdbcEndForeignScan;

	pqsignal(SIGINT, SIGINTInterruptHandler);

	PG_RETURN_POINTER(fdwroutine);
}

关于 FdwRoutine 中每个接口的含义，可以参考 PG 官网文章：https://www.postgresql.org/docs/current/fdw-callbacks.html

关于 FdwRountine 的更多细节，可以参考专门的文章，十分有趣。如果你希望写一个自己的 wrapper，从 helloworld 入手会非常合适。

思考

PG 真的是一个学院派数据库！在设计之初就能提炼出一个具备进化能力的外部数据接入框架，实在是伟大（实际经历过企业系统研发的人是能体会的）。

FDW 从产品层面的成功之处，是定义好了一套标准的使用接口，包括：定义 FDW Server；定义 FDW 外表，且支持传入选项。

例如：

sql 复制代码

CREATE SERVER foreign_server
        FOREIGN DATA WRAPPER postgres_fdw
        OPTIONS (host 'localhost', port '5432', dbname 'postgres');
        
CREATE FOREIGN TABLE foreign_weather (
      city        varchar(80),
      temp_low    int,
      temp_high   int,
      prcp        real,
      date        date
  ) SERVER foreign_server
    OPTIONS (schema_name 'public', table_name 'weather');
    
IMPORT FOREIGN SCHEMA public FROM SERVER foreign_server INTO public;

有了这套接口，用户就能够非常自由地实现自己的 fdw 扩展。

FDW 从执行层面的成功之处，成功定义了 FdwRoutine 接口，在整个 postgres 实现中贯彻了接口思想，落实在了代码中。

进一步思考

从 FdwRoutine 支持的接口看，并不支持 batch mode，它仅支持火山模型的逐行读取。假设要支持高效的 parquet 文件向量化处理，用 parquet_fdw 插件大约是获取不到最优性能的。