FDW(Foreign Data Wrapper)

上一篇博客里,最末尾提到了 FDW。

FDW 到底是什么呢?

标准

FDW(Foreign Data Wrapper)遵循了 SQL/MED 标准,标准全称:ISO/IEC 9075-9 Management of External Data (SQL/MED)

2003 年,SQL/MED(SQL Management of External Data)被加入 SQL 标准,其为外部数据管理提供了规范。在 2011 年发行的 PostgreSQL 9.1 开始支持外部数据读,2013 发行的 PostgreSQL 9.3 开始支持外部数据写。

下面两篇 PG wiki 内容介绍得很详细:

FDW 有何用?

source:https://leileiluoluo.com/posts/postgres-foreign-data-wrappers.html

  1. 数据分片

使用 FDW 将数据分布式存储在多个数据库上从而实现数据分片(如 pg_shardman 插件,即是使用 postgres_fdw 和 pg_pathman 插件来实现数据分片的)。

  1. 数据同步

使用 FDW 建立本地数据库与外部数据库的连接,即可定时同步外部数据至本地。

  1. 数据迁移

使用 FDW 建立本地数据库与外部数据库的连接,即可进行数据迁移。

  1. ETL(Extract-Transform-Load,抽取转换加载)

使用 FDW 将来自不同类型数据库的数据抽取到一个数据仓库中,便于统一化访问。

PG 实现

pg 实现了数百个 fdw,用于访问外部数据,包括:

  • Generic SQL Database Wrappers (如 JDBC、ODBC)
  • Specific SQL Database Wrappers(如 MySQL、SQLServer)
  • NoSQL Database Wrappers(如 Redis、Cassandra)
  • File Wrappers(如 CSV、JSON、Parquet)
  • Geo Wrappers
  • LDAP Wrappers
  • Generic Web Wrappers(如 git、www)
  • Specific Web Wrappers
  • Big Data Wrappers(如 ES、HDFS、Hive、Arrow)
  • Operating System Wrappers
  • Exotic Wrappers(如 faker_fdw)

这个页面里,可以找到这些 Wrapper 的源码

从上面的实现里可以看到,所有 wrapper 的核心,都是实现 FdwRoutine 中的接口。

cpp 复制代码
/*
 * Foreign-data wrapper handler function: return a struct with pointers
 * to my callback routines.
 */
Datum
jdbc_fdw_handler(PG_FUNCTION_ARGS)
{
	FdwRoutine 	*fdwroutine = makeNode(FdwRoutine);
	
	#if (PG_VERSION_NUM < 90200)
	fdwroutine->PlanForeignScan = jdbcPlanForeignScan;
	#endif

	#if (PG_VERSION_NUM >= 90200)
	fdwroutine->GetForeignRelSize = jdbcGetForeignRelSize;
	fdwroutine->GetForeignPaths = jdbcGetForeignPaths;
	fdwroutine->GetForeignPlan = jdbcGetForeignPlan;
	#endif

	fdwroutine->ExplainForeignScan = jdbcExplainForeignScan;
	fdwroutine->BeginForeignScan = jdbcBeginForeignScan;
	fdwroutine->IterateForeignScan = jdbcIterateForeignScan;
	fdwroutine->ReScanForeignScan = jdbcReScanForeignScan;
	fdwroutine->EndForeignScan = jdbcEndForeignScan;

	pqsignal(SIGINT, SIGINTInterruptHandler);

	PG_RETURN_POINTER(fdwroutine);
}

关于 FdwRoutine 中每个接口的含义,可以参考 PG 官网文章:https://www.postgresql.org/docs/current/fdw-callbacks.html

关于 FdwRountine 的更多细节,可以参考专门的文章,十分有趣。如果你希望写一个自己的 wrapper,从 helloworld 入手会非常合适。

思考

PG 真的是一个学院派数据库!在设计之初就能提炼出一个具备进化能力的外部数据接入框架,实在是伟大(实际经历过企业系统研发的人是能体会的)。

FDW 从产品层面的成功之处,是定义好了一套标准的使用接口,包括:定义 FDW Server;定义 FDW 外表,且支持传入选项。

例如:

sql 复制代码
CREATE SERVER foreign_server
        FOREIGN DATA WRAPPER postgres_fdw
        OPTIONS (host 'localhost', port '5432', dbname 'postgres');
        
CREATE FOREIGN TABLE foreign_weather (
      city        varchar(80),
      temp_low    int,
      temp_high   int,
      prcp        real,
      date        date
  ) SERVER foreign_server
    OPTIONS (schema_name 'public', table_name 'weather');
    
IMPORT FOREIGN SCHEMA public FROM SERVER foreign_server INTO public;

有了这套接口,用户就能够非常自由地实现自己的 fdw 扩展。

FDW 从执行层面的成功之处,成功定义了 FdwRoutine 接口,在整个 postgres 实现中贯彻了接口思想,落实在了代码中。

进一步思考

FdwRoutine 支持的接口看,并不支持 batch mode,它仅支持火山模型的逐行读取。假设要支持高效的 parquet 文件向量化处理,用 parquet_fdw 插件大约是获取不到最优性能的。

相关推荐
吃好睡好便好13 小时前
白发的根源和应对
学习·生活
大嘴皮猴儿13 小时前
跨境电商运营笔记:我是如何用工具解决多语言素材问题的
大数据·人工智能·新媒体运营·自动翻译·教育电商
自然语13 小时前
基于场景、需求、方法匹配和学习评价的垂直移动任务控制系统
学习
赤龙ERP13 小时前
赤龙一周观察 · 6月第2周
大数据·人工智能·ai·erp
JGDT_14 小时前
ERP重塑与未来趋势:SAP的实践及大一统格局(上)
大数据·人工智能·安全·架构·开源
旅僧14 小时前
Π0 理论讲解更新中
学习
ACP广源盛1392462567314 小时前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
lauo15 小时前
碳基心脏最后的堡垒——ibbot青春版:你的随身Token生产厂
大数据·人工智能·chatgpt·智能手机·ai-native
知南x15 小时前
【DPDK例程学习】(3) timer
学习
TDengine (老段)15 小时前
TDengine 扫描算子 — TableScan、TagScan 与下推优化
大数据·数据库·物联网·时序数据库·tdengine·涛思数据