合 《PostgreSQL技术内幕——原理探索》第四章 外部数据包装器与并行查询
Tags: PGPostgreSQL翻译《PostgreSQL技术内幕——原理探索》并行postgres_fdw
本章将介绍两种相当实用,而且很有趣的特性:外部数据包装器(Foreign Data Wrapper FDW)与并行查询(Parallel Query)。
4.1 外部数据包装器(FDW)
2003年,SQL标准中添加了一个访问远程数据的规范,称为SQL外部数据管理(SQL/MED)。PostgreSQL在9.1版本开发出了FDW,实现了一部分SQL/MED中的特性。
在SQL/MED中,远程服务器上的表被称为外部表(Foreign Table)。 PostgreSQL的外部数据包装器(FDW) 使用与本地表类似的方式,通过SQL/MED来管理外部表。
图4.1 FDW的基本概念
安装完必要的扩展并配置妥当后,就可以访问远程服务器上的外部表了。 例如假设有两个远程服务器分别名为postgresql
和mysql
,它们上面分别有两张表:foreign_pg_tbl
和foreign_my_tbl
。 在本例中,可以在本地服务器上执行SELECT
查询以访问外部表,如下所示。
1 2 3 4 5 6 7 8 9 10 11 | localdb=# -- foreign_pg_tbl 在远程postgresql服务器上 localdb-# SELECT count(*) FROM foreign_pg_tbl; count ------- 20000 localdb=# -- foreign_my_tbl 在远程mysql服务器上 localdb-# SELECT count(*) FROM foreign_my_tbl; count ------- 10000 |
此外还可以在本地连接来自不同服务器中的外部表。
1 2 3 4 | localdb=# SELECT count(*) FROM foreign_pg_tbl AS p, foreign_my_tbl AS m WHERE p.id = m.id; count ------- 10000 |
Postgres wiki中列出了很多现有的FDW扩展。但只有postgres_fdw
与file_fdw
是由官方PostgreSQL全球开发组维护的。postgres_fdw
可用于访问远程PostgreSQL服务器。
以下部分将详细介绍PostgreSQL的FDW。 4.1.1节为概述,4.1.2节介绍了postgres_fdw
扩展的工作方式。
Citus
Citus是由citusdata.com开发的开源PostgreSQL扩展,它能创建用于并行化查询的分布式PostgreSQL服务器集群。citus算是PostgreSQL生态中机制上最为复杂,且商业上最为成功的扩展之一,它也是一种FDW。
4.1.1 概述
使用FDW特性需要先安装相应的扩展,并执行一些设置命令,例如CREATE FOREIGN TABLE
,CREATE SERVER
和CREATE USER MAPPING
(细节请参阅官方文档)。
在配置妥当之后,查询处理期间,执行器将会调用扩展中定义的相应函数来访问外部表。
图4.2 FDW是如何执行的
- 分析器为输入的SQL创建一颗查询树。
- 计划器(或执行器)连接到远程服务器。
- 如果启用了
use_remote_estimate
选项(默认关闭),则计划器将执行EXPLAIN
命令以估计每条计划路径的代价。 - 计划器按照计划树创建出纯文本SQL语句,在内部称该过程为逆解析(deparesing)。
- 执行器将纯文本SQL语句发送到远程服务器并接收结果。
如有必要,执行器会进一步处理接收到的结果。 例如执行多表查询时,执行器会将收到的数据与其他表进行连接。
以下各节介绍了每一步中的具体细节。
4.1.1.1 创建一颗查询树
分析器会根据输入的SQL创建一颗查询树,并使用外部表的定义。当执行命令CREATE FOREIGN TABLE
和IMPORT FOREIGN SCHEMA
时,外部表的定义会被存储至系统目录pg_catalog.pg_class
和pg_catalog.pg_foreign_table
中。
4.1.1.2 连接至远程服务器
计划器(或执行器)会使用特定的库连接至远程数据库服务器。 例如要连接至远程PostgreSQL服务器时,postgres_fdw
会使用libpq
。 而连接到mysql服务器时,由EnterpriseDB开发的mysql_fdw
使用libmysqlclient
。
当执行CREATE USER MAPPING
和CREATE SERVER
命令时,诸如用户名,服务器IP地址和端口号等连接参数会被存储至系统目录pg_catalog.pg_user_mapping
和pg_catalog.pg_foreign_server
中。
4.1.1.3 使用EXPLAIN命令创建计划树(可选)
PostgreSQL的FDW机制支持一种特性:获取外部表上的统计信息,用于估计查询代价。一些FDW扩展使用了该特性,例如postgres_fdw
,mysql_fdw
,tds_fdw
和jdbc2_fdw
。
如果使用ALTER SERVER
命令将use_remote_estimate
选项设置为on
,则计划器会向远程服务器发起查询,执行EXPLAIN
命令获取执行计划的代价。否则在默认情况下,会使用默认内置常量值作为代价。
1 | localdb=# ALTER SERVER remote_server_name OPTIONS (use_remote_estimate 'on'); |
尽管一些扩展也会执行EXPLAIN
命令,但目前只有postgres_fdw
才能忠于EXPLAIN
命令的真正意图,因为PostgreSQL的EXPLAIN
命令会同时返回启动代价和总代价。而其他DBMS的FDW扩展一般无法使用EXPLAIN
命令的结果进行规划。 例如MySQL的EXPLAIN
命令仅仅返回估计的行数, 但如第3章所述,PostgreSQL的计划器需要更多的信息来估算代价。
4.1.1.4 逆解析
在生成执行计划树的过程中,计划器会为执行计划树上外部表的扫描路径创建相应的纯文本SQL语句。 例如图4.3展示了下列SELECT
语句对应的计划树。
1 | localdb=# SELECT * FROM tbl_a AS a WHERE a.id < 10; |
图4.3展示了一个存储着纯文本形式SELECT
语句的ForeignScan
节点,PlannedStmt
是执行计划树对应的数据结构,包含指向ForeignScan
节点的链接。 这里,postgres_fdw
从查询树中重新创建出SELECT
纯文本语句,该过程在PostgreSQL中被称为逆解析(deparsing)。
图4.3 扫描外部表的计划树样例
使用mysql_fdw
时,则会从查询树中重新创建MySQL相应的SELECT
语句。 使用redis_fdw
或rw_redis_fdw
会创建一条Redis中的SELECT
命令。
4.1.1.5 发送SQL命令并接收结果
在进行逆解析之后,执行器将逆解析得到的SQL语句发送到远程服务器并接收结果。