Oracle 21c XE 大数据开发常用 SQL 语法总结（不同 Oracle 版本，sql 语法大部分通用）

Oracle21cXE大数据开发SQL语法速查指南

本文总结了Oracle21cXE中大数据开发常用的SQL语法，按功能场景分类整理。

核心内容包括：数据聚合(GROUP BY/HAVING)、窗口分析函数(RANK/LEAD等)、行列转换(PIVOT/UNPIVOT)、多表关联(JOIN)、集合操作(UNION)等常用语法及示例。

同时对比了Oracle11g与21cXE的SQL语法兼容性，指出基础SQL命令通用，但21c新增了JSON支持、多租户架构等特性。

对于大数据ETL、分析报表等场景，21cXE提供了更丰富的功能支持，适合开发测试环境使用。

在 Oracle 21c XE 中进行大数据开发，常用的 SQL 语法可以按功能场景分类。

下表总结了各场景的核心语法、说明和简单示例。

📊 Oracle 21c XE 大数据开发常用 SQL 语法

功能场景	核心语法 / 关键字	语法说明	简单示例
数据聚合与分组	`GROUP BY`, `HAVING`	按指定列分组，配合聚合函数（`COUNT`, `SUM`, `AVG` 等）进行数据汇总；`HAVING` 用于过滤分组后的结果。	`SELECT region, SUM(sales) FROM orders GROUP BY region HAVING SUM(sales) > 10000;`
窗口分析函数	`ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`, `LEAD()`, `LAG()`	在不改变行数的情况下进行跨行计算、排名或获取前后行数据，适用于趋势分析和复杂报表。	`SELECT product, sales, RANK() OVER (ORDER BY sales DESC) AS rank FROM products;`
行列转换	`PIVOT`, `UNPIVOT`	将行数据转为列（`PIVOT`）或将列转为行（`UNPIVOT`），方便交叉表分析。	`SELECT * FROM sales_data PIVOT (SUM(amount) FOR quarter IN ('Q1', 'Q2'));`
多表关联	`INNER JOIN`, `LEFT JOIN`, `RIGHT JOIN`, `FULL JOIN`	根据关联条件从多张表中组合数据，是大数据清洗和整合的核心。	`SELECT e.name, d.dept_name FROM emp e LEFT JOIN dept d ON e.dept_id = d.id;`
集合操作	`UNION`, `UNION ALL`, `INTERSECT`, `MINUS`	对两个查询结果集进行并集、交集或差集运算。`UNION ALL` 效率更高。	`SELECT id FROM orders_2023 UNION SELECT id FROM orders_2024;`
子查询与CTE	`WITH ... AS ()`, 嵌套子查询	将复杂查询分解成多个简单步骤，提升可读性和维护性，常用于大数据 ETL。	`WITH dept_avg AS (SELECT dept, AVG(sal) avg_sal FROM emp GROUP BY dept) SELECT * FROM emp e, dept_avg d WHERE e.dept = d.dept AND e.sal > d.avg_sal;`
分区与排序	`PARTITION BY`, `ORDER BY` (在窗口函数内)	在窗口函数内定义分组（`PARTITION BY`）和排序规则，实现组内独立计算。	`SELECT region, sales, SUM(sales) OVER (PARTITION BY region) AS region_total FROM orders;`
字符串处理	`SUBSTR()`, `INSTR()`, `REGEXP_SUBSTR()`	用于文本数据的提取、查找、替换和正则匹配，是日志解析、数据清洗的利器。	`SELECT REGEXP_SUBSTR(log_text, '\d+') AS first_number FROM logs;`
日期处理	`TO_DATE()`, `EXTRACT()`, `TRUNC()`, `DATE '...'`	进行日期格式转换、提取年月日、截断日期等操作，广泛应用于时间序列分析。	`SELECT EXTRACT(YEAR FROM order_date) AS year, COUNT(*) FROM orders GROUP BY EXTRACT(YEAR FROM order_date);`
数据采样	`SAMPLE`	从大表中随机抽取指定比例的数据行，用于快速探查或测试查询逻辑。	`SELECT * FROM huge_table SAMPLE (10);` -- 随机抽取约10%的数据
分层查询	`CONNECT BY PRIOR`	处理具有父子关系的数据（如组织结构、树形菜单）。	`SELECT employee_id, manager_id, LEVEL FROM employees START WITH manager_id IS NULL CONNECT BY PRIOR employee_id = manager_id;`
分析模型	`MODEL` 子句	将数据视为电子表格，定义行列间的计算公式，实现复杂的计算和预测。	（语法较复杂，适用于高级场景，如预算分配、同比环比计算）

💎 常用聚合函数与窗口函数速查

函数分类	常用函数	用途
聚合函数	`COUNT`, `SUM`, `AVG`, `MAX`, `MIN`, `MEDIAN`, `STDDEV`	对一组值进行计算，返回单个结果。
排名函数	`ROW_NUMBER`, `RANK`, `DENSE_RANK`, `NTILE`	为分区内的每一行分配排名或序号。
偏移分析函数	`LAG`, `LEAD`, `FIRST_VALUE`, `LAST_VALUE`	在同一查询中访问当前行之前或之后的行数据，无需自连接。

📌 大数据开发场景匹配建议

场景	推荐使用的语法
离线数据清洗 (ETL)	CTE (`WITH`)、多表关联 (`JOIN`)、字符串/日期处理函数
业务报表与趋势分析	窗口函数 (`ROW_NUMBER`, `LAG`)、`PIVOT`、分组聚合 (`GROUP BY`)
用户行为/漏斗分析	`CASE WHEN` 条件计数、集合操作 (`UNION`)、窗口排序
数据质量探查	`SAMPLE` 采样、聚合函数配合 `HAVING` 查找异常值
层级/关系数据处理	`CONNECT BY PRIOR` 递归查询

掌握这些语法后，你可以在 Oracle 中独立完成大部分大数据预处理和分析任务。

不同Oracle版本，sql语法通用吗，比如Oracle 11g和Oracle 21c XE

简单直接的回答是：绝大部分是通用的，但不是100%通用。

可以把Oracle版本之间的SQL语法关系，想象成手机App和操作系统版本的关系。App的核心功能在iOS 15、16、17上都能用，但一些依赖新系统API的功能（比如灵动岛）在老系统上就没有。

下面从"通用"和"不通用"两个角度，帮你梳理清楚它们之间的核心差异。

✅ 高度通用的部分

这部分构成了SQL的"通用语言"，是完全通用的，你可以放心地在21c上使用11g的SQL知识：

通用部分	说明
核心SQL命令	`SELECT`, `INSERT`, `UPDATE`, `DELETE`
标准关联	`JOIN` (`INNER`, `LEFT`, `RIGHT`)
基础分组	`GROUP BY`, `HAVING`
常用函数	聚合函数（`COUNT`, `SUM`, `AVG`）、字符串函数（`SUBSTR`, `INSTR`）、日期函数（`SYSDATE`, `TO_DATE`）
分析函数	`ROW_NUMBER()`, `RANK()`, `LAG()`, `LEAD()` 等
子查询与CTE	`WITH ... AS ()`

这些你在11g上写的查询，在21c上执行的结果会完全一致。

⚠️ 存在差异的部分

差异主要来自21c的新功能和某些行为变化，这也是迁移时最需要关注的。

差异类别	具体说明	举例
1. 新增语法/功能 (21c有, 11g无)	21c作为新版本，引入了大量11g不支持的新特性。如果你在21c上编写了这些新功能的SQL，拿到11g上执行就会报错。	在21c中使用新的 `JSON` 数据类型或相关函数，在11g上无法执行。
2. 多租户架构 (Multitenant)	21c引入了CDB (容器数据库) 和 PDB (可插拔数据库) 的概念。这导致了用户创建和权限管理方式的变化。	- 连接服务名：在11g中通常用 `XE` 或 `ORCL`，而在21c的PDB中必须用 `XEPDB1`。 - 创建用户：在21c的CDB根容器（`CDB$ROOT`）中创建普通用户，用户名必须以 `C##` 开头。
3. 系统视图/权限变更	某些系统视图的名称或授权方式发生了变化。	在11g中直接授权 `GRANT SELECT ON v$session TO user;`，但在21c中会报错 `ORA-02030`，必须授权给 `v_$session` 的同义词。
4. 数据类型和功能扩展	新版本的数据类型可能被扩展，或者旧版本的某些类型行为发生了变化。	- 长度扩展：21c中 `VARCHAR2` 类型最大支持 32,767 字节，而11g只支持到 4,000 字节。 - 自增列：21c支持标准SQL的 `IDENTITY` 列或通过 `GENERATED AS IDENTITY` 实现字段自增，而11g必须使用序列加触发器实现。
5. 过时特性 (Deprecated)	一些在11g中使用的老语法或特性，在21c中可能已被标记为"过时"或"废弃"。	例如，部分旧的 `SQL*Plus` 命令或特定的初始化参数。虽然可能暂时还能用，但官方已不建议在新环境中使用。

📊 版本定位与决策参考

了解这两个版本的官方定位，能帮助你更好地理解差异的原因：

对比维度	Oracle 11g	Oracle 21c XE
发布时间	约2009年	约2021年
官方定位	长期支持 (LTS) 版本	创新 (Innovation) 版本
推荐用途	生产环境（存量系统）	新特性验证、开发测试环境
主流状态	已停止主流支持，进入扩展支持末期	面向未来的过渡版本，生命周期较短
关键特性	经典架构，稳定性高	多租户 (CDB/PDB)，JSON支持增强

💎 总结

对于你当前"大数据开发"的学习和测试目的：

核心的SQL分析语句，在21c上使用完全没问题。
但当你参考一些老教程（尤其是基于11g的） 时，需要注意两点差异：
1. 连接时 ：服务名用 XEPDB1，而不是 XE。
2. 创建普通用户时 ：需要先执行 ALTER SESSION SET CONTAINER = XEPDB1; 切换到PDB容器中，再创建用户，否则用户名需要加 C## 前缀。

从11g迁移到21c时，大部分工作负载只需少量调整即可运行，但了解这些关键差异能帮你避开最主要的坑。