Azure Synapse Dedicated SQL Pool通过配置选项和参数优化性能

配置选项与参数

分布键（Distribution Key）：

• 选择：在大数据量表中，选择经常用于JOIN、WHERE条件中的列作为分布键，如Date、ID等。

• 策略：对于范围查询，使用HASH分布避免数据倾斜；对于维度表，通常选择ROUND-ROBIN分布。
索引：

• 类型：聚集列存储索引（CCI）针对大型数据扫描和聚合进行了优化。

• 策略：始终对大型事实表使用CCI，避免在大型表上使用传统的行存储索引。
分区（Partitioning）：

• 选择：选择合理的分区列（如日期、ID范围等）来分区数据。

• 策略：对于大型表，采用分区可以有效地减少I/O并提高查询性能，尤其是范围查询。同时，要避免过多的分区导致开销增加。
资源类（Resource Classes）：

• 控制：分配给查询的资源量（内存、CPU等）。

• 策略：为需要更多资源的查询分配更高的资源类，如使用"largerc"进行资源密集型查询。
并行度（Parallelism）：

• 设置：可以调整查询的并行度设置来提高处理速度。

• 策略：适当地配置MAXDOP（最大并行度）设置，确保查询能够利用足够的并行度。
数据加载：

• 方法：使用PolyBase或BULK INSERT进行高效的数据加载。

• 策略：将ETL作业拆分成较小的批次进行加载，避免一次性加载过大的数据。
查询优化：

• 避免：不必要的子查询、联接以及全表扫描。

• 策略：优化ETL过程中使用的查询，减少不必要的转换逻辑；定期更新统计信息，以便查询优化器能够选择最合适的执行计划。
结果缓存：

• 启用：对于重复执行的查询，可以考虑使用结果缓存来加速查询。
数据倾斜：

• 监控：确保数据均匀分布，避免在某些节点上过多的数据聚集。

• 策略：使用合适的分布键、分区策略，并定期监控和调整。
动态管理视图（DMVs）：

• 使用：如sys.dm_pdw_exec_requests、sys.dm_pdw_request_steps等。

• 策略：监控工作负载、连接、查询执行和tempdb使用情况，以识别性能瓶颈。

优化策略

监控与调整：

• 使用Azure Monitor或Azure Synapse Studio中的查询性能见解来监控性能。

• 根据监控结果调整资源分配、索引、分区等配置。
定期维护：

• 定期清理过时或不必要的数据，减少系统负担。

• 定期检查和清理不再需要的索引，避免影响写入性能。
数据仓库重建：

• 如果数据仓库性能持续下降，考虑重建数据仓库，包括数据重新加载、重新分布和分区等。
合理使用缓存：

• 利用查询缓存提高频繁执行查询的响应时间。
成本效益分析：

• 在增加资源（如DWU）时，进行成本效益分析，确保不会过度增加资源。