Oracle-探究统计信息收集自动采样AUTO_SAMPLE_SIZE

前言:

Oracle数据库进行统计信息收集时,可以通过ESTIMATE_PERCENT参数指定采样方式或者比例,有以下4种指定的方式

1 统计信息收集时不指定值,这时候ESTIMATE_PERCENT值为默认值DBMS_STATS.AUTO_SAMPLE_SIZE,自动采样

2 指定采样比例,范围可以为0.000001到100

3 指定采样方式为自动采样DBMS_STATS.AUTO_SAMPLE_SIZE

4 指定为null,这时候采样比例为100

统计收集测试:

对一张1000W行的1.2G的表TEST进行统计信息收集测试,分别使用指定采样比例方式以及自动采样方式进行收集测试

使用estimate_percent =>DBMS_STATS.AUTO_SAMPLE_SIZE自动采样方式,花费时间9.04秒

复制代码
SQL> exec  DBMS_STATS.GATHER_TABLE_STATS(ownname=>'TEST', tabname=>'TEST',estimate_percent => DBMS_STATS.AUTO_SAMPLE_SIZE, method_opt       =>'for all columns size auto',no_invalidate    => FALSE,degree=> 8,  cascade=> TRUE);
​
PL/SQL procedure successfully completed.
​
Elapsed: 00:00:09.04

查看表统计信息收集的采样比例,这里自动采样使用的比例为100

查看表列统计信息的采样比例为,可以看到对于收集直方图信息的owner,created列,采样比例发生了改变,这里使用了一个很低的采样比例大小

查看索引统计信息的采样比例,这里同样也是使用了一个很低的采样比例

使用estimate_percent =>30指定30%比例采样,花费时间28秒,慢了2倍左右

复制代码
SQL> exec  DBMS_STATS.GATHER_TABLE_STATS(ownname=>'TEST', tabname=>'TEST',estimate_percent => 30, method_opt       =>'for all columns size auto',no_invalidate    => FALSE,degree=> 8,  cascade=> TRUE);
​
PL/SQL procedure successfully completed.
​
Elapsed: 00:00:28.27
SQL> 

查看表统计信息收集的采样比例,跟指定的比例一样为30%

查看列统计信息收集的采样比例,跟指定的比例一样为30%

查看索引统计信息收集的采样比例,跟指定的比例一样为30%

分析DBMS_STATS.AUTO_SAMPLE_SIZE自动采样的执行过程:

通过10046j进行跟踪,分析DBMS_STATS.AUTO_SAMPLE_SIZE自动采集的过程

主要执行的语句步骤如下

1 获取表的统计信以及列的统计信息,这里采用的是100比例的采样,也是主要的耗时操作

2 对于要收集直方图信息的列,按0.0495277038比例的采样数据插入临时表ora_temp_1_ds_110008

3 从临时表ora_temp_1_ds_110008分组统计owner列频率直方图列的信息

4 从临时表ora_temp_1_ds_110008分组统计created列的高度均衡直方图的信息

5 清空临时表数据

truncate table sys.ora_temp_1_ds_110008

6 按4.3728587743的采样比例收集索引IND_TEST_OWNER的统计信息

7 按3.8608254352的采样比例收集索引IND_TEST_CREATED的统计信息

可以看到DBMS_STATS.AUTO_SAMPLE_SIZE默认对于全表的采用的是100%的采样比例收集,但对于索引,需要收集直方图信息的列单独采集的比例很低,所以整体的速度提升很多

从Oracle mos的文档**How to Gather Optimizer Statistics on 11g (Doc ID 749227.1)**我们也可以看到在Oracle11g版本,为了对表本身收集尽可能的准确以及11g版本后使用了新的更快的hash算法去计算统计信息,所以默认对于表自身的统计信息收集采用的比例是100%,而对于列级别的统计信息采集比例则采用内部自动计算的方式

分析指定采样比例的执行过程:

继续通过10046跟踪分析指定采样比例30%的收集过程

主要执行的语句步骤如下

1 按30%采样全表扫描,获取表的统计信以及列的统计信息

2 按30%采样分组统计owner列频率直方图列的信息

3 按30%采样分组统计created列高频直方图列的信息

4 按采样30%的比例收集索引IND_TEST_OWNER的统计信息

5 按采样30的比例收集索引IND_TEST_CREATED的统计信息

可以看到指定采样比例的方式,全程不管是对于表,列的直方图以及索引都采集30%表数据的方式进行采样,所以在列的直方图以及索引这一块的消耗时间要比DBMS_STATS.AUTO_SAMPLE_SIZE高,整个过程下来收集的时间相对较长,要多次执行对表统计信息收集表TEST的全表扫描

总结:

测试下来,在Oracle11g 版本使用DBMS_STATS.AUTO_SAMPLE_SIZE的方式进行统计信息收集还是比较不错的方式,在确保表自身统计信息准确的情况下,对于一些额外的统计信息列直方图,索引,则采取使用内部自动计算采样比例进行收集,兼具了采集的准确度高以及较高的执行效率

相关推荐
济6171 分钟前
linux(第十四期)--Uboot移植(2)-- 在U-Boot 中添加自己的开发板-- Ubuntu20.04
linux·运维·服务器
ben9518chen5 分钟前
嵌入式linux操作系统简介
linux·运维·服务器
菜鸟笔记本7 分钟前
linux设置定时备份mysql数据
linux·mysql·oracle
majingming12310 分钟前
ubuntu下的交叉编译
linux·运维·ubuntu
施嘉伟12 分钟前
一次生产环境 SQL 不走索引的排查过程
数据库·sql
shchojj13 分钟前
ubuntu 因为写错pam.d文件引起的sudo权限丢失
linux·运维·ubuntu
小康小小涵15 分钟前
WSL2安装与移植到F盘
运维·服务器
踏浪无痕22 分钟前
SQLInsight:从JDBC底层到API调用的零侵入SQL监控方案
数据库·后端·开源
小宇的天下23 分钟前
Calibre nmDRC Results(19-1)
服务器·数据库·oracle
funfan051729 分钟前
【运维】Linux/Debian系统时间校准方法简记
linux·运维·debian