ctrl+F进行页面查找
没有示例,仅用于查询,具体用法自行搜索
函数名称 | 作用 |
---|---|
avg |
计算指定列的平均值 |
count |
计算指定列或所有行的数量 |
countDistinct |
计算指定列中不同值的数量 |
corr |
计算两个列之间的相关系数 |
covar_pop |
计算两个列之间的总体协方差 |
covar_samp |
计算两个列之间的样本协方差 |
first |
返回指定列的第一个值(可选地忽略空值) |
last |
返回指定列的最后一个值(可选地忽略空值) |
max |
返回指定列的最大值 |
mean |
计算指定列的平均值(与 avg 相同) |
min |
返回指定列的最小值 |
sum |
计算指定列的总和 |
sumDistinct |
计算指定列中不同值的总和(已弃用,推荐使用 sum_distinct ) |
variance |
计算指定列的方差 |
stddev |
计算指定列的标准差 |
kurtosis |
计算指定列的峰度 |
skewness |
计算指定列的偏度 |
percentile_approx |
计算指定列的近似百分位数 |
abs |
计算指定列的绝对值 |
acos |
计算指定列的反正弦值 |
asin |
计算指定列的反正弦值 |
atan |
计算指定列的反正切值 |
atan2 |
计算两个列值的反正切值 |
cbrt |
计算指定列的立方根 |
ceil |
计算指定列的最小整数(向上取整) |
cos |
计算指定列的余弦值 |
cosh |
计算指定列的双曲余弦值 |
exp |
计算指定列的指数值(e 的幂) |
factorial |
计算指定列的阶乘 |
floor |
计算指定列的最大整数(向下取整) |
hex |
将指定列的二进制值转换为十六进制字符串 |
hypot |
计算两个列值的欧几里得范数(平方和的平方根) |
log |
计算指定列的自然对数(以 e 为底) |
log10 |
计算指定列的以 10 为底的对数 |
log1p |
计算指定列的值加 1 后的自然对数 |
log2 |
计算指定列的以 2 为底的对数 |
pmod |
计算两个列值的正模(取余) |
pow |
计算指定列的幂(第一个参数的第二个参数的幂) |
rand |
生成一个随机浮点数(0.0 到 1.0 之间) |
randn |
生成一个符合标准正态分布的随机浮点数 |
round |
将指定列的值四舍五入到最接近的整数 |
shiftLeft |
将指定列的二进制表示向左移动指定的位数 |
shiftRight |
将指定列的二进制表示向右移动指定的位数(带符号) |
shiftRightUnsigned |
将指定列的二进制表示向右移动指定的位数(无符号) |
signum |
计算指定列的符号函数(-1, 0, 1) |
sin |
计算指定列的正弦值 |
sinh |
计算指定列的双曲正弦值 |
sqrt |
计算指定列的平方根 |
tan |
计算指定列的正切值 |
tanh |
计算指定列的双曲正切值 |
degrees |
将指定列的弧度值转换为角度 |
radians |
将指定列的角度值转换为弧度 |
md5 |
计算指定列的 MD5 哈希值 |
sha1 |
计算指定列的 SHA-1 哈希值 |
sha2 |
计算指定列的 SHA-2 哈希值 |
crc32 |
计算指定列的 CRC-32 哈希值 |
concat |
连接多个列的值 |
concat_ws |
使用指定的分隔符连接多个列的值 |
decode |
使用指定的字符集解码列的值 |
encode |
使用指定的字符集编码列的值 |
format_number |
将数字格式化为指定的小数位数 |
format_string |
使用指定的格式字符串格式化多个列的值 |
initcap |
将每个单词的首字母大写 |
instr |
返回子字符串在字符串中第一次出现的位置 |
length |
返回字符串的长度 |
lower |
将字符串转换为小写 |
lpad |
用指定的填充字符串在左侧填充字符串,直到达到指定的长度 |
ltrim |
去除字符串左侧的空白字符或指定字符 |
regexp_extract |
使用正则表达式从字符串中提取匹配的子字符串 |
regexp_replace |
使用正则表达式替换字符串中的匹配部分 |
rpad |
用指定的填充字符串在右侧填充字符串,直到达到指定的长度 |
repeat |
重复字符串指定的次数 |
rtrim |
去除字符串右侧的空白字符或指定字符 |
soundex |
计算字符串的 SOUNDEX 编码 |
split |
使用指定的分隔符拆分字符串 |
substring |
提取字符串的子字符串 |
translate |
将字符串中的字符替换为指定的字符 |
trim |
去除字符串两侧的空白字符或指定字符 |
upper |
将字符串转换为大写 |
add_months |
向日期添加指定的月份数 |
current_date |
返回当前日期 |
current_timestamp |
返回当前时间戳 |
date_add |
向日期添加指定的天数 |
date_sub |
从日期减去指定的天数 |
datediff |
计算两个日期之间的天数差 |
year |
提取日期的年份部分 |
month |
提取日期的月份部分 |
dayofmonth |
提取日期的月份中的天数部分 |
dayofweek |
提取日期是一周中的第几天(1=周日) |
dayofyear |
提取日期是一年中的第几天 |
hour |
提取时间的小时部分 |
minute |
提取时间的分钟部分 |
second |
提取时间的秒部分 |
weekofyear |
提取日期是一年中的第几周 |
from_unixtime |
将 Unix 时间戳转换为日期时间格式 |
unix_timestamp |
将日期时间字符串转换为 Unix 时间戳 |
to_timestamp |
将日期时间字符串转换为时间戳类型 |
to_date |
将日期时间字符串转换为日期类型 |
trunc |
将日期时间截断到指定的单位(如年、月、日) |
from_utc_timestamp |
将 UTC 时间戳转换为指定时区的本地时间 |
to_utc_timestamp |
将本地时间转换为 UTC 时间戳 |
array_contains |
检查数组是否包含指定的元素 |
arrays_overlap |
检查两个数组是否有重叠的元素 |
slice |
提取数组的指定部分(子数组) |
array_join |
将数组的元素连接成一个字符串,使用指定的分隔符 |
array_position |
返回数组中指定元素的位置(索引) |
element_at |
返回数组中指定索引位置的元素 |
array_sort |
对数组进行排序 |
array_remove |
从数组中移除指定的元素 |
array_distinct |
返回数组中不同的元素(去重) |
array_intersect |
返回两个数组的交集 |
array_union |
返回两个数组的并集 |
array_except |
返回第一个数组中存在但第二个数组中不存在的元素 |
transform |
对数组的每个元素应用指定的函数 |
exists |
检查数组中是否存在满足条件的元素 |
forall |
检查数组中的所有元素是否都满足条件 |
filter |
过滤数组中的元素,只保留满足条件的元素 |
aggregate |
对数组的元素进行聚合计算 |
zip_with |
将两个数组的元素组合成一个新的数组,使用指定的函数处理对应的元素 |
transform_keys |
对 Map 的每个键应用指定的函数 |
transform_values |
对 Map 的每个值应用指定的函数 |
map_filter |
过滤 Map 中的键值对,只保留满足条件的键值对 |
map_zip_with |
将两个 Map 的键值对组合成一个新的 Map,使用指定的函数处理对应的键值对 |
explode |
将数组或 Map 展开为多行 |
explode_outer |
将数组或 Map 展开为多行,包括空数组或空 Map 的情况 |
posexplode |
将数组展开为多行,同时保留元素的索引 |
posexplode_outer |
将数组展开为多行,同时保留元素的索引,包括空数组的情况 |
get_json_object |
从 JSON 字符串中提取指定的 JSON 对象 |
json_tuple |
将 JSON 字符串解析为多个字段 |
from_json |
将 JSON 字符串解析为 Spark SQL 的数据结构 |
to_json |
将 Spark SQL 的数据结构转换为 JSON 字符串 |
size |
返回数组或 Map 的大小(元素数量) |
sort_array |
对数组进行排序(可选地指定升序或降序) |
array_min |
返回数组中的最小值 |
array_max |
返回数组中的最大值 |
shuffle |
随机打乱数组中的元素顺序 |
reverse |
反转数组中的元素顺序 |
flatten |
将嵌套数组展平为一个单层数组 |
sequence |
生成一个由起始值到结束值的序列,可选地指定步长 |
array_repeat |
将数组重复指定的次数 |
map_keys |
返回 Map 中的所有键 |
map_values |
返回 Map 中的所有值 |
map_entries |
返回 Map 中的所有键值对(作为元组) |
map_from_entries |
将包含键值对的数组转换为 Map |
arrays_zip |
将多个数组的元素组合成一个新的数组,每个元素是一个包含对应位置元素的元组 |
map_concat |
将多个 Map 合并为一个新的 Map |
from_csv |
将 CSV 字符串解析为 Spark SQL 的数据结构 |
to_csv |
将 Spark SQL 的数据结构转换为 CSV 字符串 |
years |
提取时间间隔中的年数 |
months |
提取时间间隔中的月数 |
days |
提取时间间隔中的天数 |
hours |
提取时间间隔中的小时数 |
bucket |
根据指定的列和桶数,将行分配到不同的桶中 |
udaf |
定义一个用户定义的聚合函数(UDAF) |
udf |
定义一个用户定义的函数(UDF) |
greatest |
返回一组表达式中的最大值 |
least |
返回一组表达式中的最小值 |
bitwiseNOT |
对数值进行按位取反操作(已弃用,推荐使用 bitwise_not ) |
bitwise_not |
对数值进行按位取反操作 |
bitwiseAND |
对两个数值进行按位与操作 |
bitwiseOR |
对两个数值进行按位或操作 |
bitwiseXOR |
对两个数值进行按位异或操作 |
bitwiseAND (Column, Column) |
对两个列进行按位与操作 |
bitwiseOR (Column, Column) |
对两个列进行按位或操作 |
bitwiseXOR (Column, Column) |
对两个列进行按位异或操作 |
levenshtein |
计算两个字符串之间的莱文斯坦距离(编辑距离) |
overlay |
用一个字符串覆盖另一个字符串的指定部分 |
sentences |
将文本拆分为句子 |
toDegrees |
将弧度转换为角度(已弃用,推荐使用 degrees ) |
toRadians |
将角度转换为弧度(已弃用,推荐使用 radians ) |
unbase64 |
解码 Base64 编码的字符串 |
ascii |
返回字符串中第一个字符的 ASCII 码 |
base64 |
对字符串进行 Base64 编码 |
locate |
返回子字符串在字符串中第一次出现的位置(可选地指定起始位置) |
lpad (Column, Int, Column) |
用指定的填充字符串在左侧填充列,直到达到指定的长度 |
rpad (Column, Int, Column) |
用指定的填充字符串在右侧填充列,直到达到指定的长度 |
sentences (Column, Column, Column) |
使用指定的语言和国家/地区设置将文本拆分为句子 |
timestamp_seconds |
将 Unix 时间戳(以秒为单位)转换为时间戳类型 |
bucket (Column, Int) |
根据指定的列和桶数,将行分配到不同的桶中(使用哈希函数) |
window |
定义一个时间窗口,用于窗口函数计算 |
session_window |
定义一个会话窗口,用于会话窗口函数计算 |
map_keys (Column) |
返回 Map 列中的所有键 |
map_values (Column) |
返回 Map 列中的所有值 |
map_entries (Column) |
返回 Map 列中的所有键值对(作为元组) |
map_from_entries (Column) |
将包含键值对的数组列转换为 Map 列 |
array_remove (Column, Column) |
从数组中移除指定的列元素 |
array_distinct (Column) |
返回数组列中的不同元素(去重) |
array_intersect (Column, Column) |
返回两个数组列的交集 |
array_union (Column, Column) |
返回两个数组列的并集 |
array_except (Column, Column) |
返回第一个数组列中存在但第二个数组列中不存在的元素 |
map_filter (Column, (Column, Column) => Column) |
过滤 Map 列中的键值对,只保留满足条件的键值对 |
map_zip_with (Column, Column, (Column, Column, Column) => Column) |
将两个 Map 列的键值对组合成一个新的 Map 列,使用指定的函数处理对应的键值对 |
explode (Column) |
将数组或 Map 列展开为多行 |
explode_outer (Column) |
将数组或 Map 列展开为多行,包括空数组或空 Map 的情况 |
posexplode (Column) |
将数组列展开为多行,同时保留元素的索引 |
posexplode_outer (Column) |
将数组列展开为多行,同时保留元素的索引,包括空数组的情况 |
cume_dist |
计算累积分布值,用于窗口函数 |
dense_rank |
计算密集排名,用于窗口函数 |
lag |
访问窗口函数中的前一行的值(可选地指定偏移量和默认值) |
lead |
访问窗口函数中的后一行的值(可选地指定偏移量和默认值) |
nth_value |
访问窗口函数中的第 N 个值(可选地忽略空值) |
ntile |
将窗口中的行划分为 N 个桶,并返回每行所属的桶号 |
percent_rank |
计算百分比排名,用于窗口函数 |
rank |
计算排名,用于窗口函数(可能有空缺) |
row_number |
计算行号,用于窗口函数(没有空缺) |
asc |
指定排序顺序为升序(用于窗口函数或 orderBy ) |
asc_nulls_first |
指定排序顺序为升序,空值排在前面(用于窗口函数或 orderBy ) |
asc_nulls_last |
指定排序顺序为升序,空值排在后面(用于窗口函数或 orderBy ) |
desc |
指定排序顺序为降序(用于窗口函数或 orderBy ) |
desc_nulls_first |
指定排序顺序为降序,空值排在前面(用于窗口函数或 orderBy ) |
desc_nulls_last |
指定排序顺序为降序,空值排在后面(用于窗口函数或 orderBy ) |
approx_count_distinct |
计算近似唯一值的数量,与 approxCountDistinct 类似但推荐使用 |
approxCountDistinct (已弃用) |
计算近似唯一值的数量(已弃用,推荐使用 approx_count_distinct ) |
collect_list |
将分组中的行收集到一个列表中 |
collect_set |
将分组中的不同行收集到一个集合中 |
covar_pop (Column, Column) |
计算两个列之间的总体协方差(与之前的函数类似,但参数形式不同) |
covar_samp (Column, Column) |
计算两个列之间的样本协方差(与之前的函数类似,但参数形式不同) |
grouping |
指示指定的列是否在 GROUP BY 子句中(用于窗口函数或聚合查询) |
grouping_id |
计算 GROUP BY 子句中指定列的分组 ID(用于窗口函数或聚合查询) |
percentile_approx (Column, Column, Column) |
计算指定列的近似百分位数(与之前的函数类似,但参数形式不同) |
expr |
执行 SQL 表达式并返回结果列 |
case_when |
实现条件逻辑,类似于 SQL 中的 CASE WHEN 语句 |
when (与 case_when 结合使用) |
定义 CASE WHEN 语句中的条件分支 |
otherwise (与 case_when 结合使用) |
定义 CASE WHEN 语句中的默认分支 |
input_file_name |
返回处理当前行的输入文件的名称 |
isnan |
检查指定列的值是否为 NaN(非数字) |
isnull |
检查指定列的值是否为 NULL |
monotonically_increasing_id |
生成一个单调递增的唯一 ID(在分布式环境中唯一) |
nanvl |
如果指定列的值为 NaN,则返回另一个列的值,否则返回指定列的值 |
negate |
对数值取反 |
not |
对布尔值取反 |
sqrt (Column) |
计算指定列的平方根(与之前的函数类似,但参数形式不同) |
struct |
将多个列组合成一个结构体(类似于元组) |
struct (Column, Column, ...) |
将多个列组合成一个结构体(类似于元组) |
array (Column, Column, ...) |
将多个列组合成一个数组 |
map (Column, Column, ...) |
将多个键值对列组合成一个 Map |
broadcast |
将数据集广播到所有节点,以便在执行连接操作时提高效率 |
coalesce (Column, Column, ...) |
返回第一个非 NULL 的列值 |
spark_partition_id |
返回当前行所在的 Spark 分区 ID |