clickhouse自定义函数的困惑

近期遇到一个困惑的问题,自定义函数中,如果出现查询语句,则传递的参数,不能传递字段名,只能传递常量或者表达式,文档中也没有找到对应的解决办法。

需求其实比较简单,查询的时候,要做一个"少数服从多数"的决定,在一行记录中,存在多个字段值是String类型,使用哪个字段值,取决于字段内容出现的频率次数最高的字符串,注意,这里是一行记录,可以理解成,一个数组字段类型,常规想法就是 select group by ,但是,就出现了开头说的问题,不能传递字段名称作为参数。

sql 复制代码
CREATE function my_count as (str1 ,str2 ,str3 )-> (
	SELECT max(element)
	from
	( 
	    SELECT
	    arrayJoin(array) AS element,
	    count(*) AS count
		FROM (
		    SELECT [str1,str2,str] AS array
		)
		where LENGTH(element)>0
		GROUP BY element
		ORDER BY count DESC
		limit 1
	) t	
)

上述代码,传递常量是没有问题的,但是:

select my_count(field1,field2,field3) as a from my_table

就会报错,提示不支持字段作为参数

后来,只能从文档的方法来入手,找内置的arry相关函数

CREATE FUNCTION my_test as (arr) ->arrayReverseSort((m,n)->n, arrayMap(x->(x,countEqual(arr,x)),arrayDistinct(arr)))

这里就很好解决了需求,不过,性能可能会低一点,起码先凑合着用着。

arrayDistinct 表示数组的元素取唯一,去重。

countEqual 表示计算元素在数组中出现的次数

arrayMap 把统计元素个数映射成 (key,count)的格式,其中count就是计数

arrayReverseSort 就是倒序,根据第2个参数(count)进行排序

在使用中 SELECT uniqTotal(['a','b','b','a','a'])[1].1 AS ele

其中[1]表示取数组的第一个元素,.1表示取key值,就是需求目标

完美解决,如果有更好的办法,麻烦留言告知,谢谢!

相关推荐
梦想与想象-广州大智汇5 天前
MySQL 同步数据到 ClickHouse 方案对比分析
数据库·mysql·clickhouse
Smile_2542204186 天前
clickhouse日志疯涨问题
linux·运维·服务器·clickhouse
计算机魔术师6 天前
【技术硬核 | 存储】ClickHouse 原理与 Langfuse 存储实践:当 LLM Trace 爆炸时,PG 还扛得住吗?
人工智能·clickhouse·工程实践·sbti·职场焦虑
fire-flyer9 天前
ClickHouse系列(九):慢查询、内存 OOM 与稳定性治理
android·clickhouse
fire-flyer9 天前
ClickHouse系列(十):生产架构与最佳实践总结
clickhouse·架构
fire-flyer10 天前
ClickHouse系列(八):ClickHouse 的 UPDATE / DELETE 正确姿势
大数据·数据库·clickhouse
fire-flyer10 天前
ClickHouse系列(七):Materialized View 与多分辨率 Rollup 设计
大数据·数据库·clickhouse·架构
fire-flyer11 天前
ClickHouse系列(二):MergeTree 家族详解
大数据·数据库·clickhouse
fire-flyer11 天前
ClickHouse系列(四):压缩不是为了省磁盘,而是为了更快的查询
数据库·clickhouse
l1t11 天前
测试clickhouse 26.3的新功能
数据库·clickhouse