【SQL】如何在 SQL 中统计结构化字符串的特征频率

在数据分析场景中，我们经常会遇到需要解析结构化字符串并统计特征出现次数的需求。本文将以常用数据库为例，探讨如何高效处理类似 [特征A][特征B][特征C] 格式的字符串数据，并实现特征频率统计。以下是完整的实现思路和解决方案。

一、问题场景分析

假设某字段存储多个特征值，采用以下格式：

每个特征用方括号包裹
多个特征连续排列
示例：[属性A][属性B][属性X]

需要实现：

解析所有特征值
统计每个特征的全局出现次数

二、关键技术挑战

1. 字符串分割限制

有些数据库没有内置的 SPLIT_STRING 函数，需要利用基础字符串处理函数实现分割。

2. 动态长度处理

特征值的长度不固定，需动态定位分割点。

3. 递归处理需求

当单条记录包含多个特征时，需要递归或迭代处理。

三、核心解决方案

方案一：递归 CTE 解析法（推荐）

sql 复制代码

WITH RECURSIVE feature_extractor(feature, remaining) AS (
    SELECT 
        substr(data_field, 2, instr(substr(data_field, 2), ']') - 1),
        substr(data_field, instr(substr(data_field, 2), ']') + 2)
    FROM example_table
    WHERE data_field LIKE '%[%]%'
    
    UNION ALL
    
    SELECT 
        substr(remaining, 2, instr(substr(remaining, 2), ']') - 1),
        substr(remaining, instr(substr(remaining, 2), ']') + 2)
    FROM feature_extractor
    WHERE remaining LIKE '%[%]%'
)

SELECT feature, COUNT(*) AS frequency
FROM feature_extractor
WHERE feature != ''
GROUP BY feature
ORDER BY frequency DESC;

实现原理：

使用 WITH RECURSIVE 创建递归公共表达式
初始查询定位第一个特征：
- substr(data_field, 2) 跳过首字符 [
- instr() 定位第一个 ] 的位置
递归部分持续处理剩余字符串
终止条件：剩余字符串不再包含特征格式

优势：

自动适应任意数量的特征
精确处理动态长度特征
完全遵循 SQL 标准

方案二：数字辅助表法

sql 复制代码

-- 创建数字辅助表（0-9）
WITH numbers AS (
    SELECT 0 AS n UNION SELECT 1 UNION SELECT 2 UNION SELECT 3 UNION 
    SELECT 4 UNION SELECT 5 UNION SELECT 6 UNION SELECT 7 UNION 
    SELECT 8 UNION SELECT 9
)

SELECT 
    substr(
        substr(data_field, n*5+1),  -- 5为特征平均长度估算值
        2, 
        instr(substr(data_field, n*5+1), ']')-2
    ) AS feature,
    COUNT(*) AS frequency
FROM example_table, numbers
WHERE n <= (length(data_field) - length(replace(data_field, '[', '')))
    AND substr(data_field, n*5+1, 1) = '['
GROUP BY feature
HAVING feature != ''
ORDER BY frequency DESC;

适用场景：

特征数量已知且较少
特征长度相对固定
需要避免递归查询的情况

注意事项：

需要合理估算特征平均长度（示例中的5）
数字表范围需覆盖最大特征数量

四、方案对比

维度	递归CTE法	数字辅助表法
处理能力	任意数量特征	受数字表范围限制
性能表现	大数据量时较慢	预计算更快
实现复杂度	需要理解递归逻辑	简单易理解
格式适应性	严格依赖格式	需要长度估算
内存消耗	较高	较低

五、扩展：获取不重复的全部特征

要从结构化字符串中提取所有不重复的特性，我们可以基于之前的解决方案稍作调整。以下是几种在SQLite中实现的方案：

方案一：使用递归CTE提取唯一特性（推荐）

sql 复制代码

WITH RECURSIVE feature_extractor(feature, remaining) AS (
    SELECT 
        substr(data_field, 2, instr(substr(data_field, 2), ']') - 1),
        substr(data_field, instr(substr(data_field, 2), ']') + 2)
    FROM example_table
    WHERE data_field LIKE '%[%]%'
    
    UNION ALL
    
    SELECT 
        substr(remaining, 2, instr(substr(remaining, 2), ']') - 1),
        substr(remaining, instr(substr(remaining, 2), ']') + 2)
    FROM feature_extractor
    WHERE remaining LIKE '%[%]%'
)

SELECT DISTINCT feature
FROM feature_extractor
WHERE feature != ''
ORDER BY feature;

方案二：使用GROUP BY替代DISTINCT

sql 复制代码

-- 使用与方案一相同的CTE
WITH RECURSIVE feature_extractor AS (...)
SELECT feature
FROM feature_extractor
WHERE feature != ''
GROUP BY feature  -- GROUP BY也能实现去重
ORDER BY feature;

方案三：简化的数字辅助表法

sql 复制代码

WITH numbers AS (
    SELECT 0 AS n UNION SELECT 1 UNION SELECT 2 UNION SELECT 3 UNION 
    SELECT 4 UNION SELECT 5 UNION SELECT 6 UNION SELECT 7 UNION 
    SELECT 8 UNION SELECT 9
)

SELECT DISTINCT
    substr(
        substr(data_field, n*5+1),
        2, 
        instr(substr(data_field, n*5+1), ']')-2
    ) AS feature
FROM example_table, numbers
WHERE n <= (length(data_field) - length(replace(data_field, '[', '')))
    AND substr(data_field, n*5+1, 1) = '['
    AND feature != ''
ORDER BY feature;

六、注意事项

格式严格性要求：
- 禁止嵌套括号：[[特征A]]
- 禁止未闭合括号：[特征A][特征B
- 禁止空特征：[][]
特殊字符处理：
- 如果特征包含 ] 字符需转义
- 建议使用统一的分隔符（如 Unicode 控制字符）
性能监控：
- 递归深度限制：PRAGMA max_recursive_depth=1000;
- 查询执行计划分析：EXPLAIN QUERY PLAN

通过本文介绍的两种方法，开发者可以灵活应对不同场景下的结构化字符串处理需求。实际应用中建议先进行小数据量测试，再结合具体业务场景选择合适的实现方案。