使用C#实现从Hive的CREATE TABLE语句中提取分区字段名和数据类型

csharp 复制代码
using System;
using System.Collections.Generic;
using System.Text.RegularExpressions;

namespace HivePartitionParser
{
    public class Program
    {
        private static readonly Regex PartitionedByRegex = new Regex(
            @"PARTITIONED\s+BY\s*\(([^)]*)\)",
            RegexOptions.IgnoreCase | RegexOptions.Compiled
        );

        private static readonly Regex FieldRegex = new Regex(
            @"^(?:`(?<name>[^`]+)`|(?<name>\w+))\s+(?<type>\w+(?:\([^)]*\)|<[^>]*>)?)",
            RegexOptions.ExplicitCapture | RegexOptions.Compiled
        );

        public static void Main(string[] args)
        {
            const string createTableSql = @"
                CREATE TABLE employees (
                    id INT,
                    name STRING
                )
                PARTITIONED BY (year INT, month STRING, salary DECIMAL(10,2))
                STORED AS ORC;";

            foreach (var (name, type) in ParsePartitionColumns(createTableSql))
            {
                Console.WriteLine($"Partition Column: {name.PadRight(15)} Type: {type}");
            }
        }

        public static IEnumerable<(string Name, string Type)> ParsePartitionColumns(string sql)
        {
            var partitionedByMatch = PartitionedByRegex.Match(sql);
            if (!partitionedByMatch.Success) yield break;

            var columnsText = partitionedByMatch.Groups[1].Value.Trim();
            foreach (var columnDef in SplitColumnDefinitions(columnsText))
            {
                var match = FieldRegex.Match(columnDef);
                if (match.Success)
                {
                    yield return (
                        match.Groups["name"].Value,
                        match.Groups["type"].Value
                    );
                }
            }
        }

        private static IEnumerable<string> SplitColumnDefinitions(string input)
        {
            int depth = 0, start = 0;
            for (int i = 0; i < input.Length; i++)
            {
                switch (input[i])
                {
                    case '(': depth++; break;
                    case ')': depth--; break;
                    case ',' when depth == 0:
                        yield return input.Substring(start, i - start).Trim();
                        start = i + 1;
                        break;
                }
            }
            if (start < input.Length)
                yield return input.Substring(start).Trim();
        }
    }
}

代码说明:

  1. 正则表达式优化

    • 使用预编译正则表达式(RegexOptions.Compiled)提升匹配性能
    • PartitionedByRegex 用于定位分区定义部分
    • FieldRegex 用于解析字段名称和类型
  2. 核心解析逻辑

    • 使用括号深度感知的分割算法处理嵌套结构
    • 支持处理带括号的复杂类型(如DECIMAL(10,2))
    • 支持反引号包裹的字段名
  3. 性能优化

    • 避免不必要的字符串分配
    • 使用迭代器实现延迟处理
    • 减少中间集合的创建
  4. 关键方法

    • ParsePartitionColumns:主解析方法
    • SplitColumnDefinitions:智能分割字段定义

示例输出:

复制代码
Partition Column: year            Type: INT
Partition Column: month           Type: STRING
Partition Column: salary          Type: DECIMAL(10,2)

该实现能够正确处理以下复杂场景:

  • 带括号的类型定义
  • 反引号包裹的字段名
  • 嵌套的复杂类型(如MAP<STRING,ARRAY>)
  • 各种空格格式(包括换行和多余空格)
相关推荐
c++之路15 分钟前
C++跨平台(九):跨平台字节序统一处理
开发语言·arm开发·c++
Evand J25 分钟前
【MATLAB例程|车联网6】考虑调头车流扰动与网联车辆实时感知信息的干线多交叉口 FAC-CV 全感应协调控制仿真与性能对比分析
开发语言·matlab·仿真·代码·车联网·智慧交通·车辆
云絮.26 分钟前
数据库事务
java·开发语言·数据库
派葛穆35 分钟前
Python-pip切换镜像源
开发语言·python·pip
Full Stack Developme42 分钟前
Java 漏斗算法 及应用场景
java·开发语言·算法
阿里嘎多学长1 小时前
2026-07-03 GitHub 热点项目精选
开发语言·程序员·github·代码托管
xxie1237941 小时前
Python 闭包:函数嵌套的 “状态捕获” 机制
开发语言·python
骑士雄师1 小时前
java面试记录: sychonized 锁,熔断组件,分布式锁
java·开发语言·面试
lilihuigz2 小时前
Meta Box完整指南:WordPress自定义字段与内容框架高效构建结构化内容 - 易服客工作室
java·开发语言
xxie1237942 小时前
Python 闭包的调用方法与实践
开发语言·python