量化学习(三):从聚类算法到交易行为识别
摘要
Level2数据包含行情快照、十档盘口、逐笔委托和逐笔成交等高频信息。单个字段能够描述某一时刻的价格、数量或订单状态,却很难直接回答"某只股票在一个交易日内表现出怎样的交易模式"这一问题。本文将每个"股票---交易日"视为一个研究样本,从成交节奏、主动方向、订单规模、价格响应、撤单行为和盘口结构等角度构建特征,并研究两个共享特征工程的量化任务:交易模式聚类与资金行为推断。两个任务分别建模,聚类结果用于解释交易模式和辅助诊断,资金类型与交易意图由独立规则或独立概率模型推断。
本文首先介绍KMeans、Gaussian Mixture Model、层次聚类、DBSCAN、HDBSCAN和时序聚类,并说明轮廓系数、Calinski-Harabasz指数和Davies-Bouldin指数的含义。随后介绍从特征库筛选28个行为核心字段、使用稳健缩放与主成分分析构造横截面表示、搜索多个簇数和随机种子的KMeans方案。三个匿名验证日的结果表明,前两个日期的离线代理指标得到改善,但第三个日期在严格控制变量的外部盲测中出现回落;资金行为推断中的概率聚类方案也表现出明显跨日漂移。这些结果说明,无监督几何指标可以帮助诊断结构,却不能单独证明业务语义和跨日迁移能力。
关键词: Level2;无监督学习;KMeans;高斯混合模型;聚类评估;交易行为识别;规则推断
1. 背景
在监督学习中,每个训练样本通常带有明确标签,模型可以根据预测结果与真实标签之间的误差更新参数。交易行为研究经常缺少这样的标签。我们能够观察到价格变化、成交方向、挂单深度和撤单节奏,却很难获得每个股票交易日对应的真实交易模式与主导资金身份。因此,第一步更适合采用无监督学习,从特征空间中寻找自然形成的样本群体。
本文的基本研究单位是"股票---交易日"。假设某只股票在一天内产生数千条行情快照和大量逐笔事件,我们先将这些时序记录汇总成一行特征,再比较不同股票交易日之间的相似性。经过这一转换,原始的变长事件序列形成固定维度矩阵:每一行代表一个股票交易日,每一列代表一个可解释的行为统计量。
聚类只能产生数学分组。簇编号本身没有金融含义,编号为0的簇也不天然对应某一种资金。要得到可读结论,还需要计算每个簇的平均特征画像,并结合订单规模、主动方向、盘口压力和时段集中度解释其行为特征。资金类型和交易意图采用独立推断流程,与模式聚类共享Level2特征,但不把簇编号直接当成资金身份。整个流程可以概括为:
text
Level2事件数据
↓
股票---交易日特征
├── 稳健缩放、PCA与KMeans → 簇画像与交易模式解释
└── 多因子规则或独立概率模型 → 资金类型和交易意图
2. 相关工作与术语介绍
2.1 聚类问题中的基本术语
聚类是根据样本之间的相似性,将没有标签的数据划分为若干组的无监督学习方法。一个具体例子是:若一组股票交易日都具有较小成交单、稳定交易间隔和较弱价格冲击,它们可能在特征空间中形成同一簇;另一组股票交易日具有较高大单占比、明显主动买入和较强时段集中度,则可能形成另一个簇。
特征向量是对单个样本的数值化描述。例如,某个股票交易日可以表示为"大单成交占比、主动买入占比、盘口失衡均值、成交间隔变异系数"等数值组成的向量。聚类算法比较的是这些向量之间的关系。
距离度量用于描述两个样本有多相似。KMeans通常使用欧氏距离。若一个特征的数值范围远大于其他特征,它会在距离计算中占据更大权重,因此聚类前需要调整尺度。本文采用RobustScaler,以训练期中位数和分位数范围完成稳健缩放。
硬聚类 要求每个样本只属于一个簇,KMeans属于这一类。软聚类为每个样本输出属于不同簇的概率,GMM属于这一类。例如,一个股票交易日可能以70%的概率属于"方向性交易"簇,同时以30%的概率属于"均衡交易"簇。
簇中心 是一个簇在特征空间中的代表位置。KMeans使用簇内样本均值作为中心。簇画像则是在簇中心基础上加入原始量纲统计和业务解释,使数学分组能够被人理解。
稳健缩放是用中位数和分位数范围调整特征尺度的方法。它比均值和标准差更少受极端值影响。例如,少数股票交易日的成交额远高于大多数样本时,RobustScaler可以降低这些极端样本对缩放尺度的支配。8
主成分分析通常简称PCA,它把相关的原始特征转换为一组彼此正交的新方向,并按解释方差从高到低排序。例如,大单占比、平均成交额和价格冲击可能包含重复信息,PCA可以把它们压缩到少数综合方向,同时保留主要变化。9
2.2 KMeans
KMeans是一种基于中心和欧氏距离的硬聚类算法。给定样本集合 X = { x 1 , x 2 , ... , x n } X=\{x_1,x_2,\ldots,x_n\} X={x1,x2,...,xn}和预先指定的簇数 K K K,算法寻找 K K K个中心,使所有样本到各自最近中心的平方距离之和最小:
J = ∑ k = 1 K ∑ x i ∈ C k ∥ x i − μ k ∥ 2 2 J=\sum_{k=1}^{K}\sum_{x_i\in C_k}\left\|x_i-\mu_k\right\|_2^2 J=k=1∑Kxi∈Ck∑∥xi−μk∥22
其中, C k C_k Ck表示第 k k k个簇, μ k \mu_k μk表示该簇中心。这个目标函数也称簇内平方和或惯性。
KMeans通常执行四个步骤。首先初始化 K K K个中心;其次把每个样本分配给最近中心;然后重新计算每个簇的均值;最后重复分配和更新,直到中心移动小于给定容差。本文采用k-means++初始化和多次独立初始化,以降低较差初始中心带来的局部最优风险。1
例如,若只使用"主动买入占比"和"时段集中度"两个特征,KMeans可能把买入方向强且集中交易的样本划入一个簇,把方向均衡且全天分散交易的样本划入另一个簇。真实研究包含更多维度,几何关系也会更复杂。
KMeans的优势是计算效率高、结果容易复现、簇中心便于解释,并且能够直接对新样本执行最近中心预测。它的主要限制来自欧氏距离和簇形状假设。算法更适合近似凸形、尺度相近的簇,对异常值、拉长形簇和不同密度簇较敏感。在高维空间中,欧氏距离还可能出现区分度下降,因此特征选择、降维和稳定性验证十分重要。1
2.3 Gaussian Mixture Model
Gaussian Mixture Model通常简称GMM,中文称高斯混合模型。它假设样本由若干个高斯分布按不同权重混合生成,其概率密度写为:
p ( x ) = ∑ k = 1 K π k N ( x ∣ μ k , Σ k ) p(x)=\sum_{k=1}^{K}\pi_k\,\mathcal{N}(x\mid\mu_k,\Sigma_k) p(x)=k=1∑KπkN(x∣μk,Σk)
其中, π k \pi_k πk是第 k k k个成分的混合权重, μ k \mu_k μk是均值向量, Σ k \Sigma_k Σk是协方差矩阵。模型一般通过期望最大化算法估计参数:E步计算每个样本属于各高斯成分的概率,M步根据这些概率更新权重、均值和协方差,循环直到似然函数收敛。2
具体而言,若两个交易模式在特征空间中存在重叠,GMM可以输出概率。例如某个样本属于方向性资金簇的概率为0.58,属于均衡交易簇的概率为0.42。这类结果能够表达边界样本的不确定性。GMM还允许使用球形、对角、共享或完整协方差矩阵,因此可以描述不同方向和尺度的椭圆形簇。
GMM的代价是参数更多,对样本数量、协方差正则化和初始化更敏感。完整协方差在高维小样本条件下容易估计不稳定。模型仍需要指定成分数,也可以结合信息准则选择。AIC和BIC分别称赤池信息准则和贝叶斯信息准则,它们同时考虑模型拟合程度与参数复杂度,通常选择数值更低的候选。例如,8成分和10成分GMM的似然接近时,参数更少的8成分模型可能获得更低的BIC。2
2.4 层次聚类
层次聚类通过逐步合并或拆分样本形成树状结构。凝聚层次聚类从每个样本各自成簇开始,每次合并距离最近的两个簇,直到达到指定簇数或距离阈值。最终结果可以用树状图表示,因此适合观察大类内部是否还包含稳定子类。
不同连接准则会产生不同结果。Ward连接选择使簇内方差增加最小的合并;完全连接关注两个簇中最远样本之间的距离;平均连接使用跨簇样本距离的平均值;单连接关注最近样本距离。Ward连接通常产生更紧凑的簇,但要求欧氏距离;平均连接更容易与其他距离度量结合。3
例如,交易行为可能先分为方向性和均衡性两大类,方向性簇中再分为开盘集中、尾盘集中和全天持续等子类。层次结构能够展示这种关系。其局限在于早期合并通常无法撤销,大样本下距离计算和树结构存储也会增加资源开销。
2.5 DBSCAN
DBSCAN是基于密度的聚类算法。它通过邻域半径 ε \varepsilon ε和最小样本数 m i n _ s a m p l e s min\_samples min_samples定义高密度区域。若某个样本的 ε \varepsilon ε邻域中包含足够多样本,该点被视为核心点;相互密度可达的核心点及其邻近点形成簇,低密度区域中的孤立样本被标记为噪声。4
例如,少量具有极端涨跌幅、异常成交规模或特殊盘口结构的股票交易日可能远离主要样本群。DBSCAN可以把这些样本标记为噪声,减少异常值对簇中心的影响。该方法无需预先指定簇数,也能识别非凸形簇。
DBSCAN对 ε \varepsilon ε较敏感。当不同交易模式的密度差异较大时,一个全局半径很难同时适应所有区域。高维空间中的邻域距离还会趋于相似,密度参数更难选择。
2.6 HDBSCAN
HDBSCAN可理解为层次化的密度聚类。它在多个密度尺度上构建层次结构,再依据簇的持续性选择稳定簇,因此能够处理密度不同的样本群,并保留噪声识别能力。5
例如,一类交易行为可能由大量相似样本构成高密度簇,另一类稀有行为只有少量样本且分布更松散。HDBSCAN比单一 ε \varepsilon ε的DBSCAN更有机会同时发现两类结构。其输出和参数解释更复杂,对新样本的直接归类也不如KMeans自然。当前数据规模仍适合把HDBSCAN作为结构探索工具,用于检查KMeans是否强行吸收了应当视为异常的样本。
2.7 基于DTW的时序聚类
前述方法通常接收固定维度向量。若希望保留日内价格、成交量和订单流的完整演化过程,可以使用时序聚类。Dynamic Time Warping简称DTW,中文称动态时间规整。它允许在时间轴上进行局部拉伸和压缩,寻找两条序列的低成本对齐路径。
例如,两只股票都出现"先平稳、后放量、再回落"的行为,其中一只在10时启动,另一只在10时15分启动。逐时点欧氏距离会把它们判得较远,DTW可以对齐相似阶段,从而识别共同形态。k-medoids是一种以真实样本作为簇代表的划分方法,例如可以选择某个真实股票交易日作为一类时序的代表;DTW可以与k-medoids、层次聚类或时序KMeans结合。6
时序聚类能够保留路径信息,但计算成本通常高于静态聚合特征,并且对序列采样、缺失时段、时间窗口和对齐约束敏感。本文当前方案先使用固定维度日级特征;当多日数据和评估方法更稳定后,再比较DTW与静态特征的增量价值。
2.8 聚类算法对比与当前选择
| 方法 | 分组方式 | 是否预设簇数 | 异常点处理 | 主要优势 | 主要限制 |
|---|---|---|---|---|---|
| KMeans | 最近中心硬分配 | 是 | 所有样本进入某个簇 | 高效、稳定、中心易解释、便于预测新样本 | 偏好凸形等方差簇,受异常值和尺度影响 |
| GMM | 后验概率软分配 | 是 | 通常不单独标记噪声 | 能描述不确定性和椭圆形簇 | 高维协方差估计敏感,参数较多 |
| 层次聚类 | 逐步合并形成树 | 可用簇数或距离阈值 | 通常不单独标记噪声 | 能观察多层结构,连接准则灵活 | 早期合并不可逆,外推新样本较麻烦 |
| DBSCAN | 固定密度邻域 | 否 | 支持噪声标签 | 可识别非凸簇和异常样本 | 对邻域半径敏感,难适应不同密度 |
| HDBSCAN | 多尺度密度层次 | 否 | 支持噪声标签 | 能处理不同密度并选择稳定簇 | 解释和外推更复杂 |
| DTW时序聚类 | 对齐后的序列距离 | 取决于聚类器 | 取决于聚类器 | 保留日内演化路径 | 计算成本高,依赖序列处理口径 |
本文重点研究KMeans有三个原因。第一,股票交易日可以被转换为固定维度的横截面向量,满足KMeans的输入形式。第二,簇中心能够形成特征画像,便于从数学分组过渡到金融解释。第三,KMeans计算成本较低,适合对多个簇数和随机种子进行重复搜索。本文将KMeans视为一把透明的测量尺,用它观察特征空间、簇规模和小簇风险,再通过外部盲测判断这些几何结构是否能够迁移。
2.9 聚类质量的衡量方法
2.9.1 轮廓系数
对样本 i i i,记 a ( i ) a(i) a(i)为它与同簇其他样本的平均距离,记 b ( i ) b(i) b(i)为它与最近其他簇样本的平均距离,则轮廓系数为:
s ( i ) = b ( i ) − a ( i ) max { a ( i ) , b ( i ) } s(i)=\frac{b(i)-a(i)}{\max\{a(i),b(i)\}} s(i)=max{a(i),b(i)}b(i)−a(i)
总体轮廓系数是所有样本 s ( i ) s(i) s(i)的平均值,取值范围为 − 1 , 1 -1,1 −1,1。数值越高,表示簇内更紧密且簇间更分离;接近0表示簇之间重叠;负值表示部分样本可能更接近其他簇。7
2.9.2 Calinski-Harabasz指数
Calinski-Harabasz指数简称CH指数,它比较簇间离散程度与簇内离散程度:
C H = tr ( B K ) tr ( W K ) ⋅ n − K K − 1 CH=\frac{\operatorname{tr}(B_K)}{\operatorname{tr}(W_K)}\cdot\frac{n-K}{K-1} CH=tr(WK)tr(BK)⋅K−1n−K
其中, B K B_K BK是簇间离散矩阵, W K W_K WK是簇内离散矩阵, n n n是样本数, K K K是簇数。在同一数据集、相同样本数和相同簇数下,CH指数越高通常表示分组更清晰。它计算速度较快,但也偏好紧凑的凸形簇。7
2.9.3 Davies-Bouldin指数
Davies-Bouldin指数简称DB指数。设 s i s_i si表示第 i i i个簇内样本到中心的平均距离, d i j d_{ij} dij表示第 i i i和第 j j j个簇中心之间的距离,则两个簇的相似度可以写为:
R i j = s i + s j d i j R_{ij}=\frac{s_i+s_j}{d_{ij}} Rij=dijsi+sj
DB指数取每个簇与其最相似其他簇的相似度,再求平均:
D B = 1 K ∑ i = 1 K max j ≠ i R i j DB=\frac{1}{K}\sum_{i=1}^{K}\max_{j\ne i}R_{ij} DB=K1i=1∑Kj=imaxRij
DB指数越低越好,最小值为0。较低的DB指数表示簇内半径较小、簇中心之间距离较大。7
三项指标都只使用样本特征和聚类结果,不需要真实标签。它们衡量的是几何结构,不能证明交易模式命名正确。因此,实验还需要同时检查有效簇数、最大簇比例、最小簇规模、跨日稳定性和簇画像可解释性。
2.9.4 分布、序列与外部评价
Wasserstein距离 衡量把一个概率分布移动成另一个概率分布所需的最小代价。例如,两种方案产生的类别占比越接近目标参考分布,经过方向统一后的Wasserstein代理值越高。DTW代理 使用2.7节介绍的动态时间规整距离,衡量日内行为路径与参考路径的相似程度。综合代理分把多项内部代理按固定口径合并,用于候选筛选,不等同于真实模式准确率。
外部盲测指模型选择过程无法读取答案、结果由独立评价环节返回的测试。例如,先冻结交易模式、资金类型和交易意图的生成流程,再对未参与调参的日期执行评价。它可以检验跨日迁移,但单个日期的分数仍不足以证明方案长期稳定。
3. 量化方案
3.1 两个共享特征工程的分析任务
本文研究两个相互关联但分别建模的任务。交易模式聚类回答"这些股票交易日可以分成哪些行为群体",资金行为推断回答"每个股票交易日更接近哪类资金,方向表现为何"。两者共享相同的Level2特征来源,输出职责保持独立。
交易模式聚类使用KMeans形成数学簇,再根据簇画像生成行为解释。资金行为推断的当前主线采用独立规则,根据资金颗粒度、交易节奏、主动方向、盘口状态和价格响应形成类型与意图。第一任务产生的模式名称可以作为弱参考,用于检查规则结果是否出现明显语义冲突,但不直接决定第二任务标签。
研究中还训练了一套独立GMM资金推断方案。该方案在自己的特征空间中重新分簇,并结合软概率、训练期簇画像和个股锚点完成多阶段决策。它与KMeans交易模式簇没有上下游关系,因此本文将其作为规则方案的对照。
3.2 从大特征库到28个行为核心字段
早期实验曾构建85维日级特征库。后续结果显示,全部特征直接进入距离计算容易引入冗余和重尾干扰。当前实际测试的KMeans方案先根据金融含义选择28个行为核心字段,再进行缩放与降维。
表中的时间熵 衡量成交在日内时间区间中的分散程度,例如成交均匀分布在全天时熵较高,集中在少数分钟时熵较低。VWAP 是成交量加权平均价格,例如收盘价明显高于全天VWAP可能表示尾段价格相对全天成交成本抬升。BS标志是逐笔成交记录中的买卖方向字段,用于区分主动买入与主动卖出。
| 特征视角 | 数量 | 主要描述 |
|---|---|---|
| 成交节奏与时段 | 5 | 百毫秒爆发比例、分钟成交波动、成交额离散度、时间熵和时段集中度 |
| 主动交易方向 | 6 | 主动买卖金额占比、净方向、单边强度和连续买卖长度 |
| 订单规模结构 | 5 | 超大单、大单、小单金额结构、小单笔数结构和平均成交额 |
| 价格响应 | 5 | 日收益、振幅、VWAP偏离、量价相关性和大单价格冲击 |
| 撤单行为 | 4 | 撤单频率、撤单金额占比以及买卖两侧撤单差异 |
| 盘口结构 | 3 | 总盘口失衡和前三档买卖盘结构 |
| 合计 | 28 | 当前KMeans使用的行为核心字段 |
当前多日数据同时包含逐笔委托和逐笔成交,因此撤单特征来自真实撤单事件,主动买卖方向来自逐笔成交的BS标志。这个口径比只根据行情快照缩量或价格变化推测撤单与方向更可靠。85维仍作为候选特征库保留,进入具体模型前必须经过字段选择、变换和降维。
3.3 数据处理与标准化
首先按股票和交易日分组,并依据时间字段排序。累计成交量、累计成交额和累计成交笔数通过相邻快照差分转换为区间增量。盘口价格为0、买卖双方均无有效报价或分母为0的记录需要显式标记,避免生成伪价差和无穷值。训练期中位数用于填补缺失值,目标日不参与中位数估计。
金融微观结构特征经常呈现重尾分布。重尾表示极端值出现概率明显高于正态分布,例如少数股票交易日的成交额或大单价格冲击可能高出中位水平数十倍。对于此类连续变量,方案先执行保留正负号的 log ( 1 + ∣ x ∣ ) \log(1+|x|) log(1+∣x∣)变换,再使用训练期RobustScaler完成稳健缩放。RobustScaler根据中位数和第10至第90百分位范围调整尺度,使少数极端交易日不易支配距离。8
随后在每个目标日的横截面上执行PCA,最多保留8个主成分。若前若干主成分已经达到目标解释方差,则提前停止。以实际测试为例,28个行为字段最终压缩为8个主成分,保留约90%的横截面方差信息。传导式聚类是在当前待分组样本的整体结构上拟合表示和分组,例如本文每天利用当日全部无标签样本重新计算PCA方向和KMeans中心。因此,跨日比较必须依靠原始特征画像,不能直接比较簇编号。
3.4 KMeans交易模式识别
KMeans在目标日横截面上搜索多个候选簇数与随机种子。每个候选都计算轮廓系数、CH指数、DB指数、最大簇比例、最小簇规模、有效覆盖和小簇数量。选择函数奖励簇内紧密、簇间分离、覆盖充分和规模均衡,同时惩罚过大簇与单样本簇。
| 参数 | 设置 |
|---|---|
| 聚类算法 | KMeans,Lloyd迭代 |
| 行为核心字段 | 28 |
| PCA维度 | 最多8维 |
| 候选聚类数 | 8、9、10、11、12 |
| 初始化 | k-means++ |
| 每个候选内部初始化次数 | 30 |
| 最大迭代次数 | 500 |
| 外层随机种子 | 11、23、42、67、89 |
| 特征缩放 | 训练期RobustScaler,第10至第90百分位范围 |
| 候选选择 | 几何指标、覆盖度、均衡度、大簇和小簇约束 |
候选选定后,模型先输出数学簇编号。之后对每个簇计算样本数、原始特征均值、训练期稳健标准分和代表样本,再观察订单规模、主动方向、交易节奏、时段集中度、撤单行为与盘口压力之间的组合关系。模式解释采用多特征共同支持原则,避免凭单个极端特征命名整个簇。
簇画像解释还承担质量检查功能。若绝大多数样本集中到一个簇、多个簇只有单个样本、不同簇画像高度相似,或多个数学簇被解释为同一行为模式,说明当前特征空间、簇数或解释规则需要继续调整。
3.5 第二任务:基于规则的资金与意图推断
规则方案不训练有标签分类器。它从订单规模、成交节奏、撤单行为、主动方向、盘口状态、价格响应和时段集中度等维度形成资金倾向。方向集中、大额交易、价格推动和关键时段集中用于描述集中型资金特征;拆单规律、买卖均衡、盘口稳定和较低冲击用于描述程序化交易特征;信号整体较弱时归入弱主导类型。正文只说明特征关系,不公开完整阈值表。
交易意图单独判断。主动买入占比较高且买方盘口压力同步增强时,规则倾向于买入;主动卖出占比较高且卖方压力同步增强时,规则倾向于卖出;方向信号相互抵消时,结果归入日内双向交易。第一任务的交易模式只用于审计,例如检查同一模式内是否出现大范围相互冲突的资金判断。
这一设计的价值在于可解释性。每个结论都能回到特征和规则条件。它的限制同样明确:固定规则可能在不同日期发生分布漂移,没有真实标签时也无法用本地准确率证明资金身份判断正确。
3.6 独立GMM多阶段对照方案
为了检验规则方案的边界,研究中还构建了独立GMM对照。该方案使用14个历史交易日共1397个股票交易日样本,执行有符号对数变换和RobustScaler稳健缩放,再训练8成分对角协方差GMM。目标样本只经过一次GMM推理,同时获得簇编号和后验概率。
GMM输出随后进入多阶段决策。首先根据训练期簇画像计算资金类型锚点,其次计算每只股票自身的三类行为得分,然后融合个股证据与簇画像证据,最后根据当日整体得分分布完成类别数量校准。该流程能够利用软概率表达边界样本,但簇语义和数量校准仍可能随日期漂移。
4. 实验结果
4.1 实验设置
实验以三个匿名验证日A、B、C组织。历史14个交易日用于计算缺失值统计量、稳健缩放参数和参考分布,三个验证日均不进入这些训练统计。每个验证日约包含100个股票交易日样本。
模式聚类实验比较基础模式方案与行为优先KMeans方案。验证日A和B用于观察多指标离线代理结果,验证日C执行严格控制变量测试:资金类型和交易意图完全固定,只改变交易模式输出。资金推断实验则固定交易模式输出和交易意图,只比较规则资金类型与独立GMM多阶段方案。
| 项目 | 设置 |
|---|---|
| 历史训练样本 | 14个交易日,约1397个股票交易日 |
| 单个验证日 | 约100个股票交易日 |
| KMeans输入 | 28个行为字段,经稳健缩放和PCA后最多8维 |
| KMeans候选 | 8至12簇,5个外层随机种子 |
| 内部几何指标 | 轮廓系数、CH指数、DB指数 |
| 分布指标 | 有效类别数、最大类比例、最小类规模、小簇数量 |
| 序列与分布代理 | Wasserstein距离代理、DTW距离代理 |
| 外部验证 | 固定其他输出的盲测得分 |
内部指标用于衡量特征空间中的几何结构,外部盲测用于检验模式语义和跨日迁移。由于不同方案可能产生不同类别数,CH指数等原始数值只作为完整方案表现的一部分,不单独按百分比解释为性能提升。
4.2 验证日A与B:离线代理结果
| 日期 | 方案 | 模式类别数 | 最大类比例 | 最小类规模 | 轮廓系数↑ | CH指数↑ | DB指数↓ | Wasserstein代理↑ | DTW代理↑ | 综合代理分↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| A | 基础模式方案 | 9 | 29.29% | 2 | 0.0296 | 95.94 | 1.8736 | 0.7573 | 0.4671 | 0.5846 |
| A | 行为优先KMeans | 10 | 30.30% | 1 | 0.0858 | 523.03 | 1.3476 | 0.8620 | 0.5408 | 0.6859 |
| B | 基础模式方案 | 9 | 28.28% | 2 | 0.0503 | 79.91 | 1.6660 | 0.7723 | 0.4895 | 0.5926 |
| B | 行为优先KMeans | 11 | 25.25% | 1 | 0.0003 | 88.53 | 1.5531 | 0.7285 | 0.5562 | 0.6101 |
验证日A中,行为优先KMeans在轮廓系数、CH指数、DB指数、Wasserstein代理和DTW代理上均优于基础方案。验证日B的结果更加复杂:CH指数、DB指数、DTW代理和类别均衡有所改善,轮廓系数与Wasserstein代理变弱。综合代理分在两个日期都更高,因此该方案进入下一日控制变量测试。
两天结果都出现最小类规模为1,说明单样本簇风险仍然存在。验证日B的模式类别数也不同,原始CH指数不能脱离类别数和其他指标单独比较。综合代理分只用于候选筛选,不代表真实交易模式准确率。
4.3 验证日C:严格控制变量结果
验证日C固定资金类型和交易意图,只替换交易模式结果。两种模式方案的100行输出全部发生变化,因此可以直接观察聚类方案对最终表现的影响。
| 模式方案 | 类别数 | 最大类比例 | 最小类规模 | 轮廓系数↑ | CH指数↑ | DB指数↓ | Wasserstein代理↑ | DTW代理↑ | 综合代理分↑ | 外部盲测得分↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| 基础模式方案 | 10 | 23% | 1 | -0.0216 | 51.06 | 1.7315 | 0.7358 | 0.4585 | 0.573013 | 0.5823 |
| 行为优先KMeans | 11 | 27% | 1 | -0.1244 | 67.52 | 4.6429 | 0.6776 | 0.5173 | 0.545814 | 0.5754 |
行为优先KMeans的CH指数与DTW代理更高,但轮廓系数、DB指数、Wasserstein代理和综合代理分均弱于基础模式方案,外部盲测得分也下降0.0069。该结果表明,验证日A、B上的离线代理优势没有稳定迁移到验证日C。
验证日C的候选选择在PCA空间中完成,表中的内部几何指标则在完整特征空间中计算,两套表示空间并不一致。该差异会使模型选择目标与事后评价目标发生偏移。行为优先KMeans还产生了3个单样本簇,进一步暴露出小簇稳定性问题。因此,后续实验需要在同一表示空间内完成候选选择与评价,并将跨日稳定性和小簇约束直接纳入模型选择。
4.4 规则方案与独立GMM方案的跨日对照
资金推断实验固定交易模式和交易意图,只替换资金类型。独立GMM方案在历史14个交易日的1397个股票交易日样本上拟合8个对角协方差成分,并使用训练簇画像、个体锚点与全局分配约束生成资金类型。规则方案直接依据净流向、成交规模、活跃时段、撤单行为和盘口压力等指标形成判断。
| 验证日 | 规则方案得分 | 独立GMM方案得分 | GMM相对变化 |
|---|---|---|---|
| B | 0.4894 | 0.5401 | +0.0507 |
| C | 0.6022 | 0.5823 | -0.0199 |
验证日B中,独立GMM方案取得0.0507的增益;验证日C中,同一建模结构下降0.0199。验证日C的类型分布如下。
| 资金推断方案 | 散户 | 量化资金 | 游资 |
|---|---|---|---|
| 规则方案 | 46 | 28 | 26 |
| 独立GMM方案 | 32 | 28 | 40 |
两种方案在验证日C有35行资金类型不同,交易意图保持一致。独立GMM将更多样本分配为游资,其跨日收益出现反转,说明当前概率聚类及后续语义映射仍存在日期敏感性。现阶段保留规则方案作为主要资金推断方法,独立GMM用于检查规则边界和研究跨日分布变化。
4.5 如何理解这些结果
首先,轮廓系数、CH指数和DB指数衡量的是特征空间中的几何结构,无法直接判断一个簇是否对应真实且稳定的交易行为。验证日C中CH指数提高而外部盲测得分下降,正好说明内部几何质量与行为语义质量之间存在差距。
其次,Wasserstein代理、DTW代理和综合代理分能够帮助筛选候选方案,但它们仍会受到日期分布、类别数量和表示空间的影响。验证日A、B的代理提升没有在验证日C复现,因此多日冻结回放和严格控制变量测试应当成为方案判断的必要环节。
然后,KMeans仍适合承担交易模式探索和簇画像分析,因为其中心结构便于解释;规则方法在当前资金推断任务上表现出更好的可控性;独立GMM可以提供软分配概率和另一种分布视角。三者的实验定位不同,评价时需要分别关注聚类稳定性、规则跨日一致性和概率模型的语义映射偏移。
5. 总结
本文从无标签交易行为研究出发,介绍了KMeans、GMM、层次聚类、DBSCAN、HDBSCAN和基于DTW的时序聚类,并说明了轮廓系数、CH指数和DB指数的计算逻辑与适用边界。不同聚类算法对簇形状、密度、异常点和新样本预测具有不同假设,模型选择应与数据表达方式共同考虑。
当前量化方案从统一的Level2事件特征出发,分别研究交易模式与资金行为。交易模式方案从特征库中选择28个行为核心字段,经过有符号对数变换、稳健缩放和PCA降维后,在8至12个候选簇与多个随机种子之间选择KMeans结果。资金推断由独立规则层完成,聚类画像用于解释和校验,不作为规则输入的强制依赖。
多日实验显示,行为优先KMeans在验证日A、B提高了综合代理分,在验证日C的严格控制变量测试中,外部盲测得分由0.5823降至0.5754。独立GMM资金方案在验证日B由0.4894提高到0.5401,在验证日C则由0.6022降至0.5823。当前结果支持继续使用KMeans开展交易模式探索,同时保留规则方案作为主要资金推断方法。后续研究需要统一模型选择与评价的表示空间,并通过多日冻结回放、簇稳定性分析和语义映射校准检验跨日泛化能力。
参考文献
2 scikit-learn:Gaussian Mixture Model
3 scikit-learn:Agglomerative Clustering
4 Ester等:A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise
5 McInnes等:hdbscan: Hierarchical Density Based Clustering
6 Javed等:A Benchmark Study on Time Series Clustering