机器学习对中特估股票关键特征选取的应用与研究

文章目录

概要

技术知识:Python、随机森林、PCA、XGBOOST、皮尔逊相关系数、股票分析、评估方法

本文主要基于巨潮资讯网的股票数据,包含50支中国特色估值体系股票(中特股)和50支普通股票作为样本,提取了这些公司2022年的年度财务数据,涵盖23个关键财务特征。这些特征被认为是初步影响股票走势的重要因素。为了深入分析中特估股票的独特性,将会构建特征指标体系,并通过主成分分析对数据进行降维,筛选出对股票估值有显著影响的核心特征。随后,利用皮尔逊相关系数分析这些关键特征与中特估股票之间的相关性,进一步确认其关联程度。最后,采用随机森林模型对股票数据进行效果评估,研究结果显示测试集的准确率达到85%,AUROC和AUPRC指标分别为0.87和0.83,验证了所选特征指标及研究方法的科学性和有效性。

研究背景

中国特色估值体系是构建中国特色现代资本市场的核心环节之一,它契合新发展需求,基于对中国市场的深刻理解,能精准捕捉上市公司估值逻辑,形成独特框架。作为该体系核心元素的中特股,在资本市场建设、投资决策等方面影响深远,因此深入研究其股票特征选取十分重要。​

随着数据技术和机器学习算法的发展,算法交易和量化投资成股票市场热点。例如,张训韬等人用 XGBoost 排序股票金融特征,结合 LSTM 模型预测收盘价,效果良好;张倩玉扩充特征参数,经系统聚类和主成分分析降维,降低了模型误差;付嘉华针对股票数据特性,用主成分分析降维后,通过组合模型分类预测,准确率达 81.2%;李希尧选取 20 个关键指标,实现优质股票有效聚类。不过,当前针对中特估股票的研究不足,未来需加强以提供更全面指导。

研究流程与方法

数据来源于巨潮资讯网行情中心(截止至2024年1月)的100支股票数据(50支中特估股票和50支普通股票,共包含23个财务特征),部分原始数据如表1,财务特征如表2。


首先对数据进行缺失值与异常值检测,其中异常值与缺失值的个数为0,故无需进行删除等操作。由于数据中每个特征的量纲不同,需对数据进行标准化处理。

算法实现

采用主成分分析的降维方法和皮尔逊相关系数,同时引入XGBoost和随机森林模型等技术,对股票数据进行综合性的分类分析。

  • 主成分分析法:

注意:本文选择累计贡献率达85%以上的主成分进行综合分析,并选取这些主成分中系数值最大的特征作为该主成分代表性指标。

  • 皮尔逊相关系数:

算法逻辑方法如下:

采用主成分分析方法,对包括24个财务数据指标的训练数据进行降维分析,获得主成分个数与累计方差解释率的关系图:

其中提取前9个主成分,其累计方差解释率达到了85%以上,根据各主成分中各特征指标的贡献得分高低(荷载系数)筛选出9个主成分中的代表性特征指标 ,具体指标如下:

接着利用可视化进行分析:

相较于普通股票,中特估股票对应的公司在净资产收益率、营业总收入增长率、净资产增长率上更优,尤其存货周转率差异显著,显示其运营和盈利表现更出色。但普通股票企业在流动比率、应收账款周转率等指标上更胜一筹,这暗示中特估股票企业可能存在资产流动性不足问题。因多数中特估股票企业是规模庞大的国有企业,资产流动性差,这也是其资产负债比率较高的主因。

基于随机森林模型,通过网格搜索方法进行模型参数调优后,测试集的中特估股被识别出的准确率高达85%。其中AUROC、AUPRC与F1指标分别达到0.87、0.83与0.84,具备较高的准确性和召回率。

总结

中特估股票具有估值较低、内在收益率高、股价涨幅稳定、波动性小的特点,其发行企业多为大型国企,经营态势良好、盈利稳定,有长期投资潜力。本研究以巨潮资讯网行情中心股票数据为基础,构建中特估股票特征指标体系,通过主成分分析和皮尔逊相关系数分析,识别出 9 个对股票估值影响最显著的关键特征指标。随后引入随机森林模型,分析评估这些指标的应用效果,验证了其在中特估股票分类中的有效性。​

参考:《基于机器学习的中特估股票关键特征选取及应用研究》

相关推荐
白-胖-子41 分钟前
深入剖析大模型在文本生成式 AI 产品架构中的核心地位
人工智能·架构
想要成为计算机高手2 小时前
11. isaacsim4.2教程-Transform 树与Odometry
人工智能·机器人·自动驾驶·ros·rviz·isaac sim·仿真环境
NeoFii2 小时前
Day 22: 复习
机器学习
静心问道3 小时前
InstructBLIP:通过指令微调迈向通用视觉-语言模型
人工智能·多模态·ai技术应用
宇称不守恒4.03 小时前
2025暑期—06神经网络-常见网络2
网络·人工智能·神经网络
小楓12013 小时前
醫護行業在未來會被AI淘汰嗎?
人工智能·醫療·護理·職業
数据与人工智能律师4 小时前
数字迷雾中的安全锚点:解码匿名化与假名化的法律边界与商业价值
大数据·网络·人工智能·云计算·区块链
chenchihwen4 小时前
大模型应用班-第2课 DeepSeek使用与提示词工程课程重点 学习ollama 安装 用deepseek-r1:1.5b 分析PDF 内容
人工智能·学习
说私域4 小时前
公域流量向私域流量转化策略研究——基于开源AI智能客服、AI智能名片与S2B2C商城小程序的融合应用
人工智能·小程序
Java樱木4 小时前
AI 编程工具 Trae 重要的升级。。。
人工智能