机器学习对中特估股票关键特征选取的应用与研究

文章目录

概要

技术知识:Python、随机森林、PCA、XGBOOST、皮尔逊相关系数、股票分析、评估方法

本文主要基于巨潮资讯网的股票数据,包含50支中国特色估值体系股票(中特股)和50支普通股票作为样本,提取了这些公司2022年的年度财务数据,涵盖23个关键财务特征。这些特征被认为是初步影响股票走势的重要因素。为了深入分析中特估股票的独特性,将会构建特征指标体系,并通过主成分分析对数据进行降维,筛选出对股票估值有显著影响的核心特征。随后,利用皮尔逊相关系数分析这些关键特征与中特估股票之间的相关性,进一步确认其关联程度。最后,采用随机森林模型对股票数据进行效果评估,研究结果显示测试集的准确率达到85%,AUROC和AUPRC指标分别为0.87和0.83,验证了所选特征指标及研究方法的科学性和有效性。

研究背景

中国特色估值体系是构建中国特色现代资本市场的核心环节之一,它契合新发展需求,基于对中国市场的深刻理解,能精准捕捉上市公司估值逻辑,形成独特框架。作为该体系核心元素的中特股,在资本市场建设、投资决策等方面影响深远,因此深入研究其股票特征选取十分重要。​

随着数据技术和机器学习算法的发展,算法交易和量化投资成股票市场热点。例如,张训韬等人用 XGBoost 排序股票金融特征,结合 LSTM 模型预测收盘价,效果良好;张倩玉扩充特征参数,经系统聚类和主成分分析降维,降低了模型误差;付嘉华针对股票数据特性,用主成分分析降维后,通过组合模型分类预测,准确率达 81.2%;李希尧选取 20 个关键指标,实现优质股票有效聚类。不过,当前针对中特估股票的研究不足,未来需加强以提供更全面指导。

研究流程与方法

数据来源于巨潮资讯网行情中心(截止至2024年1月)的100支股票数据(50支中特估股票和50支普通股票,共包含23个财务特征),部分原始数据如表1,财务特征如表2。


首先对数据进行缺失值与异常值检测,其中异常值与缺失值的个数为0,故无需进行删除等操作。由于数据中每个特征的量纲不同,需对数据进行标准化处理。

算法实现

采用主成分分析的降维方法和皮尔逊相关系数,同时引入XGBoost和随机森林模型等技术,对股票数据进行综合性的分类分析。

  • 主成分分析法:

注意:本文选择累计贡献率达85%以上的主成分进行综合分析,并选取这些主成分中系数值最大的特征作为该主成分代表性指标。

  • 皮尔逊相关系数:

算法逻辑方法如下:

采用主成分分析方法,对包括24个财务数据指标的训练数据进行降维分析,获得主成分个数与累计方差解释率的关系图:

其中提取前9个主成分,其累计方差解释率达到了85%以上,根据各主成分中各特征指标的贡献得分高低(荷载系数)筛选出9个主成分中的代表性特征指标 ,具体指标如下:

接着利用可视化进行分析:

相较于普通股票,中特估股票对应的公司在净资产收益率、营业总收入增长率、净资产增长率上更优,尤其存货周转率差异显著,显示其运营和盈利表现更出色。但普通股票企业在流动比率、应收账款周转率等指标上更胜一筹,这暗示中特估股票企业可能存在资产流动性不足问题。因多数中特估股票企业是规模庞大的国有企业,资产流动性差,这也是其资产负债比率较高的主因。

基于随机森林模型,通过网格搜索方法进行模型参数调优后,测试集的中特估股被识别出的准确率高达85%。其中AUROC、AUPRC与F1指标分别达到0.87、0.83与0.84,具备较高的准确性和召回率。

总结

中特估股票具有估值较低、内在收益率高、股价涨幅稳定、波动性小的特点,其发行企业多为大型国企,经营态势良好、盈利稳定,有长期投资潜力。本研究以巨潮资讯网行情中心股票数据为基础,构建中特估股票特征指标体系,通过主成分分析和皮尔逊相关系数分析,识别出 9 个对股票估值影响最显著的关键特征指标。随后引入随机森林模型,分析评估这些指标的应用效果,验证了其在中特估股票分类中的有效性。​

参考:《基于机器学习的中特估股票关键特征选取及应用研究》

相关推荐
艾醒10 分钟前
探索大语言模型(LLM):大模型微调方式全解析
人工智能·算法
IvanCodes15 分钟前
RTX 4090 加速国产 AIGC 视频生成:腾讯混元与阿里千问开源模型
人工智能·开源·aigc·音视频
说私域22 分钟前
定制开发开源AI智能名片S2B2C商城小程序的会员制运营研究——以“老铁用户”培养为核心目标
人工智能·小程序·开源
格林威25 分钟前
常规可见光相机在工业视觉检测中的应用
图像处理·人工智能·数码相机·计算机视觉·视觉检测
循环渐进Forward28 分钟前
Go语言:给AI开发装上高性能引擎
开发语言·人工智能·golang
skywalk816342 分钟前
调试parlant的大模型配置,最终自己动手写了g4f的模块挂载
网络·人工智能·语言模型·tiktoken
MUTA️1 小时前
论文速览:从ConvNeXt 到 ConvNeXt V2
人工智能·深度学习
九天轩辕1 小时前
用一个 Bash CLI 管理多款 AI 开发工具:jt-code-cli 实战与原理解析
开发语言·人工智能·bash
张较瘦_1 小时前
[论文阅读] AI+软件工程 | 开发者 AI 需求新指南:任务感知视角下的负责任 AI 实证研究
论文阅读·人工智能·软件工程
blues_C2 小时前
Playwright MCP vs Chrome DevTools MCP vs Chrome MCP 深度对比
前端·人工智能·chrome·ai·chrome devtools·mcp·ai web自动化测试