2026年(第14届)“泰迪杯”数据挖掘挑战赛C题:事件驱动型股市投资策略构建 多维度完整金融市场数据分享

一、背景与意义

事件驱动型投资是通过捕捉影响资产价格的事件(如产业政策调整、新技术突破、公司行为及附件1提及的具体事件案例等),分析事件对宏观、行业及个股的传导逻辑,进而构建投资策略的方法。其核心在于"事件识别一关联挖掘一影响量化一策略生成"的全链条分析。金融学中,事件研究法是量化事件影响的标准工具,通过设定事件窗口期、计算异常收益,检验事件对股价的统计显著性影响,并揭示"事件一个股"的传导机制。在人工智能技术突飞猛进的当下,结合最新的如大模型、多模态数据处理、智能体等技术,可在充分、高效地挖掘海量、异构历史数据的基础上,构建自动化的事件识别、关联公司挖掘、投资标的选择和投资策略优化,为投资者提供高效决策支持。本赛题以"事件驱动投资"为核心,要求参赛者融合事件研究法与数据挖掘流程,构建从"事件感知"到"策略落地"的完整解决方案。

二、问题描述

参赛者自行确定并爬取金融市场数据(数据查找及下载可参阅附件2),包括但不限于公告、行情、宏观行业数据、社交网络舆情等,完成以下四阶段任务,最终输出可解释的投资策略并在股票市场上进行实证。

任务1:事件识别与分类

从海量数据中识别"可能影响股市整体行情或个股差异化行情的事件",并完成标准化分类与特征提取。参考事件研究法,明确事件的界定标准(需包含可量化的核心维度与定性判断依据),在此基础上构建具有金融意义的金融事件分类体系(分类维度可参阅附件3),并为每个事件提取量化特征,如事件属性、舆情热度、事件强度和影响范围等,并分析特征与股价影响的关联性。

任务2:事件关联公司的挖掘针对识别出的事件,根据所收集的数据,挖掘与事件存在关联的上市公司,设计关联强度指标,构建量化评价体系、衡量关联的紧密程度,使用知识图谱或关联矩阵等工具构建"事件主体-上市公司"的关联图谱,计算关联强度。选择一个典型事件,展示实现过程。

任务3:事件影响预测与逻辑链条构建用事件研究法或其他数据挖掘方法建立预测模型,量化事件对关联上市公司股价的影响,给出可解释的"事件一个股"的传导逻辑链条,并自行设计实验分析所构建的预测模型的性能。

任务4:投资策略构建

根据任务3建立的事件驱动预测模型,构建事件驱动的组合投资策略,包括事件的确定、买入标的(股票)选择和资金分配比例。以2025年12月8日至2025年12月26日为时间窗口,以周为单位进行实证操作:设定初始资金100000元,投资决策包含不超过3支买入股票的股票代码及资金分配比例,以周二的开盘价买入,以当周周五的收盘价全部卖出,计算并分析投资总收益。

数据介绍(文末附完整数据获取方式)

根据以上赛题要求,本次我们一共获取了七个维度的数据,以供完整的赛题解决与分析:

01_事件识别与分类数据

02_事件关联公司数据

03_事件影响预测数据

04_投资策略与回测数据

|--------------|----------------|----------------|-----------------|-------------------|-----------------------|--------------------|----------------|-------------------|------------------|------------------|------------------|------------------|------------|------------|------------|
| event_id | stock_code | stock_name | market_code | relation_type | relation_strength | relation_layer | note | event_day_pct | event_day_ar | ret_close_t2 | ret_close_t5 | ret_close_t7 | car_t2 | car_t5 | car_t7 |
| E20250507 | 302132 | 中航成飞 | sz.302132 | 核心整机受益 | 1 | 直接 | 歼-10CE 事件直接映射 | 17.0522 | 16.446073 | 34.86408914 | 52.54094209 | 45.33175756 | 32.081301 | 43.96707 | 40.577127 |
| E20250507 | 300581 | 晨曦航空 | sz.300581 | 无人机配套 | 0.85 | 直接 | 无人机链条配套 | 19.9588 | 19.352673 | 54.83539095 | 62.55144033 | 67.69547325 | 46.532101 | 51.15407 | 56.008227 |
| E20250507 | 688543 | 国科军工 | sh.688543 | 导弹产业链 | 0.8 | 直接 | 导弹链条受益 | 9.8583 | 9.252173 | 11.19831547 | 10.18376723 | 5.532159265 | 10.313901 | 7.45707 | 4.578027 |
| E20251125 | 002792 | 通宇通讯 | sz.002792 | 股权/基金直接投资 | 1 | 直接 | 通过空天基金重仓投资凌空天行 | 7.0446 | 6.092342 | 18.98734177 | 58.39295542 | 54.87066593 | 16.589046 | 45.737439 | 43.690657 |
| E20251125 | 688033 | 天宜上佳 | sh.688033 | 核心供应商 | 0.8 | 直接 | 材料/零部件供应链 | 3.964 | 3.011742 | 21.98198198 | 23.42342342 | 15.85585586 | 20.237246 | 20.625339 | 14.566357 |
| E20251125 | 003009 | 中天火箭 | sz.003009 | 核心供应商 | 0.8 | 直接 | 火箭/导弹链条供应 | 0.6352 | -0.317058 | 6.769509982 | 8.91107078 | 7.912885662 | 5.576846 | 6.778739 | 6.049057 |
| E20251125 | 600037 | 歌华有线 | sh.600037 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 0.8021 | -0.150158 | 2.540106952 | 2.005347594 | 0 | 1.016946 | -0.336761 | -2.138443 |
| E20251125 | 600604 | 市北高新 | sh.600604 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 0.5217 | -0.430558 | 3.652173913 | 6.260869565 | 2.260869565 | 2.161346 | 3.794739 | 0.178157 |

|-------------|--------------|----------------|----------------|-----------------|-------------------|-----------------------|--------------------|----------------|--------------|---------------|--------------|----------------|----------------------|
| week_id | event_id | stock_code | stock_name | market_code | relation_type | relation_strength | relation_layer | note | buy_date | sell_date | buy_open | sell_close | trade_return_pct |
| W1 | E20251125 | 002792 | 通宇通讯 | sz.002792 | 股权/基金直接投资 | 1 | 直接 | 通过空天基金重仓投资凌空天行 | 2025-12-09 | 2025-12-12 | 32.42 | 29.1 | -10.24059223 |
| W2 | E20251125 | 002792 | 通宇通讯 | sz.002792 | 股权/基金直接投资 | 1 | 直接 | 通过空天基金重仓投资凌空天行 | 2025-12-16 | 2025-12-19 | 35.21 | 32.14 | -8.719113888 |
| W3 | E20251125 | 002792 | 通宇通讯 | sz.002792 | 股权/基金直接投资 | 1 | 直接 | 通过空天基金重仓投资凌空天行 | 2025-12-23 | 2025-12-26 | 35.37 | 42 | 18.7446989 |
| W1 | E20251125 | 688033 | 天宜上佳 | sh.688033 | 核心供应商 | 0.8 | 直接 | 材料/零部件供应链 | 2025-12-09 | 2025-12-12 | 6.86 | 7.29 | 6.268221574 |
| W2 | E20251125 | 688033 | 天宜上佳 | sh.688033 | 核心供应商 | 0.8 | 直接 | 材料/零部件供应链 | 2025-12-16 | 2025-12-19 | 7.33 | 6.93 | -5.457025921 |
| W3 | E20251125 | 688033 | 天宜上佳 | sh.688033 | 核心供应商 | 0.8 | 直接 | 材料/零部件供应链 | 2025-12-23 | 2025-12-26 | 7.06 | 8.24 | 16.71388102 |
| W1 | E20251125 | 003009 | 中天火箭 | sz.003009 | 核心供应商 | 0.8 | 直接 | 火箭/导弹链条供应 | 2025-12-09 | 2025-12-12 | 59.28 | 61.08 | 3.036437247 |
| W2 | E20251125 | 003009 | 中天火箭 | sz.003009 | 核心供应商 | 0.8 | 直接 | 火箭/导弹链条供应 | 2025-12-16 | 2025-12-19 | 63.4 | 62.51 | -1.403785489 |
| W3 | E20251125 | 003009 | 中天火箭 | sz.003009 | 核心供应商 | 0.8 | 直接 | 火箭/导弹链条供应 | 2025-12-23 | 2025-12-26 | 62.5 | 70.83 | 13.328 |
| W1 | E20251125 | 600037 | 歌华有线 | sh.600037 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 2025-12-09 | 2025-12-12 | 7.54 | 7.33 | -2.785145889 |
| W2 | E20251125 | 600037 | 歌华有线 | sh.600037 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 2025-12-16 | 2025-12-19 | 7.31 | 7.34 | 0.410396717 |
| W3 | E20251125 | 600037 | 歌华有线 | sh.600037 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 2025-12-23 | 2025-12-26 | 7.31 | 7.31 | 0 |
| W1 | E20251125 | 600604 | 市北高新 | sh.600604 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 2025-12-09 | 2025-12-12 | 5.85 | 5.47 | -6.495726496 |
| W2 | E20251125 | 600604 | 市北高新 | sh.600604 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 2025-12-16 | 2025-12-19 | 5.47 | 5.48 | 0.182815356 |
| W3 | E20251125 | 600604 | 市北高新 | sh.600604 | 基金间接参股 | 0.45 | 间接 | 间接股权关联 | 2025-12-23 | 2025-12-26 | 5.48 | 5.59 | 2.00729927 |

05_ A股近一年交易数据

06_股票基础信息数据

07_宏观事件数据数据

数据说明

题目最终数据分为几部分

按 `C题-事件驱动型股市投资策略构建.pdf` 的任务要求,核心最终数据分为 **4 部分**:

  • 事件识别与分类数据

  • 事件关联公司数据

  • 事件影响预测数据

  • 投资策略与回测数据

为便于直接使用和后续扩展,当前又整理成 **8 个子目录**:

  • `最终数据/01_事件识别与分类`

  • `最终数据/02_事件关联公司`

  • `最终数据/03_事件影响预测`

  • `最终数据/04_投资策略与回测`

  • `最终数据/05_A股近一年交易数据`

  • `最终数据/06_股票基础信息`

  • `最终数据/07_宏观事件数据`

  • `最终数据/08_获取代码与说明`

`最终数据/01_事件识别与分类`

  • `events.csv`

  • 事件主表

  • 包含事件编号、事件名称、事件日期、事件分类、影响周期、强度等字段

  • 当前事件量已扩充到约 `6615` 条

`最终数据/02_事件关联公司`

  • `event_company_map.csv`

  • 事件与上市公司映射表

  • `relation_stats.csv`

  • 按直接/间接关联聚合后的统计结果

  • 当前映射记录约 `6621` 条

`最终数据/03_事件影响预测`

  • `event_window_summary.csv`

  • 事件窗收益、异常收益、CAR 等统计

  • `price_panel.csv`

  • 题目案例相关股票行情面板

  • 当前事件窗统计约 `6598` 条

`最终数据/04_投资策略与回测`

  • `weekly_trade_returns.csv`

  • 周度个股交易收益

  • `weekly_top3.csv`

  • 每周前 3 只候选股票及建议权重

  • `portfolio_backtest.csv`

  • 组合回测结果

  • `c题事件驱动数据整合.xlsx`

  • 综合整合版 Excel

`最终数据/05_A股近一年交易数据`

  • `daily_kline_batches_index.csv`

  • 近一年日频批次索引

  • `daily_kline_batches/`

  • 近一年 A 股交易数据批次文件

  • 当前已落地约 `1200` 只股票、`282586` 行日频记录

  • 时间范围:`2025-03-05` 至 `2026-03-05`

日频字段包括:

  • `date`

  • `code`

  • `open`

  • `high`

  • `low`

  • `close`

  • `preclose`

  • `volume`

  • `amount`

  • `turn`

  • `pctChg`

  • `peTTM`

  • `pbMRQ`

  • `psTTM`

  • `pcfNcfTTM`

  • `tradestatus`

  • `isST`

`最终数据/06_股票基础信息`

  • `a_share_universe.csv`

  • A 股股票池快照

  • `a_share_universe.parquet`

  • 股票池 Parquet 版本

  • `stock_basic_all.csv`

  • 股票基础信息

  • `stock_industry_all.csv`

  • 股票行业分类

  • `hs300_constituents.csv`

  • 沪深 300 成分股

  • `sz50_constituents.csv`

  • 上证 50 成分股

  • `zz500_constituents.csv`

  • 中证 500 成分股

`最终数据/07_宏观事件数据`

  • `deposit_rate.csv`

  • `loan_rate.csv`

  • `money_supply_month.csv`

  • `money_supply_year.csv`

  • `required_reserve_ratio.csv`

这些表可作为宏观事件、政策环境和市场背景变量使用。

`最终数据/08_获取代码与说明`

  • `build_c_event_dataset.py`

  • 题目案例整合代码

  • `build_expanded_market_dataset.py`

  • 近一年 A 股扩展数据获取代码

  • `augment_events_from_price_anomalies.py`

  • 按当前最终数据格式,从近一年交易面板批量抽取规则化事件并补充到事件主表

  • `README.md`

  • 当前说明文档

推荐主键

  • 股票静态表联结:`code`

  • 交易面板联结:`code + date`

  • 题目事件联结:`event_id + stock_code`

  • 宏观事件联结:`date`

如何重新生成

  • 重新生成题目案例整合结果:

  • `python scripts/build_c_event_dataset.py`

  • 继续扩充近一年 A 股交易数据:

  • `python scripts/build_expanded_market_dataset.py`

若后续需要继续补齐更多股票批次或公司事件表,可直接续跑 `build_expanded_market_dataset.py`。

完整数据获取👇👇👇👇

相关推荐
小超同学你好1 小时前
Transformer 9. Decoder-Encoder 层多头自注意力机制
人工智能·语言模型·transformer
xixixi777771 小时前
最生活化的方式来理解 VR 和 AR
人工智能·安全·ai·大模型·ar·vr
努力变大白1 小时前
智能制造供应链优化系统:从数据挖掘到运筹优化的完整算法解析
人工智能·数据挖掘
YangYang9YangYan1 小时前
2026大专大数据科学专业学数据分析的技术价值分析
大数据·数据挖掘·数据分析
ar01232 小时前
AR视频巡检:智慧运维的新模式
人工智能·ar
智算菩萨2 小时前
Chain-of-Thought Prompting:为什么逐步推理能提升大模型准确率
人工智能·深度学习·机器学习·语言模型·强化学习
Eloudy2 小时前
CHI 开发备忘 12 记 -- CHI spec 12 链路层
人工智能·算法·arch·hpc
AI周红伟2 小时前
周红伟:OpenClaw +GPT-5.4 操控电脑丝滑,原生操控电脑暴击opus4.6
人工智能
xy_cpp2 小时前
和AI一起编程
人工智能