第六届“大湾区杯”粤港澳金融数学建模竞赛赛题浅析-助攻快速选题

大湾区杯比赛时长一周,题目难度约为国赛0.7,具有较强的地域性、专业性。本文将为大家带来本届竞赛A B两题的相关赛题浅析以便大家可以尽快完成选题。同时也会尽可能地为大家介绍每个题目后续解题可能会遇到的难点以便提前规避、提前准备。

赛题难度 A:B=3:2

选题人数比例A:B=2:3

数据收集难度A:B=2:1

A题:事件驱动型投资分类及套利策略

问题1:事件分类与数学建模

问题简介 :基于A股市值政策监管、公司、突发事件四大类案例,提取事件的"时间分布(发生/持续时间)、影响强度(超额收益/成交量)、影响广度(行业覆盖/板块联动)"数学特征,通过量化方法实现事件的客观分类,解决"定性案例→定量分类"的转化问题。

求解思路

①特征量化:从市场数据中提取时间(如事件持续天数)、强度(如3日超额收益率峰值)、广度(如受影响行业数)三类可计算指标;

②数据预处理:对指标标准化(消除量纲,如Z-score);

③聚类分类:基于量化特征构建聚类模型,验证分类结果与先验案例类型的一致性;

④特征表达:用概率分布(如时间特征用泊松分布)、衰减函数(如强度用指数衰减)刻画事件核心属性。

模型框架

事件分类方法

l无监督:对做标准化后用 PCA 降维,再用聚类(K-means / Gaussian Mixture / HDBSCAN)分群,得到个事件类型(例如:短期高震荡、长期渐进型、强监管冲击、流动性挤兑型)。

l有监督(若有标签):用随机森林 / XGBoost 分类并输出特征重要性与概率(事件落入某类的置信度)。

l分层策略:先依据"是否被动资金暴露 P>阈值"二分,再在两类内做细分(可提高策略差异化)。

改进创新点

·特征创新:引入"事件关联度时序特征"(如政策事件与后续监管事件的时间间隔、影响重叠度),避免仅用单事件静态特征;

·数据融合:加入文本量化特征(如政策文件的"支持性词汇占比"、新闻报道的情绪指数),丰富强度/广度的刻画维度;

·分类优化:采用"半监督聚类"(用部分已知案例类型标注训练,其余无监督聚类),提升分类准确性(尤其针对边界模糊的事件)。

问题2:事件演化的价格波动预测建模

问题简介:针对问题1划分的每类事件,融合事件特征(如政策力度、监管覆盖度)与市场数据(如条件波动率、换手率),构建专属的波动率预测模型,解决"事件类型差异→针对性波动预测"的问题,为后续套利策略提供风险度量依据。

求解思路

① 分类型因子库构建:按事件类型设计差异化核心因子(如政策驱动侧重"政策层级",突发事件侧重"冲击强度");

② 预测模型选择:根据因子线性/非线性特性,选择适配模型;

③ 样本拆分:用2024.09-2025.06数据训练,2025.07-2025.09数据验证;

④ 模型评估:用MAE、RMSE衡量预测误差,筛选最优模型。

模型框架

l传统时序模型:GARCH族(EGARCH、TGARCH,捕捉波动率聚类与杠杆效应,适合线性因子);

l机器学习模型:随机森林(处理非线性因子交互,如"高政策力度+高流动性"的叠加影响)、LSTM(捕捉事件演化的时序关联,如政策持续期内的波动趋势);

l因子融合模型:将事件特征因子嵌入GARCH方差方程(如EGARCH模型中加入事件衰减系数),实现"时序规律+事件特性"的结合。

改进创新点

·动态因子权重:引入注意力机制(如在LSTM中加入事件因子注意力层),让模型自动识别不同阶段的关键因子(如事件初期"冲击强度"重要,后期"市场预期"重要);

·多尺度预测:构建"短期(1日)+中期(5日)"双尺度预测模型,适配不同套利周期(如日内交易用短期波动,波段交易用中期波动);

·极端波动捕捉:加入极值理论(EVT)修正预测结果,提升黑天鹅事件(如寒武纪指数调整暴跌)的波动率预测准确性。

问题3:动态套利策略设计

问题简介:基于问题2的波动率预测结果,构建带交易成本(c=0.05%)与持仓限制的均值-方差优化模型,以最大化夏普比率为目标,结合CVaR/ES控制尾部风险,设计可动态调整的套利策略,解决"风险-收益平衡+动态适配事件演化"的实战问题。

求解思路

①核心变量定义:确定组合预期收益率(结合事件收益均值与波动预测)、协方差矩阵(历史数据计算)、交易成本(调仓时的权重变化量计算);

②目标函数与约束构建:以夏普比率最大化为目标,加入单标的/行业持仓限制;

③风险控制:用蒙特卡洛模拟计算CVaR,设定动态止损阈值;

④策略回测:用2024.09-2025.09数据回测,评估收益(年化收益率、夏普比率)与风险(最大回撤、CVaR)指标。

核心模型

·优化模型:带约束的均值-方差模型(求解组合最优权重)、目标规划模型(当收益与风险冲突时,优先满足核心目标如夏普比率≥1.5);

给定预测期望收益和协方差(来自事件模型与历史估计)的条件下,最大化净夏普或净信息比,等价解可写为最小化

风险度量模型:蒙特卡洛模拟(生成10000+收益场景,计算95%置信水平CVaR)、ES(预期短缺,比CVaR更灵敏的尾部风险指标);

·回测与调整模型:滚动窗口回测(每周重新求解优化模型,实现动态调仓)、绩效归因模型(Brinson模型,分析收益来源是资产选择还是时机把握)。

B题:稳定币的综合评价与发展分析

问题1:USDT与USDC的应用场景及市场竞争力定量对比

问题简介:基于监管合规、透明度、储备安全性等多维度,构建量化评价模型,对比USDT与USDC的竞争力、潜在风险及发展潜力,解决"多维度定性特征→定量对比+风险-潜力评估"的问题,为稳定币选择提供依据。

求解思路

①量化指标体系构建:将"监管合规"转化为"牌照数量","透明度"转化为"披露频率"等可计算指标;

②多属性决策:用TOPSIS计算贴近度,排序竞争力;

③风险-潜力分析:构建风险得分(监管+储备风险加权)与潜力回归模型(场景广度→增速预测)。

核心模型

·权重模型:层次分析法(AHP,处理主观权重,适合多维度决策)、熵权法(客观权重,基于指标数据离散度,可与AHP组合成组合权重);

·对比模型:TOPSIS法(易实现,适合两方案对比)、灰色关联分析(处理数据量少的情况,如部分储备数据不完整);

·风险-潜力模型:线性回归(场景广度→市场份额增速)、风险矩阵(监管风险×储备风险,划分高/中/低风险等级)。

问题2:稳定币储备资产配置方案设计

问题简介:针对锚定美元/港币的法币抵押型稳定币,在现金、短期国债等多类资产中,平衡流动性风险(应对赎回)与收益性(提升利润),设计最优配置方案,解决"多目标冲突(风险-收益)+ 约束满足(流动性覆盖)"的资产配置问题。

求解思路

① 资产指标量化:将"流动性风险"转化为"变现时间","收益性"转化为"年化收益率";

② 多目标函数构建:最小化流动性风险(变现时间加权)、最大化预期收益(收益率加权);

③ 约束设定:高流动性资产占比≥20%(应对突发赎回)、高风险资产(比特币)占比≤10%;

④ 求解与方案筛选:用加权求和法将多目标转化为单目标,选择不同风险偏好下的最优方案(保守/平衡/激进)。

核心模型

·多目标优化模型:加权求和法(适合学生入门,权重反映风险偏好)、NSGA-II(非支配排序遗传算法,生成 Pareto最优解集,提供多方案选择);

问题3:稳定币需求影响因素与增长预测

问题简介:筛选经济(跨境贸易)、政策(监管牌照)、市场(加密货币规模)等因素,构建模型分析稳定币需求影响机制,预测未来5年美元与非美元(欧元/日元/港币)稳定币的增长趋势及市场份额变化,解决"影响因素识别→分类型预测→市场格局分析"的问题。

求解思路

①影响因素筛选:用相关性分析(Pearson)、逐步回归剔除冗余因子(如排除与需求相关性<0.3的指标);

②分类型预测:美元稳定币(有趋势性,用ARIMA)、非美元稳定币(政策影响大,用多元线性回归);

③市场份额分析:基于两类稳定币的预测增速,计算未来5年各自占比,评估非美元对美元的挤压效应。

核心模型

·因子筛选模型:逐步回归(线性因子筛选)、随机森林特征重要性(非线性因子筛选,如政策与市场的交互影响);

·预测模型:ARIMA/SARIMA(美元稳定币,捕捉趋势与季节性)、LSTM(非美元稳定币,捕捉政策突变的时序影响)、面板数据模型(跨国数据,分析不同国家非美元稳定币的需求差异);

面板数据回归(若有国家级历史数据):对每国每季度稳定币发行量(或牌照申请数)做固定效应或随机效应模型:

市场份额模型:Logistic增长模型(单类稳定币增速饱和趋势)、马尔可夫链(预测市场份额状态转移,如美元份额从99%→85%的概率)。

问题4:稳定币普及与美元国际地位及货币主权的关系

问题简介:选取本币流通比例、外币存款比例等指标,量化稳定币普及度与美元国际地位、弱经济国家货币主权的关系,识别未来可能实质放弃本币主权的国家,解决"变量量化→关系建模→风险国家识别"的问题,为政策制定提供参考。

求解思路

①指标量化:稳定币普及度(稳定币交易额/本币交易额)、货币主权(本币流通比例×0.5 + 资本管制指数×0.5);

②关系建模:用面板回归分析稳定币普及对货币主权的影响(是否显著负向);

③风险国家识别:设定阈值(如本币流通比例<50%且稳定币普及度>30%),结合预测的稳定币普及度,筛选高风险国家。

核心模型

·关系模型:面板数据回归(固定效应模型,控制国家个体差异,如阿根廷与土耳其的基础经济差异)、中介效应模型(分析"稳定币普及→外币存款增加→货币主权削弱"的传导路径);

·风险识别模型:逻辑回归(因变量为"是否放弃主权",自变量为稳定币普及度、通胀率等)、随机森林分类(处理非线性关系,如高通胀+高稳定币普及的叠加风险);

·预测模型:ARIMA预测各国未来5年货币主权指标,结合稳定币普及度预测,动态更新风险名单。

问题5:稳定币在粤港澳大湾区、"一带一路"及RWA中的作用简报

问题简介:结合前4题研究结果,分析稳定币在粤港澳大湾区跨境结算、"一带一路"贸易储值、RWA(实物资产代币化)中的作用,提出风险建议,形成1000字左右简报,解决"场景价值挖掘→定量支撑→政策建议"的实战问题。

求解思路

稳定币的综合评价与发展分析

摘要

本研究针对五个主要问题,采用了多种数学建模方法,分析稳定币市场的竞争力、风险、发展趋势以及稳定币对全球货币体系的影响。

在问题一中,针对美元锚定稳定币(USDT)与非美元锚定稳定币(欧元、日元、港元锚定稳定币)市场份额变化的预测,采用了面板计数模型Bass扩散模型和Lotka-Volterra竞争模型。通过这几种模型,我们分析了政策、宏观经济因素及市场需求对稳定币市场份额的影响,并为稳定币的未来发展趋势提供了量化预测。

问题二着重于法币抵押型稳定币的储备资产配置优化。通过设计一个优化模型,结合线性规划和蒙特卡罗模拟方法,本文提出了一种平衡流动性和收益性的储备资产配置方案,旨在最大化资产收益并最小化赎回流动性风险。模型的敏感性分析进一步验证了不同市场条件下的配置稳定性。

在问题三中,通过构建稳定币普及模型、美元国际地位模型以及回归分析,预测了美元挂钩与非美元货币挂钩稳定币的市场增长趋势。系统动力学模型模拟了市场需求、政策调控和技术进步等因素的反馈效应,回归分析则量化了这些因素对市场份额的影响,揭示了非美元货币稳定币对美元市场份额的潜在影响。

问题四的研究分析了稳定币普及与美元国际地位之间的关系。通过多元回归分析和系统动力学模型,评估了稳定币对部分经济基础较弱国家货币主权的潜在影响。模型表明,稳定币尤其是美元挂钩稳定币的普及,可能导致某些国家逐步失去对本国货币的控制,从而削弱其货币主权。

问题五探讨了稳定币在粤港澳大湾区及"一带一路"区域经济合作中的作用,并提出了稳定币应用和监管的政策建议。通过对区域内跨境支付、贸易结算及资产代币化等领域的需求分析,为政策制定者提供了关于稳定币监管与应用的建议,推动了区域金融合作的深入。

关键词:面板计数、Bass扩散、Lotka-Volterra、线性规划、蒙特卡罗模拟、回归分析、系统动力学

目录

稳定币的综合评价与发展分析

摘要

一、问题重述

1.1问题背景

1.2要解决的问题

二、问题分析

2.1任务一的分析

2.2任务二的分析

2.3任务三的分析

2.4任务四的分析

2.5任务五的分析

三、问题假设

四、模型原理

五、模型建立与求解

5.0数据收集与分析

5.1问题一建模与求解

5.2问题二建模与求解

5.3问题三建模与求解

5.4问题四建模与求解

六、模型评价与推广

6.1模型的评价

6.1.1模型优点

6.1.2模型缺点

6.2模型推广

附录【自行删减】

5.0数据收集与分析

|------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-------|
| 变量名称 | 数据来源 | 描述 | 频次 |
| Tether(USDT)市场数据 | CoinGecko - Tether Market Data [link](https://www.coingecko.com/en/coins/tether) | 实时市值、交易量、流通量等数据 | 日度/实时 |
| USDC 市场数据 | CoinGecko - USDC Market Data [link](https://www.coingecko.com/en/coins/usdc) | USDC 市场市值、交易量、流通量等实时数据 | 日度/实时 |
| 短期国债收益率 | FRED - Short-Term Treasury Bills Yield [link](https://fred.stlouisfed.org/categories/116) | 3/6个月美国短期国债收益率历史与现值 | 月度/季度 |
| 长期国债收益率 | FRED - Long-Term Treasury Bonds Yield [link](https://fred.stlouisfed.org/tags/series?t=bonds%3Byield) | 一年以上美国长期国债收益率历史与现值 | 月度/季度 |
| 比特币历史数据 | CoinGecko - Bitcoin Historical Data [link](https://www.coingecko.com/en/coins/bitcoin) | 实时与历史比特币价格和市值数据 | 日度/实时 |
| 黄金历史数据 | CoinGecko - Gold Historical Data [link](https://www.coingecko.com/en/coins/gold) | 实时与历史黄金价格与市值追踪 | 日度/实时 |
| 商业票据收益率 | Bloomberg or Refinitiv - Commercial Paper Yield [link](https://www.bloomberg.com/markets/rates-bonds/government-bonds) | 商业票据收益率,用于稳定币储备模型分析 | 月度/季度 |
| 跨境支付市场规模 | BIS - Cross-Border Payment Market Size [link](https://www.bis.org/cpmi/cross_border.htm) | 跨境支付市场规模与稳定币采用趋势 | 年度/季度 |
| 通货膨胀率 | IMF - Inflation Rate Global Database [link](https://www.imf.org/en/Topics/Inflation) | 全球及国家层面通胀率数据 | 年度 |
| 外汇储备规模 | World Bank - Foreign Exchange Reserves [link](https://data.worldbank.org/indicator/FP.CPI.TOTL.ZG) | 全球与国家外汇储备规模数据 | 年度/季度 |
| 资本管制指数 | OECD - Capital Control Index [link](https://www.oecd.org/economic-outlook/) | 跨境资本流动限制程度指数 | 年度 |

5.1问题一建模与求解

5.1.1建模目标

问题一核心目标是对美元锚定稳定币(USDT)与非美元锚定稳定币(欧元、日元、港元锚定的稳定币)在未来五年的数量、流通量增长趋势以及市场份额的变化进行预测,并分析各类因素对市场份额的影响。具体而言,模型旨在通过对美元与非美元锚定稳定币市场份额演化的量化分析,揭示不同监管政策、宏观经济因素以及市场需求驱动下,各种稳定币的发展趋势。

该模型的预期结果包括:

(1)未来五年内各类稳定币的数量及流通量的预测。

(2)各类政策变化、市场环境变动对美元与非美元稳定币市场份额的影响。

(3)通过对市场份额的动态分析,提出相应的政策建议,为稳定币相关行业的发展提供理论支持。

为了实现以上目标,本研究采用以下两种建模方法进行分析:

一、面板计数模型(Poisson回归模型)

面板计数模型适用于对事件发生次数的分析。在本问题中,我们需要预测不同稳定币类型(美元锚定与非美元锚定稳定币)的市场份额变动。面板数据结构使得我们能够同时考虑跨时间和跨地区的因素变化,以便对每种类型稳定币的增长进行动态预测。

二、扩散模型(Logistic模型)

扩散模型广泛应用于预测新技术或新产品的市场渗透度。稳定币作为一种新型的支付工具,具有类似于新技术扩散的特性。使用Logistic模型可以帮助我们模拟不同稳定币市场渗透的S型曲线,通过拟合实际数据,预测不同稳定币在未来的渗透进程。

三、LotkaVolterra竞争模型

对于多个稳定币之间的竞争,我们可以采用LotkaVolterra模型来描述稳定币之间的相互影响。此模型能够精确描述两个或多个锚定货币的稳定币之间的竞争与共生关系。通过引入政策调控、宏观经济变动等因素,我们可以进一步调整模型参数,模拟稳定币市场份额的相互竞争。

5.1.2数据预处理

在进行建模之前,数据预处理是确保模型精确性与可靠性的关键步骤。数据预处理主要包括以下几个方面:

1.数据收集:

收集与美元锚定及非美元锚定稳定币相关的市场数据,包括稳定币的流通量、市值、交易频次、DeFi生态应用情况。

宏观经济数据:通胀率、利率、资本管制、外汇储备等。

政策法规:包括各国或地区稳定币相关政策的变化时间点(美国、欧盟及香港的监管政策)。

2.数据清洗:

缺失值处理:对于缺失的数据采用插补方法进行填补。常用的插补方法包括均值插补、线性插补等。

异常值检测与修正:通过箱线图或ZScore方法检测数据中的异常值,并根据实际情况进行修正或剔除。

3.数据标准化:

为了消除不同数据维度和量纲的影响,对各项数据进行标准化处理。常用的标准化方法为ZScore标准化或MinMax标准化,使得所有数据的量纲统一,便于后续的建模分析。

4.时间对齐与频率调整:

对数据进行时间对齐,确保不同来源的数据具有相同的时间频率(例如,按季度或年),并对不同时间段的数据进行加权调整,确保每个时间点的数据具有可比性。

5.1.3模型建立

最根据问题的需求,以下具体介绍各个模型的建立求解思路:

1.面板计数模型:

面板计数模型采用了广义线性回归的框架,适用于时间序列和截面数据结合的情况。我们假设稳定币的数量随时间增长,且受到政策变化、市场需求、外部经济因素等的影响。该模型的基本形式为:

其中,表示第种稳定币在时间的数量或市场份额,为影响市场份额的各种因素(政策、利率、通胀率),为回归系数,为误差项。

2.扩散模型:

采用Bass扩散模型对稳定币市场的渗透度进行模拟。Bass模型的基本公式为:

其中,是时间时刻的市场渗透度,是市场的最终饱和度,和分别是创新传播参数和模仿传播参数,是初始渗透度。

3.LotkaVolterra竞争模型:

通过建立竞争模型来模拟不同稳定币间的市场份额竞争。该模型的基本公式为:

其中,和分别为美元锚定与非美元锚定稳定币的市场份额,、、、为市场增长、市场竞争等参数,和为竞争系数,表示稳定币间的替代效应。

5.4问题四建模与求解

5.4.1建模目标

本节的目标是通过建立数学模型分析稳定币的普及程度与美元国际地位之间的关系,并评估哪些经济基础较弱的国家可能会在未来实质上放弃本币货币主权。随着稳定币,特别是与美元挂钩的稳定币的普及,某些国家可能会面临货币主权丧失的风险。我们通过构建合适的模型,量化稳定币的普及对本币货币流通、外币存款比例、资本管制等经济指标的影响,从而评估哪些国家的货币主权可能逐步消失,并进一步分析美元在全球经济中的主导地位。

5.4.2特征选择与数据预处理

在进行模型构建之前,数据预处理是确保分析结果有效性的关键步骤。为此,我们进行了以下几项工作:

数据收集:我们收集了全球稳定币市场的相关数据,包括美元挂钩稳定币(USDT、USDC)与其他非美元货币挂钩稳定币的市场份额、全球金融市场的美元使用情况、跨境支付交易量等数据。数据清洗与填补:对原始数据进行清洗,剔除重复值、缺失值,确保数据的完整性和一致性。对于少量缺失数据,采用插值法进行填补,确保数据完整性不影响模型的构建。

数据标准化:为了消除不同变量之间量纲的差异,我们对数据进行了标准化处理。所有经济指标和金融数据均被转化为相对值,确保其在回归模型中具有可比性。

变量选择:根据模型的需要,我们选取了以下几个关键变量进行分析:

本币流通比例():反映本国货币在国内市场中的流通程度。

外币存款比例():衡量外币在居民和企业存款中的占比。

资本管制指数():反映国家对资本流动的管制力度,较低的指数表示资本流动较为自由。

稳定币普及程度():衡量稳定币在市场中的应用范围,特别是美元挂钩稳定币的普及。

美元国际地位():衡量美元在全球支付、储值、结算等领域的主导地位。

5.4.3模型构建

1.稳定币普及模型

在模型构建中,稳定币的普及程度是我们关注的核心变量。假设稳定币的普及程度受到以下几个因素的影响:本币流通比例、外币存款比例、资本管制以及稳定币的监管政策。我们将这些因素综合为一个多元回归模型:

其中,为常数项,为回归系数,反映不同因素对稳定币普及程度的影响,为误差项。

解释:

本币流通比例:本币流通比例较低的国家,居民和企业可能倾向于转向更加稳定的货币工具,如稳定币。

外币存款比例:外币存款比例较高表明国家对于外币依赖较强,稳定币作为美元的数字化形式,可能成为替代工具。

资本管制指数:资本管制较松散的国家,资金流动更加自由,稳定币成为一种绕过资本管制的工具。

稳定币的监管政策:监管政策越宽松,稳定币普及的潜力越大。

2.美元国际地位模型

美元的国际地位主要受到稳定币普及程度、全球贸易中美元使用比例和国际金融交易中美元使用比例的影响。因此,我们构建以下回归模型来量化美元的国际地位:

其中,表示全球贸易中美元的使用比例,表示全球金融交易中美元的使用比例,为常数项,为回归系数,为误差项。

解释:

稳定币普及程度:稳定币普及程度与美元在全球市场中的地位密切相关,稳定币普及度提高,美元作为全球支付工具的地位将进一步巩固。

全球贸易中美元使用比例:如果更多国家采用美元进行贸易结算,美元在全球经济中的主导地位会得到加强。

全球金融交易中美元使用比例:美元在全球金融市场中作为结算货币的使用程度,是衡量美元国际地位的关键因素。

3.货币主权丧失模型

随着稳定币的普及和美元在全球金融体系中地位的提升,某些国家可能会失去对本国货币的控制。我们通过以下模型来量化货币主权丧失的程度:

其中,代表货币主权丧失的程度,为回归系数,为误差项。

解释:

本币流通比例和外币存款比例:这两个因素的增加表明本国居民和企业逐渐倾向于使用外币,进而削弱了本国货币的使用和政府对货币的控制。

稳定币普及程度:当稳定币的普及程度较高时,尤其是美元挂钩稳定币,可能会导致本国货币逐渐被边缘化,政府失去对本国货币的调控能力。

资本管制指数:资本流动越自由,本国货币的控制越弱,稳定币的使用可能会增强这种自由流动。

5.4.4结果分析

通过回归分析和系统动力学模型的计算,我们得出了以下几个主要结果:

稳定币普及程度的影响:稳定币的普及程度显著影响本币流通比例和外币存款比例。较低的本币流通比例和较高的外币存款比例通常意味着稳定币的需求较大,尤其是在经济不稳定的国家。

美元国际地位的提升:随着稳定币普及程度的提高,美元在全球支付、贸易结算和储值工具中的使用比例增加,进一步加强了美元的国际地位。

货币主权的丧失:某些经济基础薄弱、资本流动自由度较高的国家,可能会在稳定币的普及下逐步失去对本国货币的控制,最终导致货币主权的丧失。

为便于理解,我们通过图表形式展示了模型结果:

稳定币普及与货币主权丧失关系图:展示了不同国家本币流通比例与外币存款比例变化对稳定币普及的影响。

美元国际地位趋势图:展示了稳定币普及程度与美元国际地位之间的相关性。

摘要

本研究围绕中国A股市场事件驱动型投资的量化分析展开,旨在通过对政策、监管、公司行为与突发事件等多种市场事件的建模与数据分析,构建一套系统的事件驱动投资策略模型。在过去一年(2024年9月至2025年9月)内,A股市场受多重政策与行业变化影响,事件型交易特征显著,因此本课题对事件影响、收益预测与资产配置进行了系统建模与实证验证。

问题一中,首先对不同类型事件进行了定性分类与量化处理。研究通过提取事件的时间、类别、方向与强度等特征,构建了事件影响的数学描述模型。利用指数衰减与幂律混合核函数对事件的时序影响进行建模,并结合股票历史价格数据分析其在短期内对超额收益的影响。结果显示,不同事件类型对市场反应具有显著差异,其中政策与行业监管类事件的市场驱动力最强,对情绪与资金流向影响明显。

问题二中,基于问题一的事件特征与市场响应结果,建立了事件收益预测模型。研究采用线性回归、岭回归、随机森林、Gradient Boosting / XGBoost / LightGBM等机器学习方法,以事件强度、行业背景、市场波动率等为输入特征,对未来短期累计收益进行预测。通过时间序列切分与样本外验证,模型的拟合优度(R²)与信息系数(IC)均表现良好,岭回归与随机森林的预测精度最高,表明事件特征对未来收益具有较高解释力。可视化结果显示模型预测值与实际收益呈正相关,验证了事件信号的可预测性。

问题三 中,研究将预测结果转化为投资权重,构建了事件驱动投资组合优化模型。该模型以马科维茨均值-方差理论为基础,并引入交易成本与换手惩罚项,形成带约束的均值-方差最优化问题。模型以近端梯度法(Proximal Gradient / FISTA)求解,在动态风险协方差与成本约束下实现最优权重分配。通过对实际市场数据的模拟回测,组合年化收益率达到8%至12%,夏普比约为0.9至1.1,最大回撤控制在10%以内,表明模型在风险控制与收益平衡方面具有良好表现。策略的净值曲线平稳上升,收益分布呈轻度右偏,显示出稳健的事件驱动特征。

本研究实现了"事件信号生成---收益预测---组合优化"的量化闭环。事件驱动型投资策略在政策与宏观预期明确的环境下尤为有效,具有显著的风险调整后收益优势。模型的稳定性验证了事件信号在A股市场中的实际可操作性。

关键词: 事件驱动投资;A股市场;量化模型均值-方差优化;机器学习;近端梯度算法;风险控制;交易成本;政策冲击金融数学建模

目录

摘要

一、赛题背景深度分析

二、问题重述

三、问题分析

3.1.问题本质与核心挑战

3.2.问题一深度分析:事件分类与数学建模

3.2.1事件特征的数学化表达

3.2.2分类方法选择

3.3.问题二深度分析:价格波动预测建模

3.3.1多因子模型架构

3.3.2预测模型技术路线

3.3.3模型验证与调优

3.4.问题三深度分析:套利策略与风险控制

3.4.1均值-方差优化框架

3.4.2尾部风险控制

3.4.3止损机制设计

四、模型假设

五、模型原理

5.1非齐次泊松过程(NHPP)

5.2Hawkes过程(自激过程)

5.3线性回归(OLS)

5.4岭回归(L2正则)

5.5随机森林回归(非线性基线)

5.6事件驱动多资产最优化组合模型(Event-DrivenPortfolio Optimization Model)

5.7近端梯度法(Proximal Gradient Method / FISTA 加速)

六、问题一模型建立与求解:事件分类与数学特征建模

6.1数据清洗、整合

6.2四类事件的量化分析方法

(1)政策驱动类(Policy)

(2)行业监管类(Regulation)

(3)公司事件类(Corporate)

(4)突发事件类(Exogenous)

6.3模型建立

6.3.1参数设定

6.3.2事件特征工程

6.3.3冲击--衰减核(Impact--Decay Kernel)与参数估计

6.3.4事件窗标签(供评估/训练/回测)

6.3.5事件到达过程:非齐次泊松(NHPP)、Hawkes(自激)过程

1非齐次泊松(NHPP)

2Hawkes(自激)过程

6.3.6模型评价与诊断

伪代码

6.4模型求解

1)市场背景与数据面

2)事件特征与强度

3)衰减核参数与类型对比

4)单事件拟合质量与时间结构

5)事件窗标签(收益与超额)

小结

七、问题二模型建立与求解: 事件收益预测结果分析

7.1参数说明

7.2特征工程

1直接特征(事件层)

2标准化(仅在训练集)

7.3时间防泄露切分与交叉验证

7.4基线预测模型

1线性回归(OLS)

2岭回归(L2正则)

3随机森林回归(非线性基线)

4GradientBoosting / XGBoost / LightGBM

7.5信号生成与事件级回测

1方向与仓位

2 Top-K选择

3交易成本与成本后收益

4组合累计收益(事件序列)

7.6诊断与稳健性

7.5端到端流程伪代码

7.6模型求解与可视化分析

1.结果分析

2.特征重要性与解释性

3.可视化分析

事件收益曲线与策略表现

稳健性与诊断结果

结果总结

八、问题三模型建立与求解: 最优化组合模型分析

8.1参数说明

8.2由"事件预测"到"标的期望收益"的映射

1事件强度到逐日"期望超额收益冲击"

2事件到标的聚合(当日alpha 预期)

8.3组合优化模型构建

8.4CVaR 风险替代

8.5Kelly/半 Kelly 头寸缩放

8.5执行模型与滑点(Almgren--Chriss )

8.6风险与止盈止损

4.Kelly/降杠杆

8.7模型求解与结果分析

8.7.1关键超参数

8.7.2绩效指标分析

8.7.3可视化分析

1.净值曲线

2.日收益分布

正态性与厚尾

成本影响

4.杠杆与换手

  1. Alpha热力/权重热图

6.归因与分层

7.稳健性与灵敏度

九、模型优缺点与模型推广

9.1.模型优缺点

9.2模型推广

6.1数据清洗、整合

数据范围2024 年 9 月至 2025 年 10 月的日频沪深A 股全量行情 作为对象,我们需要进行数据清洗---数据整合---可视化的完整流程设计。

清洗阶段围绕"字段统一、类型正确、异常剔除、稳健化处理、交易日对齐"展开。首先应统一各月 CSV 的字段命名与数据类型,将常见中文列名(如"日期/交易日期、代码/证券代码、开盘/最高/最低/收盘、成交量/成交额")映射为统一的小写英文字段time, code, open, high, low, close, volume, amount,其中time 强制解析为日期或日期时间,code 统一为字符串并保留后缀(如.SH/.SZ),数值列统一为浮点。

为了避免后续聚合出错,去除关键列缺失的记录,尤其是close 缺失的观测。随后进行基本合理性校验,例如剔除非正价格(open/high/low/close <= 0)与区间不一致的行(low ≤ open/close ≤ high 不成立),并对成交量、成交额的负值或极端异常做保守处理(将负值视为缺失并丢弃该行;对出现异常的大额"脏点",在无权威修正信息时建议剔除)。

完成基础过滤后,对同一股票按时间排序并计算日收益率ret = close.pct_change();考虑到A 股存在涨跌停、停复牌、单日大幅跳空等现象,直接使用原始 ret 可能导致后续拟合不稳定,建议在全市场维度对ret 做轻度winsorize(如截取 1% 与 99% 分位),得到稳健收益 ret_clip。这种轻量稳健化既能缓和极端值对参数估计的冲击,又不至于过度平滑真实波动结构。对存在因子或衍生指标(例如成交额对数、流动性代理等),此时一并计算并在明细表中保留,以便后续筛股与分层。

清洗的最后一步是构建"交易日索引"。由于事件研究与衰减核拟合需使用"交易日步长"而非自然日,建议从清洗后的明细生成去重且有序的交易日日历,作为统一的对齐轴。节假日与周末自然日将被自动跳过,从而避免窗口内"空档日"对累计收益或核拟合带来的偏差。

整合阶段的目标是把多月数据拼接成一张结构化、可高效重用的全样本。将所有存在的月度CSV 读入、按上述清洗规则处理后纵向合并;然后进行全样本层面的复核与统计,包括股票覆盖数、时间覆盖区间、每股有效交易日分布、缺失收益比例、全市场收益分布与尾部比例等。根据数据质量报告,记录清洗前总行数、各类规则剔除的行数、收益winsorize 的阈值与影响比例、极端价格/量额的行数与股票数覆盖等。

在明细表层面,保留以下字段:time, code, open, high, low, close, volume, amount, ret, ret_clip。这些是后续横截面聚合、事件窗计算与权重构建的基本要素。为了降低后续重复计算的成本,可以同时输出若干常用的按日聚合数据,包括"全市场等权日收益""成交额加权日收益""行业或板块分组的日收益",并将其与交易日索引一并缓存。

6.2四类事件的量化分析方法

在问题一中,我们要将题目中提供的 四类事件(政策驱动、行业监管、公司事件、突发事件) 从定性描述转化为可量化的结构化数据,并设计可计算的指标体系,使事件能被统一纳入模型分析框架。以下内容详细说明了每一类事件如何量化、如何构造指标、以及如何从文字信息生成表格化数据。

所有事件的量化表格遵循统一的数据结构,每条事件是一行,字段如下:

|---------------|----------|-------|------------------------------------------------|
| 字段名 | 含义 | 类型 | 说明 |
| event_id | 事件编号 | str | 自定义唯一标识,如 E_POLICY_001 |
| event_time | 事件日期 | date | 选取最接近真实影响的交易日(或公告日) |
| event_type | 事件类别 | str | 取值:policy / regulation / corporate / exogenous |
| dir | 方向 | int | 利多 = +1,利空 = -1,中性 = 0 |
| codes | 受影响标的 | str | 以分号分隔的股票代码列表 |
| sentiment | 市场情感 | float | 来源于文本正负倾向评分或人工评估([-1,1]) |
| source_cred | 信息可信度 | float | 按来源(官方公告 > 主流媒体 > 传闻)赋 0~1 |
| expected_move | 市场预期方向幅度 | float | 单位为日收益的预期(0.005 ≈ +0.5%) |
| note | 描述摘要 | str | 对事件原文的简述 |
| breadth | 广度指标 | float | 涉及股票数量或成交额总和(后期计算) |
| surprise | 惊奇度指标 | float | 事件日超额收益绝对偏差(后期计算) |
| imp | 综合强度 | float | 情感、惊奇度、可信度、广度加权(后期计算) |

在原始表格阶段,前 9 列由人工或自然语言分析提取;后三列通过数据模型计算得出。

下面针对四类事件进行量化逻辑与特征设计

(1)政策驱动类(Policy)

特征来源:宏观政策、产业扶持、会议精神等;通常带来预期改善与情绪共振。

量化要点:

·方向 (dir):依据政策导向。扶持/利好设 +1,限制/收紧设 -1;

·情感 (sentiment):从媒体报道和舆情语料中提取正负倾向。若原文为"支持""鼓励""突破",则 > 0.5;

·可信度 (source_cred):中央/部委文件 = 1.0,地方政府/协会通知 ≈ 0.8,媒体预测 ≈ 0.6;

·预期幅度 (expected_move):依据历史同类政策的短期涨幅均值设定,如 0.004~0.008;

·受影响股票 (codes):选取政策指向行业中的龙头与 ETF;

·后期量化:广度以行业内标的成交额总和度量;惊奇度为事件日行业平均超额收益。

在得到表格后,所有事件按统一的数理框架计算指标:

惊奇度(Surprise)

广度(Breadth)

强度(Impact Score)

冲击--衰减核拟合

通过这些公式,每个事件的冲击幅度(β₀)与持续性(τ₁, γ, w₁)可定量化,最终形成表格化、可回归、可预测的"事件-市场反应"数据集。

6.3模型建立

6.3.1 参数设定

事件集合 。每个事件 的核心字段:

o:首次披露/生效日;:受影响证券集合(股票/ETF);

o;

o(利空/中性/利多);(文本/舆情情感);

o(信息源可信度);(一致预期的日度幅度,缺省视为0)。

·:标的 的日收益;:市场基准收益(等权或成交额加权)。

·事件窗 ,常用 交易日。

事件分类体系(标签体系)四大一级类(可扩展二级):

·先验半衰期(用于冲击核初始化):

(单位:交易日;可用数据自适应更新)

6.3.2事件特征工程

事件特征工程包含强度、广度、惊奇度、可信度、方向

1 广度(Breadth)

以事件日成交额或覆盖面衡量:

2 惊奇度(Surprise)

超额收益偏离预期 衡量:

2025第六届大湾区杯粤港澳金融数学建模,A题全套+双代码+word lunwen的无水印已更新.rar

2025第六届大湾区杯粤港澳金融数学建模,B题全套+双代码+word lunwen的无水印已更新.rar

相关推荐
极客数模1 天前
2025年(第六届)“大湾区杯”粤港澳金融数学建模竞赛准备!严格遵循要求,拿下大奖!
大数据·python·数学建模·金融·分类·图论·boosting
运筹码仓1 天前
01 数学建模中M的取值影响及分析
数学建模
川川菜鸟1 天前
2025国赛获奖名单和优秀论文
数学建模
NewsMash1 天前
金泽通 打造数字金融与商业融合新模式
金融
necessary6531 天前
从工行“余额归零”事件看CAP定理:当金融系统在一致性与可用性之间做出选择
分布式·金融·wpf·可用性测试
俊俊谢2 天前
【第一章】金融数据的获取——金融量化学习入门笔记
笔记·python·学习·金融·量化·akshare
Cathy Bryant2 天前
智能模型对齐(一致性)alignment
笔记·神经网络·机器学习·数学建模·transformer
极客数模2 天前
【浅析赛题,一等奖水平】思路模型数据相关资料!2025 年“大湾区杯”粤港澳金融数学建模竞赛B 题 稳定币的综合评价与发展分析~
大数据·算法·数学建模·金融·数据挖掘·图论·1024程序员节
热心网友俣先生2 天前
2025年大湾区杯粤港澳金融数模竞赛B题完整数据集分享
金融·区块链