
导语:2026年(第十四届)"泰迪杯"数据挖掘挑战赛已全面拉开帷幕。本届赛事赛题紧跟人工智能与大数据工业界前沿,涵盖了空间地理信息分析(A题)、大语言模型与智能问答(B题)以及金融量化与知识图谱(C题)。
🏆 赛道一:A题(空间地形分析与路线规划)
🔗 详细方案与完整代码传送门 :点击查看A题深度解析与全套资源
💡 问题背景与核心挑战
A题要求基于高程(DEM)数据,提取特定区域(如秦直道)的地形特征,量化古代选线原则,并结合现代算法重新规划最优路径与设施布局。核心痛点在于海量栅格数据的空间计算 与多目标约束下的路径寻优。
🧠 核心解题思路与算法设计
-
地形特征多维提取(针对问题1):
摒弃单一的坡度计算,我们从DEM数据中提取了 12项核心特征指标,包括基于多种窗口矩阵的坡度/坡向、剖面/平面曲率、地形位置指数(TPI)、地形粗糙度(TRI)以及到分水岭的相对距离等,展现极其深厚的GIS分析功底。
-
规划原则的定量证明(针对问题2):
利用蒙特卡洛随机撒点与真实路线进行对比,定量证明"沿分水岭行走"、"避开水系"、"烽火台通视"等6大古代选线智慧。
-
现代路径与设施重规划(针对问题3、4):
-
路径规划 :我们在代码中集成了 8种寻优算法 (包含传统A算法、Dijkstra,以及启发式的遗传算法、蚁群算法、模拟退火和RRT),只需修改一行配置即可一键切换对比。
-
设施选址:结合 K-means 聚类与可视域最大化算法(Viewshed Analysis),科学布设烽火台与关隘。
-
🏆 赛道二:B题(财务报表智能解析与 NL2SQL 问答系统)
🔗 详细方案与完整代码传送门 :点击查看B题深度解析与全套资源
💡 问题背景与核心挑战
B题属于典型的 LLM Agent 与 RAG(检索增强生成) 落地场景。要求从非结构化的PDF财报中提取数据建库,并能通过自然语言交互(NL2SQL)生成准确的财务查询与图表分析。这要求极高的工程化能力与大模型提示词(Prompt)调优水平。
🧠 核心解题思路与算法设计
-
双引擎 PDF 解析(针对任务一):
采用"规则优先 + LLM兜底"策略。先用
pdfplumber与正则表达式进行毫秒级的表格快速抽取;对于残缺数据,调用大模型进行增强结构化提取。效率与准确率完美兼顾。 -
全链路 NL2SQL 引擎(针对任务二):
构建了
意图分析 → 意图澄清 → SQL生成 → 安全执行 → 数据可视化的自动化管线。支持多轮对话上下文保持,模糊提问时会自动弹出澄清选项。 -
多意图规划与知识库 RAG(针对任务三):
-
采用
sentence-transformers对研报进行向量化编码入库。 -
当遇到如"找出利润前十且同比涨幅最大者"的复合问题时,系统内置的 Agent 算法会将其自动拓扑拆解为多个子任务按顺序执行。
-
提供归因分析(溯源),确保AI回答的每一句话都有据可查。
-
🏆 赛道三:C题(事件驱动型股市投资策略构建)
🔗 详细方案与完整代码传送门 :点击查看C题深度解析与全套资源
💡 问题背景与核心挑战
C题要求打通"事件识别 → 关联挖掘 → 影响量化 → 策略回测"的闭环。传统的事件驱动策略主观性强,本题的核心在于如何用量化模型精准捕获"突发事件"并将其转化为"超额收益"。
🧠 核心解题思路与算法设计
-
特征量化与分类(针对任务一):
构建三级金融事件分类体系(宏观/行业/公司),并引入垂直领域的 FinBERT 预训练语言模型 计算事件的情感得分(F_{sent})及舆情热度对数特征。
-
知识图谱与衰减传导(针对任务二):
突破单一的股票映射,利用
NetworkX构建异质知识图谱。独创性地提出了带有网络衰减惩罚系数 \\lambda 的关联强度量化公式 S(E,C)。精准刻画利好信息从"核心直接受益股"向"边缘间接概念股"的递减传导逻辑。 -
事件研究法与 LightGBM 预测(针对任务三):
采用经典的事件研究法(ESM)结合市场模型剥离大盘波动,计算累计异常收益率(CAR)。将图谱特征与财务因子拼接,输入 LightGBM 机器学习回归模型,对未来股价冲击进行量化预测。
-
带约束的最优化回测(针对任务四):
严格遵守赛题"特定时间窗(12.8-12.26)、单周交易(周二买,周五卖)、限选3只票、10万元起步"的物理约束。以最大化预期 CAR 为目标进行等权资金分配实盘测算。