上市公司数字技术风险暴露数据(2010-2024)|《经济研究》同款大模型测算

顶刊最新热点指标! 基于年报 MD&A 文本 + Word2vec + 大模型人工复核,测算数字技术风险暴露双指标,A 股 15 年企业面板,数字风险、公司治理、资本市场实证直接可用。


📊 数据核心速览

  • 数据编号:2177
  • 时间跨度:2010--2024
  • 覆盖范围:全部 A 股上市公司
  • 测算依据:**《经济研究》陆瑶等(2025)** 范式
  • 底层文本:上市公司年报管理层讨论与分析(MD&A)
  • 测算工具:Word2vec 词扩展 + ChatGPT/GLM 标注 + FinBERT 训练
  • 格式:Excel 企业 - 年度面板

🎯 两大核心指标

  1. Digi_Risk_Exposure_raw:原始数字技术风险暴露值
  2. Digi_Risk_Exposure:负值归 0 后标准化风险指标(实证常用)

指标构造逻辑

负面情感概率最大值 − 正面情感概率平均值测算风险暴露程度;负值统一赋值为 0,聚焦企业实质性数字风险敞口。


🧪 数据构建流程(论文可直接复制)

  1. 参照国家数据安全、网络安全政策文件选取基础关键词;
  2. Word2vec 模型语义扩展,扩充风险词库;
  3. 随机抽样经大模型双标注,分歧样本人工复核;
  4. 划分训练 / 验证集,FinBERT 模型情感分类;
  5. 按顶刊公式计算原始指标,并做标准化处理。

📋 数据字段

  • 股票代码
  • 股票简称
  • 中文全称
  • 年份
  • Digi_Risk_Exposure_raw(原始值)
  • Digi_Risk_Exposure(实证可用值)

🔍 6 大顶刊研究方向

  1. 数字技术风险对企业价值、股价崩盘风险影响
  2. 数字化转型过程中的风险敞口与治理效应
  3. 数字风险、信息披露与融资成本、审计定价
  4. 公司治理、内部控制对数字风险的抑制作用
  5. 行业、产权、区域异质性差异分析
  6. 数据安全法规落地的政策冲击 DID 评估

数据简介

数字技术风险暴露变量作为量化企业数字技术应用风险水平的核心指标,是衡量上市公司在数字化转型进程中风险管控能力的关键标尺。在当前数字经济蓬勃发展的时代,企业积极投身数字化转型,但这一过程中也伴随着数据安全、网络安全等各类风险。该变量通过文本挖掘与自然语言处理技术,将企业数字技术风险相关的定性信息转化为可量化的定量指标,有效填补"风险识别---程度度量---影响评估"分析链条中的数据空白,为监管部门优化数字经济监管政策、高校开展数字技术风险研究、投资者评估企业运营风险提供权威可靠的数据支撑。

本数据核心来源为2010---2024年中国A股上市公司年度报告中"管理层讨论与分析(MD&A)"部分的文本信息。数据构建过程严格遵循"文本获取---分词处理---关键词拓展---数据标注---模型训练---指标计算"的标准化流程,具体构造方式如下:

使用数据皮皮侠数据库上市公司年报中的MD&A信息,基于《工业和信息化领域数据安全风险信息报送与共享工作指引(2021)》及《国家网络安全事件应急预案(2017)》选取关键词,并采用Word2vec模型训练各年份所有的MD&A语料后进行词集扩展。再随机抽样10%的数据,使用Openai的ChatGPT和智谱清言 的GLM人工智能模型分别进行标注,使用的提示词为"该论述是否反映了企业面临数字技术风险的暴露?"和"该论述是否反映了企业采取措施对数字技术风险进行了防范?",对于模型标注不一致的样本进行人工复核。随后将其转化为模型训练集:对标注为 "风险暴露" 的文本赋值 - 1(对应负面情感),无关为0,标注为 "风险防范" 的文本赋值 1(对应正面情感),两者不一致的再人工判断。按照 0.6:0.4 的比例划分训练集与验证集,参考既有研究设置模型参数开展预训练至最终模型,获得全部数据的分类结果。最后构建企业数字技术风险暴露指标,Digi_Risk_Exposure_raw为原始指标,Digi_Risk_Exposure为将Digi_Risk_Exposure_raw为负的值按原文方法改为0后的指标。该指标的设计聚焦 "极端风险" 与 "防范能力" 的制衡关系,被定义为 企业年度MD&A信息中"负面文本的负面情感概率最大值" 与 "正面文本的正面情感概率平均值" 之间的差值。

数据指标

|----------|----------|----------------------------|------------------------|
| 股票代码 | 年份 | Digi_Risk_Exposure_raw | Digi_Risk_Exposure |
| 股票简称 | 中文全称 | 更多数据 | |

数据展示

参考文献

1陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响------来自大语言模型的文本分析证据J.经济研究,2025,60(02):73-89.

相关推荐
诸葛务农1 天前
共沸脱水技术及其在光刻胶用PGMEA纯化中的应用(中)
linux·数据库·人工智能
Volunteer Technology1 天前
Flink的 Side Output侧输出和 ProcessFunction
大数据·flink
roman_日积跬步-终至千里1 天前
【SDD】高风险场景下的 SDD 最佳实践:分层风控+分级落地,约束AI编程边界
大数据·人工智能·ai编程
小小高不懂写代码1 天前
Vibe Coding时代的自我鞭策
前端·人工智能
计算机安禾1 天前
【算法分析与设计】第36篇:计算几何基础:凸包问题的分治与扫描线解法
大数据·人工智能·算法·机器学习·剪枝
人员安全定位1 天前
喜报!品铂科技获2025年度电力建设科学技术进步奖
大数据·人工智能·科技
LJianK11 天前
服务器内存过高排查流程
数据库
库拉大叔1 天前
GPT-5.5 新手快速上手与实战指南
网络·人工智能·gpt
AI智图坊1 天前
拒绝模板同质化:拆解自由生图功能,如何通过GPT-Image-2与Nano Banana Pro双模型驱动电商AIGC?
大数据·人工智能·gpt·ai作画·aigc
货拉拉技术1 天前
飞速发展的计算机视觉
人工智能·算法