上市公司数字技术风险暴露数据(2010-2024)|《经济研究》同款大模型测算

顶刊最新热点指标! 基于年报 MD&A 文本 + Word2vec + 大模型人工复核,测算数字技术风险暴露双指标,A 股 15 年企业面板,数字风险、公司治理、资本市场实证直接可用。


📊 数据核心速览

  • 数据编号:2177
  • 时间跨度:2010--2024
  • 覆盖范围:全部 A 股上市公司
  • 测算依据:**《经济研究》陆瑶等(2025)** 范式
  • 底层文本:上市公司年报管理层讨论与分析(MD&A)
  • 测算工具:Word2vec 词扩展 + ChatGPT/GLM 标注 + FinBERT 训练
  • 格式:Excel 企业 - 年度面板

🎯 两大核心指标

  1. Digi_Risk_Exposure_raw:原始数字技术风险暴露值
  2. Digi_Risk_Exposure:负值归 0 后标准化风险指标(实证常用)

指标构造逻辑

负面情感概率最大值 − 正面情感概率平均值测算风险暴露程度;负值统一赋值为 0,聚焦企业实质性数字风险敞口。


🧪 数据构建流程(论文可直接复制)

  1. 参照国家数据安全、网络安全政策文件选取基础关键词;
  2. Word2vec 模型语义扩展,扩充风险词库;
  3. 随机抽样经大模型双标注,分歧样本人工复核;
  4. 划分训练 / 验证集,FinBERT 模型情感分类;
  5. 按顶刊公式计算原始指标,并做标准化处理。

📋 数据字段

  • 股票代码
  • 股票简称
  • 中文全称
  • 年份
  • Digi_Risk_Exposure_raw(原始值)
  • Digi_Risk_Exposure(实证可用值)

🔍 6 大顶刊研究方向

  1. 数字技术风险对企业价值、股价崩盘风险影响
  2. 数字化转型过程中的风险敞口与治理效应
  3. 数字风险、信息披露与融资成本、审计定价
  4. 公司治理、内部控制对数字风险的抑制作用
  5. 行业、产权、区域异质性差异分析
  6. 数据安全法规落地的政策冲击 DID 评估

数据简介

数字技术风险暴露变量作为量化企业数字技术应用风险水平的核心指标,是衡量上市公司在数字化转型进程中风险管控能力的关键标尺。在当前数字经济蓬勃发展的时代,企业积极投身数字化转型,但这一过程中也伴随着数据安全、网络安全等各类风险。该变量通过文本挖掘与自然语言处理技术,将企业数字技术风险相关的定性信息转化为可量化的定量指标,有效填补"风险识别---程度度量---影响评估"分析链条中的数据空白,为监管部门优化数字经济监管政策、高校开展数字技术风险研究、投资者评估企业运营风险提供权威可靠的数据支撑。

本数据核心来源为2010---2024年中国A股上市公司年度报告中"管理层讨论与分析(MD&A)"部分的文本信息。数据构建过程严格遵循"文本获取---分词处理---关键词拓展---数据标注---模型训练---指标计算"的标准化流程,具体构造方式如下:

使用数据皮皮侠数据库上市公司年报中的MD&A信息,基于《工业和信息化领域数据安全风险信息报送与共享工作指引(2021)》及《国家网络安全事件应急预案(2017)》选取关键词,并采用Word2vec模型训练各年份所有的MD&A语料后进行词集扩展。再随机抽样10%的数据,使用Openai的ChatGPT和智谱清言 的GLM人工智能模型分别进行标注,使用的提示词为"该论述是否反映了企业面临数字技术风险的暴露?"和"该论述是否反映了企业采取措施对数字技术风险进行了防范?",对于模型标注不一致的样本进行人工复核。随后将其转化为模型训练集:对标注为 "风险暴露" 的文本赋值 - 1(对应负面情感),无关为0,标注为 "风险防范" 的文本赋值 1(对应正面情感),两者不一致的再人工判断。按照 0.6:0.4 的比例划分训练集与验证集,参考既有研究设置模型参数开展预训练至最终模型,获得全部数据的分类结果。最后构建企业数字技术风险暴露指标,Digi_Risk_Exposure_raw为原始指标,Digi_Risk_Exposure为将Digi_Risk_Exposure_raw为负的值按原文方法改为0后的指标。该指标的设计聚焦 "极端风险" 与 "防范能力" 的制衡关系,被定义为 企业年度MD&A信息中"负面文本的负面情感概率最大值" 与 "正面文本的正面情感概率平均值" 之间的差值。

数据指标

|----------|----------|----------------------------|------------------------|
| 股票代码 | 年份 | Digi_Risk_Exposure_raw | Digi_Risk_Exposure |
| 股票简称 | 中文全称 | 更多数据 | |

数据展示

参考文献

1\]陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响------来自大语言模型的文本分析证据\[J\].经济研究,2025,60(02):73-89.

相关推荐
CLX05051 小时前
如何在 WordPress AMP 网站中为特定模板禁用 AMP 渲染
jvm·数据库·python
Jay-r1 小时前
ChatGPT 官网入口(2026 年最新版)——简明指南
人工智能·语言模型·chatgpt·ai助手·chatgpt5.5
神明9311 小时前
如何实现SQL动态字段选择查询_利用反射或动态拼接字符串
jvm·数据库·python
小星AI1 小时前
LangGraph 超详细教程,附源码
人工智能·agent
JavaAgent架构师1 小时前
前端AI工程化(一):AI通信协议深度解析
前端·人工智能
m0_733565461 小时前
golang如何实现RabbitMQ死信队列_golang RabbitMQ死信队列实现教程
jvm·数据库·python
weixin_444012931 小时前
CSS定位如何实现模态框垂直居中_使用负边距或transform
jvm·数据库·python
端平入洛2 小时前
大模型 chat 接口的标准消息格式
人工智能
MediaTea2 小时前
人工智能通识课:机器学习之无监督学习
人工智能·深度学习·学习·机器学习