区县政府税务数据分析能力建设DID(2007-2025)

区县政府税务数据分析能力建设DID(2007-2025)

数据简介

CNPaperData

政府税务数据分析能力建设,是各级税务部门围绕 "以数治税" 目标,在算力、数据、算法三大核心维度开展的系统性能力提升工作,具体包括采购服务器、数据中心等底层硬件以强化算力支撑,整合税务系统内部数据、企业申报数据、跨部门共享数据及互联网外部数据以优化数据治理,开发风险预警、智能研判等算法模型及配套系统以完善技术应用,同时通过人才招录、第三方合作等方式补全能力短板。其核心作用在于破解海量涉税数据的处理难题,通过:

-"查得更广"------覆盖更多地区与行业的企业

-"查得更准"------减少人工误差、精准识别税务风险

-"查得更快"------缩短违法查处周期

的机制提升税收征管效能,既能有效抑制企业避税行为、提高税收遵从度,又能缩小企业间税负差异以促进税负

公平,还能通过媒体宣传形成威慑效应,最终优化税收营商环境,为推进税收治理现代化提供关键支撑。

本数据参照孙鲲鹏、侯微怡和杨凡(2025)的做法,基于中国政府采购网爬取的合同公告数据构建"政府税务数据分析能力建设DID",即通过关键词字典法挑选出税务部门数据分析技术相关的采购合同样本数据,但是我们将范围锁定至全国区县层面的税务有关部门,而非地级市层面,步骤如下:

1.被参考方通过筛选出字段中包含"税务局"、"税务分局"、"国家税务总局**市税务局"等关键词进行挑选得到样本,这给予了我们一些启示。因此为图方便,我们使用CNPD中国政府采购数据库(点击跳转),从中筛选出区县层面的税务部门采购合同数据样本。

2.根据被参考方随构建的字典,对数据样本进行识别。该关键词字典分为三个部分,算力层、数据层和算法层。这些关键词的选择已被验证是合理且正当的,这是因为被参考方从高校、税务部门、会计师事务所、企业4个领域分别选取了代表性人物,采用问卷调查的方式,收集了他们对这些关键词选择的合理性和正当性判断,得到了较高认可的结果。

图源:《管理世界》 2025年第9期, 以数治税:税务部门数据分析能力建设的效应

3.创立变量"税务数据分析能力":当合同内容中包含上述三个维度中任意关键词,取值为1,否则为0。

我们在此语境中所提的"合同内容"包括"合同名称"、"主要标的

名称"以及"规格型号或服务要求",但通常来说,其实"合同名称"的信息量已足够。

需要注意的是,这里我们还调用了AI进行二阶段判断,以避免识别上诸如"物业管理""食堂后勤管理""空调机房"等歧义采购合同内容,所用被参考方提供的定义:

图源:《管理世界》 2025年第9期, 以数治税:税务部门数据分析能力建设的效应

4.过滤出"税务数据分析能力"为1的合同样本观测值,再选择它们当

中最早的采购年份,即每个区县最早的"合同签订年份"作为"最早采购年份",并且滞后一年,作为DID起始年份,这是因为被参考方指出,需要考虑到当年与数据分析能力相关的政府采购要正式落地并发挥作用可能需要一定时间,所以滞后一年是合理的。

5.接着是,基于我们的观察结果及前期预期的假设,关键词词典里个别常规词语被证实会致使出现"非数据分析能力"相关的"合同内容"。因此,比如"物业管理服务"、"食堂后期管理服务"包含"管理","空调机房维修"包含"机房";因此,我们不得不调用大预言模型,结合'算力维度'、'数据维度'及'算法维度'的语境,对"合同内容"做出进阶判断,做出最后筛选。

6.在样本期间内,若区县层面的税务部门出现数据分析能力相关的采购,该区县则视为处理组(Treat=1),否则为对照组(Treat=0)。此外,Time为时间虚拟变量,该区县与数据分析能力相关的采购合同签订当年起滞后一年及之后,取值为1,否则取0。DID 则表示区县的税务部门在年份t是否已进入数据分析能力建设后的阶段,用以构建双重差分(DID)识别框架。对于多次实施不同批次数字化改革的城市,DID基于合同签订当年起滞后一年而确定。

注释:此区县层面涵盖乡镇。

最后,在区域划分上,本数据采用《2023年中国市级以上行政区划》作为统一标准,将样本数据统一对应至该版本行政区划层级,当中还包括省直辖县以及新疆生产建设兵团,使用者可自行处理。

数据信息

CNPaperData

  • 数据来源: CNPD中国政府采购数据(点击跳转)

  • **数据范围:**全国区县

  • **时间跨度:**2007-2025

  • **数据格式:**数据格式为Excel形式

  • 数据字段:

|---------------|--------------|--------------|----------------------|
| 省级名称 | 省份代码 | 城市名称 | 城市代码 |
| 区县名称 | 区县代码 | 年份 | 最早签订合同年份滞后一年 |
| Treat | Post | DID | 合同名称 |

数据展示

CNPaperData

参考文献

cNPaperData

1\] 孙鲲鹏,侯微怡,杨凡.以数治税:税务部门数据分析能力建设的效应\[J\].管理世界,2025,41(09):131-163.

相关推荐
连线Insight几秒前
从“模型竞赛”到“数据为王”:WPS 365如何帮企业挖掘数据金矿?
人工智能·wps
姚远Oracle ACE1 分钟前
Step-by-Step: 在 Linux 上使用 VMware 安装 Oracle 26ai RAC 数据库
linux·数据库·oracle
云道轩4 分钟前
在Rocky Linux 9.5上在线使用Docker安装LangFlow 1.7.3
人工智能·智能体·langflow
Rabbit_QL6 分钟前
PyTorch DataLoader `num_workers` 配置指南:从新手到进阶
人工智能·pytorch·python
naruto_lnq8 分钟前
如何为开源Python项目做贡献?
jvm·数据库·python
一只专注api接口开发的技术猿11 分钟前
淘宝商品详情API的流量控制与熔断机制:保障系统稳定性的后端设计
大数据·数据结构·数据库·架构·node.js
熬夜敲代码的小N19 分钟前
Agentic AI 实战全指南:从原理到LangChain落地开发
人工智能·langchain
肾透侧视攻城狮22 分钟前
《深入PyTorch数据引擎:自定义数据封装、高效加载策略与多源融合实战》
人工智能·神经网络·自定义dataset·dataloader 加载数据·常见的图像预处理操作·图像数据增强·加载 mnist 数据集
少云清22 分钟前
【金融项目实战】4_接口测试 _数据准备和清理
数据库·金融项目实战
疯狂的喵26 分钟前
使用Flask快速搭建轻量级Web应用
jvm·数据库·python