区县政府税务数据分析能力建设DID(2007-2025)

区县政府税务数据分析能力建设DID(2007-2025)

数据简介

CNPaperData

政府税务数据分析能力建设,是各级税务部门围绕 "以数治税" 目标,在算力、数据、算法三大核心维度开展的系统性能力提升工作,具体包括采购服务器、数据中心等底层硬件以强化算力支撑,整合税务系统内部数据、企业申报数据、跨部门共享数据及互联网外部数据以优化数据治理,开发风险预警、智能研判等算法模型及配套系统以完善技术应用,同时通过人才招录、第三方合作等方式补全能力短板。其核心作用在于破解海量涉税数据的处理难题,通过:

-"查得更广"------覆盖更多地区与行业的企业

-"查得更准"------减少人工误差、精准识别税务风险

-"查得更快"------缩短违法查处周期

的机制提升税收征管效能,既能有效抑制企业避税行为、提高税收遵从度,又能缩小企业间税负差异以促进税负

公平,还能通过媒体宣传形成威慑效应,最终优化税收营商环境,为推进税收治理现代化提供关键支撑。

本数据参照孙鲲鹏、侯微怡和杨凡(2025)的做法,基于中国政府采购网爬取的合同公告数据构建"政府税务数据分析能力建设DID",即通过关键词字典法挑选出税务部门数据分析技术相关的采购合同样本数据,但是我们将范围锁定至全国区县层面的税务有关部门,而非地级市层面,步骤如下:

1.被参考方通过筛选出字段中包含"税务局"、"税务分局"、"国家税务总局**市税务局"等关键词进行挑选得到样本,这给予了我们一些启示。因此为图方便,我们使用CNPD中国政府采购数据库(点击跳转),从中筛选出区县层面的税务部门采购合同数据样本。

2.根据被参考方随构建的字典,对数据样本进行识别。该关键词字典分为三个部分,算力层、数据层和算法层。这些关键词的选择已被验证是合理且正当的,这是因为被参考方从高校、税务部门、会计师事务所、企业4个领域分别选取了代表性人物,采用问卷调查的方式,收集了他们对这些关键词选择的合理性和正当性判断,得到了较高认可的结果。

图源:《管理世界》 2025年第9期, 以数治税:税务部门数据分析能力建设的效应

3.创立变量"税务数据分析能力":当合同内容中包含上述三个维度中任意关键词,取值为1,否则为0。

我们在此语境中所提的"合同内容"包括"合同名称"、"主要标的

名称"以及"规格型号或服务要求",但通常来说,其实"合同名称"的信息量已足够。

需要注意的是,这里我们还调用了AI进行二阶段判断,以避免识别上诸如"物业管理""食堂后勤管理""空调机房"等歧义采购合同内容,所用被参考方提供的定义:

图源:《管理世界》 2025年第9期, 以数治税:税务部门数据分析能力建设的效应

4.过滤出"税务数据分析能力"为1的合同样本观测值,再选择它们当

中最早的采购年份,即每个区县最早的"合同签订年份"作为"最早采购年份",并且滞后一年,作为DID起始年份,这是因为被参考方指出,需要考虑到当年与数据分析能力相关的政府采购要正式落地并发挥作用可能需要一定时间,所以滞后一年是合理的。

5.接着是,基于我们的观察结果及前期预期的假设,关键词词典里个别常规词语被证实会致使出现"非数据分析能力"相关的"合同内容"。因此,比如"物业管理服务"、"食堂后期管理服务"包含"管理","空调机房维修"包含"机房";因此,我们不得不调用大预言模型,结合'算力维度'、'数据维度'及'算法维度'的语境,对"合同内容"做出进阶判断,做出最后筛选。

6.在样本期间内,若区县层面的税务部门出现数据分析能力相关的采购,该区县则视为处理组(Treat=1),否则为对照组(Treat=0)。此外,Time为时间虚拟变量,该区县与数据分析能力相关的采购合同签订当年起滞后一年及之后,取值为1,否则取0。DID 则表示区县的税务部门在年份t是否已进入数据分析能力建设后的阶段,用以构建双重差分(DID)识别框架。对于多次实施不同批次数字化改革的城市,DID基于合同签订当年起滞后一年而确定。

注释:此区县层面涵盖乡镇。

最后,在区域划分上,本数据采用《2023年中国市级以上行政区划》作为统一标准,将样本数据统一对应至该版本行政区划层级,当中还包括省直辖县以及新疆生产建设兵团,使用者可自行处理。

数据信息

CNPaperData

  • 数据来源: CNPD中国政府采购数据(点击跳转)

  • **数据范围:**全国区县

  • **时间跨度:**2007-2025

  • **数据格式:**数据格式为Excel形式

  • 数据字段:

|---------------|--------------|--------------|----------------------|
| 省级名称 | 省份代码 | 城市名称 | 城市代码 |
| 区县名称 | 区县代码 | 年份 | 最早签订合同年份滞后一年 |
| Treat | Post | DID | 合同名称 |

数据展示

CNPaperData

参考文献

cNPaperData

1\] 孙鲲鹏,侯微怡,杨凡.以数治税:税务部门数据分析能力建设的效应\[J\].管理世界,2025,41(09):131-163.

相关推荐
rit84324995 分钟前
压缩感知信号恢复算法:OMP与CoSaMP对比分析
数据库·人工智能·算法
Forget_85509 分钟前
RHCE复习作业4
数据库
f***281422 分钟前
【零基础学Mysql】常用函数讲解,提升数据操作效率的利器
数据库·mysql
+VX:Fegn089524 分钟前
计算机毕业设计|基于springboot+vue的学校课程管理系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·课程设计
Elastic 中国社区官方博客35 分钟前
ES|QL 在 9.2:智能查找连接和时间序列支持
大数据·数据库·人工智能·sql·elasticsearch·搜索引擎·全文检索
MediaTea41 分钟前
Python 第三方库:plotnine(类 ggplot 的 Python 数据可视化库)
开发语言·python·信息可视化
齐齐大魔王41 分钟前
深度学习(三)
人工智能·深度学习
q***01651 小时前
PostgreSQL 17 发布了!非常稳定的版本
数据库·postgresql
一个帅气昵称啊1 小时前
Net AI智能体开源框架NetCoreKevin为企业AI智能体系统Saas信息化建设赋能-开启智能应用的无限可能
人工智能·开源
菜鸟冲锋号1 小时前
问题:增量关联(实时同步新数据) 这个场景中,如果hudi_pay 变更了一条数据,hudi_order_pay_join 结果的数据会跟着变化吗
服务器·前端·数据库