区县政府税务数据分析能力建设DID(2007-2025)

区县政府税务数据分析能力建设DID(2007-2025)

数据简介

CNPaperData

政府税务数据分析能力建设,是各级税务部门围绕 "以数治税" 目标,在算力、数据、算法三大核心维度开展的系统性能力提升工作,具体包括采购服务器、数据中心等底层硬件以强化算力支撑,整合税务系统内部数据、企业申报数据、跨部门共享数据及互联网外部数据以优化数据治理,开发风险预警、智能研判等算法模型及配套系统以完善技术应用,同时通过人才招录、第三方合作等方式补全能力短板。其核心作用在于破解海量涉税数据的处理难题,通过:

-"查得更广"------覆盖更多地区与行业的企业

-"查得更准"------减少人工误差、精准识别税务风险

-"查得更快"------缩短违法查处周期

的机制提升税收征管效能,既能有效抑制企业避税行为、提高税收遵从度,又能缩小企业间税负差异以促进税负

公平,还能通过媒体宣传形成威慑效应,最终优化税收营商环境,为推进税收治理现代化提供关键支撑。

本数据参照孙鲲鹏、侯微怡和杨凡(2025)的做法,基于中国政府采购网爬取的合同公告数据构建"政府税务数据分析能力建设DID",即通过关键词字典法挑选出税务部门数据分析技术相关的采购合同样本数据,但是我们将范围锁定至全国区县层面的税务有关部门,而非地级市层面,步骤如下:

1.被参考方通过筛选出字段中包含"税务局"、"税务分局"、"国家税务总局**市税务局"等关键词进行挑选得到样本,这给予了我们一些启示。因此为图方便,我们使用CNPD中国政府采购数据库(点击跳转),从中筛选出区县层面的税务部门采购合同数据样本。

2.根据被参考方随构建的字典,对数据样本进行识别。该关键词字典分为三个部分,算力层、数据层和算法层。这些关键词的选择已被验证是合理且正当的,这是因为被参考方从高校、税务部门、会计师事务所、企业4个领域分别选取了代表性人物,采用问卷调查的方式,收集了他们对这些关键词选择的合理性和正当性判断,得到了较高认可的结果。

图源:《管理世界》 2025年第9期, 以数治税:税务部门数据分析能力建设的效应

3.创立变量"税务数据分析能力":当合同内容中包含上述三个维度中任意关键词,取值为1,否则为0。

我们在此语境中所提的"合同内容"包括"合同名称"、"主要标的

名称"以及"规格型号或服务要求",但通常来说,其实"合同名称"的信息量已足够。

需要注意的是,这里我们还调用了AI进行二阶段判断,以避免识别上诸如"物业管理""食堂后勤管理""空调机房"等歧义采购合同内容,所用被参考方提供的定义:

图源:《管理世界》 2025年第9期, 以数治税:税务部门数据分析能力建设的效应

4.过滤出"税务数据分析能力"为1的合同样本观测值,再选择它们当

中最早的采购年份,即每个区县最早的"合同签订年份"作为"最早采购年份",并且滞后一年,作为DID起始年份,这是因为被参考方指出,需要考虑到当年与数据分析能力相关的政府采购要正式落地并发挥作用可能需要一定时间,所以滞后一年是合理的。

5.接着是,基于我们的观察结果及前期预期的假设,关键词词典里个别常规词语被证实会致使出现"非数据分析能力"相关的"合同内容"。因此,比如"物业管理服务"、"食堂后期管理服务"包含"管理","空调机房维修"包含"机房";因此,我们不得不调用大预言模型,结合'算力维度'、'数据维度'及'算法维度'的语境,对"合同内容"做出进阶判断,做出最后筛选。

6.在样本期间内,若区县层面的税务部门出现数据分析能力相关的采购,该区县则视为处理组(Treat=1),否则为对照组(Treat=0)。此外,Time为时间虚拟变量,该区县与数据分析能力相关的采购合同签订当年起滞后一年及之后,取值为1,否则取0。DID 则表示区县的税务部门在年份t是否已进入数据分析能力建设后的阶段,用以构建双重差分(DID)识别框架。对于多次实施不同批次数字化改革的城市,DID基于合同签订当年起滞后一年而确定。

注释:此区县层面涵盖乡镇。

最后,在区域划分上,本数据采用《2023年中国市级以上行政区划》作为统一标准,将样本数据统一对应至该版本行政区划层级,当中还包括省直辖县以及新疆生产建设兵团,使用者可自行处理。

数据信息

CNPaperData

  • 数据来源: CNPD中国政府采购数据(点击跳转)

  • **数据范围:**全国区县

  • **时间跨度:**2007-2025

  • **数据格式:**数据格式为Excel形式

  • 数据字段:

|---------------|--------------|--------------|----------------------|
| 省级名称 | 省份代码 | 城市名称 | 城市代码 |
| 区县名称 | 区县代码 | 年份 | 最早签订合同年份滞后一年 |
| Treat | Post | DID | 合同名称 |

数据展示

CNPaperData

参考文献

cNPaperData

1\] 孙鲲鹏,侯微怡,杨凡.以数治税:税务部门数据分析能力建设的效应\[J\].管理世界,2025,41(09):131-163.

相关推荐
请叫我阿杰2 小时前
Ubuntu系统安装.NET SDK 7.0
数据库·ubuntu·.net
极小狐3 小时前
比 Cursor 更丝滑的 AI DevOps 编程智能体 - CodeRider-Kilo 正式发布!
运维·人工智能·devops
q***82913 小时前
如何使用C#与SQL Server数据库进行交互
数据库·c#·交互
半臻(火白)4 小时前
Prompt-R1:重新定义AI交互的「精准沟通」范式
人工智能
菠菠萝宝4 小时前
【AI应用探索】-10- Cursor实战:小程序&APP - 下
人工智能·小程序·kotlin·notepad++·ai编程·cursor
连线Insight4 小时前
架构调整后,蚂蚁继续死磕医疗健康“硬骨头”
人工智能
盖世英雄酱581364 小时前
commit 成功为什么数据只更新了部分?
java·数据库·后端
小和尚同志4 小时前
十月份 AI Coding 实践!Qoder、CC、Codex 还是 iflow?
人工智能·aigc
keke.shengfengpolang4 小时前
中专旅游管理专业职业发展指南:从入门到精通的成长路径
人工智能·旅游