2024年中国大型数据中心空间分布及环境属性数据集

2024年中国大型数据中心空间分布及环境属性数据集

数据介绍:

这是一个填补信息空白的重要数据集。由于大型数据中心的具体位置、占地等信息通常不公开,难以准确评估其巨大的能耗和环境影响。本研究通过创新的方法,首次系统性地识别和定位了全国范围内的大型数据中心。

数据集包含哪些核心内容?

数据集主要由两部分构成:

**1.**从多源 POI 记录中验证大型数据中心的地理位置;

  • 数量与精度 :包含了 1005个 经过人工核实确认的大型数据中心精确位置(经纬度坐标)。

  • 环境属性:每个点位都附带了其所在城市的四项关键环境属性:

    • 气候带

    • 海拔

    • 年平均温度

    • 年降水量

2. 由随机森林分类模型得出的数据中心分布的空间概率面;

  • 内容 :这是一张全国范围的栅格地图,每个像素(10米分辨率)的值代表了该位置存在大型数据中心的相对可能性(概率),而非简单的"是或否"。

  • 价值:这张图可以揭示那些未公开登记、但具有类似选址特征的数据中心潜在分布区域,是对已验证点位数据的重要补充。

从 Google 地球获得的数据中心屋顶的代表性卫星图像,其中为每个省剪取了一张典型图像,包含以下省。

例:安徽

数据是如何构建的?

研究采用了"POI验证 + 遥感特征 + 机器学习"的综合方法:

  1. 数据收集与验证

    • 初始数据:从高德地图(Amap)抓取所有标注为"数据中心"的兴趣点(POI)。

    • 人工核验:研究人员逐一核对,剔除重复、误标(如小型机房、IT办公室)的记录,并借助高分辨率卫星影像确认其是否为大型工业建筑,最终得到1005个可靠的正样本。

  2. 构建遥感特征库

    • Sentinel-2光谱波段(可见光、近红外、短波红外)。

    • 光谱指数:如归一化植被指数(NDVI)、归一化建筑指数(NDBI),用于区分植被、建筑、水体。

    • 纹理特征:从影像中计算对比度、熵等指标,捕捉大型工业建筑规则、均一的屋顶结构。

    • 夜间灯光数据:作为人类活动和工业强度的指示器,帮助区分高能耗的数据中心与其他类似建筑。

    • 围绕每个点位,从多种遥感数据源中提取了16维特征,用于描述其光谱和空间结构,包括:
  3. 机器学习建模

    • 模型:采用随机森林(Random Forest)模型。

    • 训练:以1005个已验证的数据中心作为正样本,另采集2010个涵盖植被、水体、裸地、其他工业设施等的负样本进行训练。

    • 策略 :考虑到中国不同省份数据中心的外观和周边环境差异巨大,研究没有使用单一的全国模型,而是为10个主要省级行政区分别训练了独立的区域模型,以提高识别精度。

    • 产出:模型最终输出的是每个像素属于数据中心的概率值,从而生成了全国范围的"空间概率表面"。

**数据格式:**TIF、CSV

数据容量: 85.0GB

数据获取: 数据资源:2024年中国大型数据中心空间分布及环境属性数据集

相关推荐
秋917 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
啦啦啦_999917 小时前
5. 迁移学习
人工智能·机器学习·迁移学习
A.说学逗唱的Coke17 小时前
【AI·Coding】TDD × SDD × AI Coding:从“测试驱动“到“规范驱动“的智能协作实践
人工智能·驱动开发·tdd
云烟成雨TD17 小时前
Spring AI Alibaba 1.x 系列【78】沙箱(Sandbox)
java·人工智能·spring
tq108618 小时前
基于SLIP的防幻觉的指南
人工智能
甲维斯18 小时前
Kimi版超级玛丽效果“惊人”,配额不足5厘米!
前端·人工智能
console.log('npc')19 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui
秋919 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
圣殿骑士-Khtangc19 小时前
GPT-5.5 技术深度解析与企业级生产落地实战:从幻觉率下降到百万Token工程化
人工智能·gpt
2601_9619633820 小时前
技术解剖:哈希值、区块链与CA认证如何守护电子合同安全?
网络·人工智能·安全·区块链·智能合约·政务