Python 数据建模与分析项目实战预备 Day 2 - 数据构建与字段解析(模拟简历结构化数据)

✅ 今日目标

  • 构建项目所需的简历结构化数据(模拟或从开源源获取)
  • 明确各字段的含义、类型和取值范围
  • 输出首个训练数据集(CSV / DataFrame 格式)

🧾 一、模拟简历数据字段设计(结构化)

我们将构建如下字段的结构化数据,每条代表一个候选人:

字段 含义 类型 示例值
degree 学历等级 分类变量(本科/硕士/博士) "硕士"
university_type 学校等级 分类变量(双一流/普通) "双一流"
work_years 工作年限 数值型 3
skill_python 是否掌握 Python 布尔/0-1 1
skill_sql 是否掌握 SQL 布尔/0-1 1
skill_ml 是否掌握机器学习 布尔/0-1 0
project_count 项目数量 数值型 2
project_desc_len 项目描述总长度(字符) 数值型 500
pass_screening 是否通过简历初筛 目标值(0/1) 1

🛠 二、构建模拟数据

我们将生成 200 条样本数据,模拟随机简历,规则包含:

  • 学历越高、学校越好、技能越多,越可能通过筛选
  • 项目数量 + 描述越丰富,也会有正相关影响
  • 引入一定随机性避免过拟合

✨ 今日产出

  • 一个名为 resume_data.csv 的训练数据文件

    使用以下代码生成样本数据:

    python 复制代码
    # Kernel was reset, so we need to regenerate the dataset again
    
    import pandas as pd
    import numpy as np
    import os
    
    # 设置随机种子
    np.random.seed(42)
    n = 200
    
    # 模拟字段
    degrees = np.random.choice(['本科', '硕士', '博士'], size=n, p=[0.6, 0.3, 0.1])
    univ_types = np.random.choice(['普通', '双一流'], size=n, p=[0.7, 0.3])
    work_years = np.random.randint(0, 11, size=n)
    skill_python = np.random.choice([0, 1], size=n, p=[0.3, 0.7])
    skill_sql = np.random.choice([0, 1], size=n, p=[0.4, 0.6])
    skill_ml = np.random.choice([0, 1], size=n, p=[0.6, 0.4])
    project_count = np.random.randint(0, 6, size=n)
    project_desc_len = np.random.randint(50, 1000, size=n)
    
    # 评分构造
    score = (
        (degrees == '博士') * 2 +
        (degrees == '硕士') * 1 +
        (univ_types == '双一流') * 1 +
        work_years * 0.2 +
        skill_python * 1.5 +
        skill_sql * 1.2 +
        skill_ml * 1.3 +
        project_count * 0.8 +
        (project_desc_len / 500)
    )
    
    prob = 1 / (1 + np.exp(-(score - 7)))  # sigmoid
    pass_screening = (np.random.rand(n) < prob).astype(int)
    
    # 生成 DataFrame
    df = pd.DataFrame({
        "degree": degrees,
        "university_type": univ_types,
        "work_years": work_years,
        "skill_python": skill_python,
        "skill_sql": skill_sql,
        "skill_ml": skill_ml,
        "project_count": project_count,
        "project_desc_len": project_desc_len,
        "pass_screening": pass_screening
    })
    
    # 保存 CSV
    csv_path = "./data/resume_data.csv"
    df.to_csv(csv_path, index=False)
    print(f"✅ 模拟数据已生成并保存到 {csv_path}")
  • 字段说明字典或文档 (如上述第一章所示)

相关推荐
码农阿豪2 分钟前
Python Flask应用中文件处理与异常处理的实践指南
开发语言·python·flask
岁岁种桃花儿2 分钟前
CentOS7 彻底卸载所有JDK/JRE + 重新安装JDK8(实操完整版,解决kafka/jps报错)
java·开发语言·kafka
xcLeigh2 分钟前
Python 项目实战:用 Flask 实现 MySQL 数据库增删改查 API
数据库·python·mysql·flask·教程·python3
威迪斯特3 分钟前
Flask:轻量级Web框架的技术本质与工程实践
前端·数据库·后端·python·flask·开发框架·核心架构
csbysj202014 分钟前
AngularJS 模块
开发语言
独好紫罗兰23 分钟前
对python的再认识-基于数据结构进行-a003-列表-排序
开发语言·数据结构·python
wuhen_n29 分钟前
JavaScript内置数据结构
开发语言·前端·javascript·数据结构
AIFarmer30 分钟前
在EV3上运行Python语言——无线编程
python·ev3
不会代码的小测试32 分钟前
UI自动化-POM封装
开发语言·python·selenium·自动化
2401_8414956434 分钟前
【LeetCode刷题】二叉树的层序遍历
数据结构·python·算法·leetcode·二叉树··队列