get_dumines() 函数,用于将分类变量转换为哑变量

1. get_dummies() 函数的基本用法

get_dummies() 函数可以将DataFrame中的分类变量(通常是字符串类型)转换为哑变量,每个类别对应一个哑变量列,其中包含1和0的值,表示该类别是否出现。

python 复制代码
import pandas as pd

# 创建一个包含分类变量的DataFrame
df = pd.DataFrame({
    'color': ['red', 'blue', 'green', 'blue'],
    'shape': ['circle', 'square', 'circle', 'triangle']
})

# 使用get_dummies()转换分类变量
dummies = pd.get_dummies(df, columns=['color', 'shape'])
print(dummies)

2. 处理缺失值

在使用 get_dummies() 之前,您需要决定如何处理DataFrame中的缺失值。以下是几种处理缺失值的方法:

  1. 删除包含缺失值的行

    如果数据集中的缺失值不多,可以选择删除这些行。

    python 复制代码
    df = df.dropna()
  2. 填充缺失值

    如果删除缺失值会导致数据量大幅减少,可以选择填充这些缺失值。填充策略可以是填充为最常见的值、中位数、众数或者一个特定的值。

    python 复制代码
    df['column'] = df['column'].fillna('missing')
  3. get_dummies() 中处理缺失值
    get_dummies() 函数允许您指定如何处理缺失值。例如,您可以将缺失值视为一个单独的类别。

    python 复制代码
    dummies = pd.get_dummies(df, columns=['color', 'shape'], dummy_na=True)

3. 示例代码

以下是一个完整的示例,展示了如何在处理缺失值后使用 get_dummies() 函数:

python 复制代码
import pandas as pd

# 创建一个包含缺失值的DataFrame
df = pd.DataFrame({
    'color': ['red', 'blue', None, 'blue'],
    'shape': ['circle', 'square', 'circle', None]
})

# 填充缺失值
df['color'].fillna('unknown', inplace=True)
df['shape'].fillna('unknown', inplace=True)

# 使用get_dummies()转换分类变量
dummies = pd.get_dummies(df, columns=['color', 'shape'])
print(dummies)

输出结果:

sql 复制代码
   color_blue  color_red  color_unknown  shape_circle  shape_square  shape_unknown
0           0         1              0            1            0             0
1           1         0              0            0            1             0
2           0         0              1            1            0             0
3           1         0              0            0            0             1

在这个结果中:

color_blue、color_red 和 color_unknown 是从 color 列生成的哑变量列,分别表示颜色为蓝色、红色和未知的颜色。

shape_circle、shape_square 和 shape_unknown 是从 shape 列生成的哑变量列,分别表示形状为圆形、正方形和未知的形状。

每一列中的1表示对应的类别在该行中出现,0表示没有出现。这样,您就可以使用这些哑变量进行进一步的数据分析或机器学习建模了。

在这个示例中,我们首先填充了缺失值,然后使用 get_dummies() 函数将分类变量转换为哑变量。这样可以确保在转换过程中不会丢失任何信息。希望这次的解释更加清晰,并且能够帮助您正确使用 get_dummies() 函数。

将分类标签转换为模型可以处理的数值格式

相关推荐
冬奇Lab36 分钟前
一天一个开源项目(第70篇):claude-code-best-practice - 从 Vibe Coding 迈向 AI 原生开发的实战指南
人工智能·开源·资讯
人工智能培训42 分钟前
多模大模型应用实战:智能问答系统开发
人工智能·深度学习·机器学习·transformer·知识图谱
F_U_N_42 分钟前
从文档解析到知识运营:AI闭环实践手册
人工智能
陌殇殇42 分钟前
003 Spring AI Alibaba框架整合百炼大模型平台 — Memory会话记忆、Tool工具、RAG增强检索、ReAct智能体
人工智能·spring·ai
PD我是你的真爱粉1 小时前
AI Agent 完全指南:LangChain Agent、ReAct、Copilot-Agent 模式、Manus、Computer Use 与记忆机制
人工智能·react.js·langchain
黑金IT1 小时前
从“视觉断言”到“自动化指挥”:Qwen3-V2 如何终结 AI 的随机性
运维·人工智能·自动化
东北洗浴王子讲AI1 小时前
GPT-5.4辅助机器学习论文写作:从构思到发表的全流程指南
人工智能·gpt·自然语言处理
编程界一哥1 小时前
星空提示缺少组件解决方法:安全下载与一键修复工具对比
数据挖掘
凤年徐1 小时前
OpenClaw深度解析:“数字龙虾”何以引爆AI Agent时代?安全危机与未来之战
人工智能·安全
英俊潇洒美少年1 小时前
Vue3 实现 AI 流式打字机(SSE+时间切片模拟 React 并发)工程化完整版
前端·人工智能·react.js