建模步骤 3 :数据探索(EDA) — 1、初步了解数据:自定义函数

👏

1、自定义函数概述
--(1)title()
--(2)df_table(df)
--(3)df_style(df)
--(4)des_table(df)
--(5)des_chart(df)

1、自定义函数概述

尝试自己创建一个名为 my_package 模块,该模块中存放一些自定义的数据分析函数,可以重复调用。如下图在当前目录下,创建一个名为 my_package 的文件夹,在该文件夹下面创建一个名为 __pycache__ 的子文件夹;然后创建两个 python 模块(View.pyDEA.py);接着在这两个模块中定义函数。

👏

具体函数如下:

函数 解释 存放模块
title('') 显示一个标题 View.py
df_table(df) 用表格的方式展示数据框 View.py
df_style(df) 为数据框添加边框或热力图 View.py
des_table(df) 数据框概要表 DEA.py
des_chart(df) 数据框每个特征分布可视化 DEA.py
......

上表是我在初步了解数据过程中的几个自定义的函数,主要是将上一篇文章中的常用函数组合在一起使用。

(1)title()

custom 复制代码
# 导入库里面的模块,然后调用函数
from my_package import View

View.title('Good')
View.title('Good', style="#512b58")
View.title('Good', style="bold #fe346e")
View.title('Good', count=80)

(2)df_table(df)

custom 复制代码
import numpy as np
import pandas as pd

df = pd.DataFrame(
    np.random.randn(4, 6)
    , columns=list("ABCDEF")
    )

df
custom 复制代码
from my_package import View

# 参数 tablefmt 参考 tabulate 库
# 可能对中文支持不是很友好
print('\n')
View.df_table(df)
View.df_table(df, tablefmt="psql")
View.df_table(df, tablefmt="rounded_grid")

(3)df_style(df)

custom 复制代码
from my_package import View
View.df_style(df, background=True)
custom 复制代码
from my_package import View
View.df_style(df, background=False)

(4)des_table(df)

custom 复制代码
import os
file = os.path.join('datasets','titanic','train.csv')


import pandas as pd
df = pd.read_csv(file)
df.head()
custom 复制代码
from my_package import DEA

DEA.des_table(df)

(5)des_chart(df)

custom 复制代码
from my_package import DEA

DEA.des_chart(df)

👏

总结: 以上是我在初步了解数据过程中的几个自定义的函数,主要是将上一篇文章中的常用函数组合在一起使用。并且,尝试创建了一个简单的库来存储,方便重复执行。更多的 pandas 函数可以查看 pandas 函数

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| #### Python 端到端的机器学习 AI入门:详细介绍机器学习建模过程,步骤细节;以及人工智能的分阶段学习线路图。 🚀 点击查看 |

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| #### 统计学习\机器学习\深度学习算法 介绍有关统计学习,机器学习,深度学习的算法。 🚀 点击查看 |

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| #### SQL + Pandas 练习题 SQL 练习题目,使用 Pandas 库实现,使用 Sqlalchemy 库查看 SQL 代码血缘关系。 🚀 点击查看 |

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| #### Python 数据可视化 介绍了有关 Matplotlib,Seaborn,Plotly 几个 Python 绘图库的简单使用。 🚀 点击查看 |

相关推荐
沪漂阿龙1 分钟前
面试题详解:智能客服 Agent 系统全栈拆解——Rasa Pro、对话管理、意图识别、GraphRAG、Qwen 与 RAG 优化实战
人工智能·架构
薛定猫AI21 分钟前
【深度解析】Gemini Omni 多模态生成与 Agent 化创作工作流:从视频编辑到 UI 生成的技术演进
人工智能·ui·音视频
羊羊小栈21 分钟前
AI赋能电力巡检:智能故障预警系统
人工智能·yolo·目标检测·毕业设计·大作业
Python私教27 分钟前
视觉 Agent 爬取 vs Playwright 脚本:Browser Use 2026 选型表
人工智能
Python私教30 分钟前
Crawlee StagehandCrawler:自然语言点 Load More 的工程化爬虫
人工智能
南屹川31 分钟前
【容器化】Docker实战:从入门到生产环境部署
人工智能
海蓝可知天湛1 小时前
Agent&IELTS雅思口语专属语料库
人工智能·github·rag·ielts·skills
随身数智备忘录1 小时前
什么是设备管理体系?设备管理体系包含哪些核心模块?
网络·数据库·人工智能
彦为君1 小时前
Agent 安全:从权限提示到沙箱隔离
python·ai·ai编程
OpenBayes贝式计算1 小时前
涵盖 OCR 与多轮对话:1.3B 端侧多模态模型 MiniCPM-V-4.6 正式发布;百万级智能体数据集 AgentTrove 开源!包含代码修复及数学求解
人工智能