时间关系,最近很忙,直接把代码分享一下,有兴趣的小伙伴可以直接尝试一下,后面会重点分享一些模型和理论方面的知识,python后面的更新也是侧重到运用啦。

核心知识点:修改表格表头、修改数据格式(如把文字改成数字)。
1. 原材料准备 (data.csv)
程式碼片段
xingming,fenshu
alice,100
ben,98
keely,87
delio,99
2. 第17-18天完整代码
Python
import pandas as pd
# 1. 读取数据
df = pd.read_csv('data.csv')
# 2. 列重命名 (把英文列名改成正规中文)
# columns={'旧列名': '新列名'}
df_renamed = df.rename(columns={'xingming': '姓名', 'fenshu': '分数'})
print("--- 1. 修改列名后的表格 ---")
print(df_renamed)
# 3. 类型转换 (把"分数"从文字转成纯数字,方便后面计算)
# astype() 用于强制转换数据类型
df_renamed['分数'] = df_renamed['分数'].astype(int)
# 4. 保存结果
df_renamed.to_csv('renamed_data.csv', index=False)
print("\n--- 2. 修改完毕并保存成功 ---")
【第19-21天】实际应用:数据分组聚合(类似Excel数据透视表)
- 核心知识点:按类别分组(如按班级、性别),计算每组的平均值或总和。
1. 原材料准备 (data.csv)
程式碼片段
name,class,score
alice,A,100
ben,B,98
keely,A,86
delio,B,90
2. 第19-21天完整代码
Python
import pandas as pd
# 1. 读取数据
df = pd.read_csv('data.csv')
# 2. 按班级(class)分组,并计算每班的平均分
# groupby('分组列') 将数据打包,['计算列'].mean() 计算每组结果
class_avg = df.groupby('class')['score'].mean()
print("--- 1. 各班平均分 ---")
print(class_avg)
# 3. 按班级(class)分组,计算每班的总分
class_sum = df.groupby('class')['score'].sum()
print("\n--- 2. 各班总分 ---")
print(class_sum)
# 4. 保存分组结果
class_avg.to_csv('class_report.csv')
print("\n--- 3. 分组报告已保存 ---")
【第22-25天】高级进阶:多表合并与关联(类似Excel的VLOOKUP)
- 核心知识点:把"学生信息表"和"学生分数表"通过共同的姓名关联拼接到一起。
1. 原材料准备 (需要新建两个文件)
- 文件一:
info.csv
程式碼片段
name,age
alice,18
ben,19
keely,18
- 文件二:
score.csv
程式碼片段
name,score
alice,100
ben,98
keely,87
2. 第22-25天完整代码
Python
import pandas as pd
# 1. 读取两个独立的数据表
df_info = pd.read_csv('info.csv')
df_score = pd.read_csv('score.csv')
# 2. 多表合并 (通过共同的 'name' 列将两张表拼成大表)
# merge(表1, 表2, on='共同列名')
df_combined = pd.merge(df_info, df_score, on='name')
print("--- 1. 关联合并后的完整表格 ---")
print(df_combined)
# 3. 纵向拼接 (如果有两个班级的表,需要上下接起来)
# concat([表1, 表2], ignore_index=True)
df_all = pd.concat([df_info, df_info], ignore_index=True)
print("\n--- 2. 纵向接续后的表格 ---")
print(df_all)
# 4. 保存结果
df_combined.to_csv('combined_data.csv', index=False)
【第26-28天】第四周终结篇:自动化办公数据总复习与综合实战
- 核心知识点:把前四周学过的读取、清洗、计算、保存融会贯通,形成自动处理流水线。
1. 第26-28天完整代码
Python
import pandas as pd
print("=== 自动化数据分析流水线启动 ===")
# 1. 自动化读取
df = pd.read_csv('data.csv')
# 2. 自动化清洗:去重、补空值
df = df.drop_duplicates()
df['score'] = df['score'].fillna(0)
# 3. 自动化计算与筛选
avg = df['score'].mean()
high_students = df[df['score'] >= 90]
# 4. 控制台打印简报
print(f"【分析完毕】全员平均分:{avg}")
print("【高分榜单】:")
print(high_students)
# 5. 自动化导出最终结果
high_students.to_csv('final_summary_report.csv', index=False)
print("=== 自动化任务执行完毕,结果已安全生成! ===")