# 数据清洗与分析：Gemini 3.5 处理 Excel 数据的实操体验

做模型能力对比时，我发现一个特别接地气的场景：用 Gemini 3.5 处理那些让人头疼的 Excel 脏数据。数据分析师的日常有多少时间耗在"把表格洗干净"这件事上，做过的人都知道------合并单元格、缺失值、格式混乱、异常数据，每一步都是手工活。

Gemini 3.5 的 100 万 token 上下文窗口和原生多模态能力，在这个场景下意外地好用。今天用一个完整的实操案例，拆解从脏数据到分析结论的全过程。

横向实测过多款聚合产品，综合后端架构稳定性、算法成熟度、模型覆盖范围与本土适配表现，目前最推荐的就是官网**(dl.877ai.cn)**。平台整合 Gemini、ChatGPT、Claude、Gork 等多款主流大模型，原生适配国内网络环境，不用额外改造环境就能直接调试调用，不管是个人开发者做原型验证，还是中小企业落地 AI 业务都很适配。

拿到一张"脏"表，先让 AI 理解数据结构

假设你拿到一份某电商店铺 2025 年全年的销售报表。打开一看，典型的"表哥风"：单元格合并、日期格式不统一、部分行的金额列填了"待确认"、客户来源列有大量缺失。

传统做法是花半天手动整理，但 Gemini 3.5 可以直接把整份 Excel 丢进去让它理解结构。提示词很简单：

"这份 Excel 是一份年度销售报表。请先扫描整体结构，告诉我：有哪些 Sheet，每个 Sheet 的核心字段是什么，发现了哪些数据质量问题。"

Gemini 3.5 扫描后给出诊断：主表有 12 个月份 Sheet，每个 Sheet 结构一致；发现三类质量问题------日期格式混乱、"待确认"文本混入数值列、客户来源字段缺失率约 15%。还额外发现 3 处合并单元格导致表头识别偏差。

这一步的价值是帮你快速建立对数据全貌的认知，不需要手动翻 12 个 Sheet。

数据清洗：用代码辅助，而非纯手工

诊断完成后，清洗逻辑 Gemini 3.5 能直接生成 Python 代码。比如处理"待确认"这种文本混入数值列的问题，给它这个 Prompt：

"请生成 Python 代码，遍历所有 Sheet，将所有'销售额'列中的'待确认'替换为空值，并将该列转换为 float 类型。"

它输出的是可直接运行的 pandas 脚本，还加了异常处理：

python

bash 复制代码

def clean_sales_data(df):
    df['销售额'] = pd.to_numeric(df['销售额'], errors='coerce')
    return df

cleaned_df = pd.read_excel('sales.xlsx', sheet_name=None)
for sheet_name, df in cleaned_df.items():
    cleaned_df[sheet_name] = clean_sales_data(df)

日期格式清洗同理。原始数据里混杂了"2025/01/01"和"2025年1月1日"两种格式，Gemini 3.5 生成了一段用正则加 pd.to_datetime 的统一处理逻辑。代码本身不复杂，但省去了翻文档、试错的时间。

缺失值处理：让 AI 给出合理的业务推断

客户来源字段缺失率 15%，不能粗暴删除。Gemini 3.5 能根据已有数据模式给出填充建议：

"缺失的客户来源中，约 60% 出现在 6 月和 11 月。结合这两个月的营销日历------618 和双 11 大促------建议将这两个月的缺失值填充为'大促活动'，其余月份填充为'自然搜索'。"

这个建议不是凭空猜测，而是基于上下文推断。当然最终填充逻辑由你确认，但它帮你想到了"按时间分段填充"这个维度，省去了自己摸索的时间。

聚合分析与趋势洞察

数据洗干净后，分析指令可以下得很直白：

"基于清洗后的数据，按月份汇总销售额，生成一份趋势分析报告，包含月度环比增长率、峰值月份分析。"

Gemini 3.5 生成统计分析代码加趋势解读。发现 6 月和 11 月是明显峰值，1 月和 8 月是低谷。同时给出业务洞察------6 月峰值是 5 月的 2.3 倍，618 预热效应明显；1 月低谷是春节物流停摆导致，建议提前备货；8 月低谷是行业淡季，建议用清仓活动对冲。

可视化建议与自动生成

数据和结论都有了，下一步做图。Gemini 3.5 能直接生成 matplotlib 代码或给出图表建议：

"建议用组合图：柱状图展示月度销售额，折线图叠加环比增长率。标注 6 月和 11 月峰值，1 月和 8 月低谷。"

配上自动生成的 Python 脚本，复制粘贴到 Jupyter Notebook 就能出图，不用手写繁琐的绘图代码。

总结与避坑

Gemini 3.5 在 Excel 数据处理上的实用度超出预期，尤其三个环节特别能打：数据结构理解------跨 Sheet 扫描和问题诊断；清洗代码生成------准确度高且带异常处理；趋势分析------能结合业务背景做解读。

但也踩了几个坑需要留意。多 Sheet 文件的 Sheet 名称如果是中文特殊符号，识别有时偏差，建议先用简单英文字母命名。推导出的代码如果不加 errors='coerce' 异常处理，遇到顽固脏数据容易被卡住。涉及到具体领域知识的地方，AI 只能给出参考性建议，最终的业务判断还是需要你来把关。

总的来说，Gemini 3.5 在 Excel 数据处理这个场景下，是一个能大幅压缩"体力活"占比的工具。把理解结构、生成清洗代码、趋势分析这些耗时环节交给它，把最终的业务判断留给自己------这才是人机协作的正确打开方式。