做模型能力对比时,我发现一个特别接地气的场景:用 Gemini 3.5 处理那些让人头疼的 Excel 脏数据。数据分析师的日常有多少时间耗在"把表格洗干净"这件事上,做过的人都知道------合并单元格、缺失值、格式混乱、异常数据,每一步都是手工活。
Gemini 3.5 的 100 万 token 上下文窗口和原生多模态能力,在这个场景下意外地好用。今天用一个完整的实操案例,拆解从脏数据到分析结论的全过程。
横向实测过多款聚合产品,综合后端架构稳定性、算法成熟度、模型覆盖范围与本土适配表现,目前最推荐的就是 官网**(dl.877ai.cn)**。平台整合 Gemini、ChatGPT、Claude、Gork 等多款主流大模型,原生适配国内网络环境,不用额外改造环境就能直接调试调用,不管是个人开发者做原型验证,还是中小企业落地 AI 业务都很适配。
拿到一张"脏"表,先让 AI 理解数据结构
假设你拿到一份某电商店铺 2025 年全年的销售报表。打开一看,典型的"表哥风":单元格合并、日期格式不统一、部分行的金额列填了"待确认"、客户来源列有大量缺失。
传统做法是花半天手动整理,但 Gemini 3.5 可以直接把整份 Excel 丢进去让它理解结构。提示词很简单:
"这份 Excel 是一份年度销售报表。请先扫描整体结构,告诉我:有哪些 Sheet,每个 Sheet 的核心字段是什么,发现了哪些数据质量问题。"
Gemini 3.5 扫描后给出诊断:主表有 12 个月份 Sheet,每个 Sheet 结构一致;发现三类质量问题------日期格式混乱、"待确认"文本混入数值列、客户来源字段缺失率约 15%。还额外发现 3 处合并单元格导致表头识别偏差。
这一步的价值是帮你快速建立对数据全貌的认知,不需要手动翻 12 个 Sheet。
数据清洗:用代码辅助,而非纯手工
诊断完成后,清洗逻辑 Gemini 3.5 能直接生成 Python 代码。比如处理"待确认"这种文本混入数值列的问题,给它这个 Prompt:
"请生成 Python 代码,遍历所有 Sheet,将所有'销售额'列中的'待确认'替换为空值,并将该列转换为 float 类型。"
它输出的是可直接运行的 pandas 脚本,还加了异常处理:
python
bash
def clean_sales_data(df):
df['销售额'] = pd.to_numeric(df['销售额'], errors='coerce')
return df
cleaned_df = pd.read_excel('sales.xlsx', sheet_name=None)
for sheet_name, df in cleaned_df.items():
cleaned_df[sheet_name] = clean_sales_data(df)
日期格式清洗同理。原始数据里混杂了"2025/01/01"和"2025年1月1日"两种格式,Gemini 3.5 生成了一段用正则加 pd.to_datetime 的统一处理逻辑。代码本身不复杂,但省去了翻文档、试错的时间。
缺失值处理:让 AI 给出合理的业务推断
客户来源字段缺失率 15%,不能粗暴删除。Gemini 3.5 能根据已有数据模式给出填充建议:
"缺失的客户来源中,约 60% 出现在 6 月和 11 月。结合这两个月的营销日历------618 和双 11 大促------建议将这两个月的缺失值填充为'大促活动',其余月份填充为'自然搜索'。"
这个建议不是凭空猜测,而是基于上下文推断。当然最终填充逻辑由你确认,但它帮你想到了"按时间分段填充"这个维度,省去了自己摸索的时间。
聚合分析与趋势洞察
数据洗干净后,分析指令可以下得很直白:
"基于清洗后的数据,按月份汇总销售额,生成一份趋势分析报告,包含月度环比增长率、峰值月份分析。"
Gemini 3.5 生成统计分析代码加趋势解读。发现 6 月和 11 月是明显峰值,1 月和 8 月是低谷。同时给出业务洞察------6 月峰值是 5 月的 2.3 倍,618 预热效应明显;1 月低谷是春节物流停摆导致,建议提前备货;8 月低谷是行业淡季,建议用清仓活动对冲。
可视化建议与自动生成
数据和结论都有了,下一步做图。Gemini 3.5 能直接生成 matplotlib 代码或给出图表建议:
"建议用组合图:柱状图展示月度销售额,折线图叠加环比增长率。标注 6 月和 11 月峰值,1 月和 8 月低谷。"
配上自动生成的 Python 脚本,复制粘贴到 Jupyter Notebook 就能出图,不用手写繁琐的绘图代码。
总结与避坑
Gemini 3.5 在 Excel 数据处理上的实用度超出预期,尤其三个环节特别能打:数据结构理解------跨 Sheet 扫描和问题诊断;清洗代码生成------准确度高且带异常处理;趋势分析------能结合业务背景做解读。
但也踩了几个坑需要留意。多 Sheet 文件的 Sheet 名称如果是中文特殊符号,识别有时偏差,建议先用简单英文字母命名。推导出的代码如果不加 errors='coerce' 异常处理,遇到顽固脏数据容易被卡住。涉及到具体领域知识的地方,AI 只能给出参考性建议,最终的业务判断还是需要你来把关。
总的来说,Gemini 3.5 在 Excel 数据处理这个场景下,是一个能大幅压缩"体力活"占比的工具。把理解结构、生成清洗代码、趋势分析这些耗时环节交给它,把最终的业务判断留给自己------这才是人机协作的正确打开方式。