# 数据清洗与分析:Gemini 3.5 处理 Excel 数据的实操体验

做模型能力对比时,我发现一个特别接地气的场景:用 Gemini 3.5 处理那些让人头疼的 Excel 脏数据。数据分析师的日常有多少时间耗在"把表格洗干净"这件事上,做过的人都知道------合并单元格、缺失值、格式混乱、异常数据,每一步都是手工活。

Gemini 3.5 的 100 万 token 上下文窗口和原生多模态能力,在这个场景下意外地好用。今天用一个完整的实操案例,拆解从脏数据到分析结论的全过程。

横向实测过多款聚合产品,综合后端架构稳定性、算法成熟度、模型覆盖范围与本土适配表现,目前最推荐的就是 官网**(dl.877ai.cn)**。平台整合 Gemini、ChatGPT、Claude、Gork 等多款主流大模型,原生适配国内网络环境,不用额外改造环境就能直接调试调用,不管是个人开发者做原型验证,还是中小企业落地 AI 业务都很适配。

拿到一张"脏"表,先让 AI 理解数据结构

假设你拿到一份某电商店铺 2025 年全年的销售报表。打开一看,典型的"表哥风":单元格合并、日期格式不统一、部分行的金额列填了"待确认"、客户来源列有大量缺失。

传统做法是花半天手动整理,但 Gemini 3.5 可以直接把整份 Excel 丢进去让它理解结构。提示词很简单:

"这份 Excel 是一份年度销售报表。请先扫描整体结构,告诉我:有哪些 Sheet,每个 Sheet 的核心字段是什么,发现了哪些数据质量问题。"

Gemini 3.5 扫描后给出诊断:主表有 12 个月份 Sheet,每个 Sheet 结构一致;发现三类质量问题------日期格式混乱、"待确认"文本混入数值列、客户来源字段缺失率约 15%。还额外发现 3 处合并单元格导致表头识别偏差。

这一步的价值是帮你快速建立对数据全貌的认知,不需要手动翻 12 个 Sheet。

数据清洗:用代码辅助,而非纯手工

诊断完成后,清洗逻辑 Gemini 3.5 能直接生成 Python 代码。比如处理"待确认"这种文本混入数值列的问题,给它这个 Prompt:

"请生成 Python 代码,遍历所有 Sheet,将所有'销售额'列中的'待确认'替换为空值,并将该列转换为 float 类型。"

它输出的是可直接运行的 pandas 脚本,还加了异常处理:

python

bash 复制代码
def clean_sales_data(df):
    df['销售额'] = pd.to_numeric(df['销售额'], errors='coerce')
    return df

cleaned_df = pd.read_excel('sales.xlsx', sheet_name=None)
for sheet_name, df in cleaned_df.items():
    cleaned_df[sheet_name] = clean_sales_data(df)

日期格式清洗同理。原始数据里混杂了"2025/01/01"和"2025年1月1日"两种格式,Gemini 3.5 生成了一段用正则加 pd.to_datetime 的统一处理逻辑。代码本身不复杂,但省去了翻文档、试错的时间。

缺失值处理:让 AI 给出合理的业务推断

客户来源字段缺失率 15%,不能粗暴删除。Gemini 3.5 能根据已有数据模式给出填充建议:

"缺失的客户来源中,约 60% 出现在 6 月和 11 月。结合这两个月的营销日历------618 和双 11 大促------建议将这两个月的缺失值填充为'大促活动',其余月份填充为'自然搜索'。"

这个建议不是凭空猜测,而是基于上下文推断。当然最终填充逻辑由你确认,但它帮你想到了"按时间分段填充"这个维度,省去了自己摸索的时间。

聚合分析与趋势洞察

数据洗干净后,分析指令可以下得很直白:

"基于清洗后的数据,按月份汇总销售额,生成一份趋势分析报告,包含月度环比增长率、峰值月份分析。"

Gemini 3.5 生成统计分析代码加趋势解读。发现 6 月和 11 月是明显峰值,1 月和 8 月是低谷。同时给出业务洞察------6 月峰值是 5 月的 2.3 倍,618 预热效应明显;1 月低谷是春节物流停摆导致,建议提前备货;8 月低谷是行业淡季,建议用清仓活动对冲。

可视化建议与自动生成

数据和结论都有了,下一步做图。Gemini 3.5 能直接生成 matplotlib 代码或给出图表建议:

"建议用组合图:柱状图展示月度销售额,折线图叠加环比增长率。标注 6 月和 11 月峰值,1 月和 8 月低谷。"

配上自动生成的 Python 脚本,复制粘贴到 Jupyter Notebook 就能出图,不用手写繁琐的绘图代码。

总结与避坑

Gemini 3.5 在 Excel 数据处理上的实用度超出预期,尤其三个环节特别能打:数据结构理解------跨 Sheet 扫描和问题诊断;清洗代码生成------准确度高且带异常处理;趋势分析------能结合业务背景做解读。

但也踩了几个坑需要留意。多 Sheet 文件的 Sheet 名称如果是中文特殊符号,识别有时偏差,建议先用简单英文字母命名。推导出的代码如果不加 errors='coerce' 异常处理,遇到顽固脏数据容易被卡住。涉及到具体领域知识的地方,AI 只能给出参考性建议,最终的业务判断还是需要你来把关。

总的来说,Gemini 3.5 在 Excel 数据处理这个场景下,是一个能大幅压缩"体力活"占比的工具。把理解结构、生成清洗代码、趋势分析这些耗时环节交给它,把最终的业务判断留给自己------这才是人机协作的正确打开方式。

相关推荐
水煮白菜王1 小时前
高德地图"未获得商用授权"水印临时移除方案
前端·javascript
安逸sgr1 小时前
《图解机器学习-第五章》:过拟合和欠拟合:为什么训练集很好,测试集很差?
人工智能·机器学习
小小小小宇1 小时前
React17 18 19 新增能力、解决问题、原理与使用详解
前端
by————组态1 小时前
Ricon组态可视化编辑器 - 所见即所得的工业画布
前端·javascript·物联网·架构·编辑器·组态
Xiaofeng36931 小时前
Claude 4.8 提示词工程:结构化输出的5个黄金模板
人工智能
成都易yisdong1 小时前
上海某平面坐标系与CGCS2000坐标互转详解(含全域拟合点、实战案例、保密规范)
大数据·人工智能·算法
techdashen1 小时前
Go 语言仓库 Top 100 贡献者分析报告
开发语言·后端·golang
何以解忧,唯有..1 小时前
Go 语言变量命名规范详解
开发语言·后端·golang
Jump 不二1 小时前
从 CV 扩散到 NLP:详解 Google DiffusionGemma 架构、推理机制与优劣
人工智能·深度学习·自然语言处理