【Python数据科学实战之路】第18章 | 大模型与数据科学：LLM赋能数据分析新时代

Python版本 ：Python 3.12+
开发工具 ：PyCharm 或 VS Code
操作系统 ：Windows / macOS / Linux (通用)
核心依赖：openai>=1.0.0, langchain>=0.3.0, pandasai>=0.1.0

摘要：本章探索大语言模型（LLM）如何革新数据科学工作流程。从AI辅助数据清洗到自然语言生成洞察，掌握Prompt Engineering技巧，构建智能化的数据分析 pipeline。

前置要求

学习本章前，建议先完成：

第10章机器学习基础
第13章 TensorFlow深度学习或第14章 PyTorch深度学习
具备Python编程基础和基本的数据处理能力

学习目标

完成本章学习后，你将能够：

理解LLM在数据科学中的核心应用场景
掌握Prompt Engineering的基础技巧
使用AI工具辅助数据清洗和探索性分析
构建自然语言交互的数据分析系统
评估AI辅助分析的准确性和局限性

1. LLM与数据科学的融合趋势

1.1 传统数据科学 vs AI增强数据科学

环节	传统方式	AI增强方式
数据清洗	手动编写规则	AI自动识别异常模式
特征工程	人工设计特征	AI自动生成特征建议
EDA分析	手动探索可视化	AI自动生成分析报告
代码编写	手动编写代码	自然语言描述生成代码
报告撰写	人工总结洞察	AI自动生成数据故事

1.2 主流AI数据分析工具

工具名称	官网链接	核心功能
ChatGPT Advanced Data Analysis	https://chat.openai.com	上传数据直接对话分析
Claude (Anthropic)	https://claude.ai	长文本数据分析
Julius AI	https://julius.ai	专门的数据分析AI
PandasAI	https://pandas-ai.com	Python库，自然语言操作DataFrame
DataLab (DataCamp)	https://www.datacamp.com/datalab	集成AI的云端分析环境
GitHub Copilot	https://github.com/features/copilot	代码智能补全

2. Prompt Engineering for Data Science

2.1 数据分析专用Prompt模板

markdown 复制代码

## 数据清洗Prompt模板

你是一个数据清洗专家。请帮我处理以下数据问题：

数据描述：[描述你的数据集]
数据样本：

粘贴数据样本

复制代码

问题类型：
- [ ] 缺失值处理
- [ ] 异常值检测
- [ ] 格式标准化
- [ ] 重复值处理

请提供：
1. Python代码解决方案
2. 处理逻辑说明
3. 注意事项

## EDA分析Prompt模板

请对以下数据进行探索性分析：

数据集：[数据集名称]
字段说明：
- 字段A：[说明]
- 字段B：[说明]

请分析：
1. 数据质量概况
2. 各字段分布特征
3. 字段间相关性
4. 潜在的数据洞察
5. 建议的可视化方案

2.2 Prompt优化技巧

技巧	示例	效果
角色设定	"你是一位资深数据分析师"	提升回答专业性
提供上下文	附上数据字典	减少误解
指定输出格式	"请以表格形式返回"	提高可读性
分步骤提问	先问清洗再问分析	获得更详细回答
要求解释	"请解释这段代码的作用"	增强学习效果

3. PandasAI实战

3.1 环境配置

bash 复制代码

# 安装PandasAI
pip install pandasai

# 安装LLM后端（以OpenAI为例）
pip install pandasai[openai]

3.2 基础用法

python 复制代码

import pandas as pd
from pandasai import SmartDataframe
import os

# 设置API密钥
os.environ["OPENAI_API_KEY"] = "your-api-key"

# 加载数据
df = pd.read_csv("sales_data.csv")

# 转换为SmartDataframe
sdf = SmartDataframe(df)

# 自然语言查询
response = sdf.chat("销售额最高的前5个产品是什么？")
print(response)

# 生成可视化
sdf.chat("绘制月度销售趋势图")

# 复杂分析
sdf.chat("分析不同地区的销售差异，并给出提升建议")

3.3 本地LLM集成

python 复制代码

# 使用本地模型（无需API密钥）
from pandasai.llm import Ollama

llm = Ollama(model="llama3.1")
sdf = SmartDataframe(df, config={"llm": llm})

response = sdf.chat("描述这个数据集的统计特征")

4. LangChain构建数据分析Agent

4.1 基础Agent构建

python 复制代码

from langchain import OpenAI, LLMChain, PromptTemplate
from langchain.agents import create_pandas_dataframe_agent
import pandas as pd

# 创建Agent
agent = create_pandas_dataframe_agent(
    OpenAI(temperature=0),
    df,
    verbose=True,
    allow_dangerous_code=True
)

# 执行查询
agent.run("计算每个类别的平均销售额，并找出增长最快的类别")

4.2 自定义数据分析工具

python 复制代码

from langchain.tools import Tool
from langchain.agents import initialize_agent

# 定义自定义工具
def analyze_trends(data_path):
    """趋势分析工具"""
    df = pd.read_csv(data_path)
    trends = df.groupby('date')['value'].sum()
    return trends.describe()

tools = [
    Tool(
        name="趋势分析",
        func=analyze_trends,
        description="分析数据的时间趋势"
    )
]

# 初始化Agent
agent = initialize_agent(
    tools,
    llm,
    agent="zero-shot-react-description",
    verbose=True
)

agent.run("分析sales_data.csv的趋势")

5. AI辅助数据清洗实战

5.1 自动异常检测

python 复制代码

import pandas as pd
import numpy as np

# 示例：使用AI识别异常值
def ai_detect_outliers(df, column, llm_client):
    """
    使用AI识别异常值
    """
    stats = df[column].describe()
  
    prompt = f"""
    数据字段：{column}
    统计信息：
    {stats}
  
    样本数据（前20个值）：
    {df[column].head(20).tolist()}
  
    请识别：
    1. 可能的异常值范围
    2. 异常值的业务含义
    3. 处理建议
    """
  
    response = llm_client.complete(prompt)
    return response

# 使用示例
# outliers_analysis = ai_detect_outliers(df, 'revenue', llm)

5.2 智能数据补全

python 复制代码

def smart_impute(df, column, llm_client):
    """
    基于AI的智能缺失值填充
    """
    # 分析缺失模式
    missing_pattern = df[column].isnull().sum() / len(df)
  
    prompt = f"""
    字段：{column}
    缺失率：{missing_pattern:.2%}
    数据类型：{df[column].dtype}
    其他相关字段：{df.columns.tolist()}
  
    请推荐最适合的缺失值填充策略，并说明理由。
    """
  
    strategy = llm_client.complete(prompt)
    return strategy

6. 自动化报告生成

6.1 生成数据报告

python 复制代码

def generate_ai_report(df, llm_client):
    """
    自动生成数据分析报告
    """
    # 基础统计
    basic_stats = df.describe().to_string()
  
    prompt = f"""
    基于以下数据统计信息，生成一份专业的数据分析报告：
  
    数据集概况：
    - 行数：{len(df)}
    - 列数：{len(df.columns)}
    - 字段：{', '.join(df.columns)}
  
    统计摘要：
    {basic_stats}
  
    请生成包含以下内容的报告：
    1. 执行摘要
    2. 数据质量评估
    3. 关键发现
    4. 可视化建议
    5. 行动建议
    """
  
    report = llm_client.complete(prompt)
    return report

7. 避坑小贴士

7.1 AI辅助分析的局限性

局限	说明	应对策略
幻觉问题	AI可能生成虚假分析结果	始终验证关键结论
数据隐私	上传敏感数据到云端有风险	使用本地模型或脱敏处理
上下文限制	大表格可能超出token限制	分批处理或提供摘要
代码安全	AI生成的代码可能有问题	审查后再执行
成本问题	API调用费用可能较高	设置预算限制

7.2 最佳实践

验证优先：AI生成的分析结论必须通过传统方法验证
数据脱敏：避免上传包含PII（个人身份信息）的数据
版本控制：保留AI生成代码的版本历史
混合使用：AI辅助 + 人工判断，而非完全依赖

8. 本章小结

本章学习了：

LLM在数据科学中的应用场景：从数据清洗到报告生成
Prompt Engineering技巧：如何获得更好的AI分析结果
PandasAI实战：自然语言操作DataFrame
LangChain Agent：构建智能数据分析助手
AI辅助数据清洗：自动异常检测和智能补全
自动化报告：一键生成专业分析报告

核心认知：LLM是数据科学家的助手而非替代品，关键在于如何有效利用AI提升效率，同时保持专业判断。

上一篇：[第17章 Dask并行计算](file:///d:/python/Python全栈开发/数据科学实战之路/第17章-Dask并行计算/第17章-Dask并行计算.md)
下一篇：[第19章 RAG与向量数据库](file:///d:/python/Python全栈开发/数据科学实战之路/第19章-RAG与向量数据库/第19章-RAG与向量数据库.md)

本章内容到此结束。AI技术发展迅速，建议持续关注最新工具和最佳实践。

【Python数据科学实战之路】第18章 | 大模型与数据科学：LLM赋能数据分析新时代

前置要求

学习目标

1. LLM与数据科学的融合趋势

1.1 传统数据科学 vs AI增强数据科学

1.2 主流AI数据分析工具

2. Prompt Engineering for Data Science

2.1 数据分析专用Prompt模板

2.2 Prompt优化技巧

3. PandasAI实战

3.1 环境配置

3.2 基础用法

3.3 本地LLM集成

4. LangChain构建数据分析Agent

4.1 基础Agent构建

4.2 自定义数据分析工具

5. AI辅助数据清洗实战

5.1 自动异常检测

5.2 智能数据补全

6. 自动化报告生成

6.1 生成数据报告

7. 避坑小贴士

7.1 AI辅助分析的局限性

7.2 最佳实践

8. 本章小结

上一篇/下一篇导航