用 Agent 自动化数据处理：从 2 小时到 15 分钟的效率革命

💻 完整可运行代码： https://github.com/Lee985-cmd/AI-30-Day-Challenge

⭐ 如果觉得有用，欢迎 Star 支持！

一、场景痛点：数据分析师的日常困境

真实场景还原

复制代码

早上 9:00 - 收到老板邮件："帮我分析一下 Q3 销售数据，看看为什么华东区下降"
早上 9:30 - 从数据库导出 Excel（50000+ 行）
早上 10:00 - 开始数据清洗（处理缺失值、异常值）
上午 11:30 - 数据转换（计算环比、同比、增长率）
下午 2:00 - 数据分析（多维度拆解、归因分析）
下午 4:00 - 可视化（制作图表、仪表盘）
下午 5:30 - 写分析报告（PPT + Word）
晚上 7:00 - 终于完成！耗时 10 小时 😫

痛点总结

重复性工作占比 70%

数据清洗（30%）
格式转换（20%）
基础统计（20%）

创造性工作仅占 30%

深度分析（15%）
策略建议（15%）

核心问题：

❌ 时间浪费在低价值工作
❌ 容易出错（手动操作）
❌ 无法快速响应业务需求

Agent 能解决什么？

传统方式： 人工完成所有步骤（10 小时）

Agent 方式：

复制代码

数据清洗 → Agent 自动完成（5 分钟）
数据转换 → Agent 自动生成代码（3 分钟）
基础分析 → Agent 自动计算（2 分钟）
可视化 → Agent 自动生成图表（3 分钟）
报告撰写 → Agent 自动生成文字（2 分钟）
人工审核和优化 → 你专注高价值工作（30 分钟）

总计：45 分钟 vs 10 小时，效率提升 13 倍！🚀

二、系统设计：技术架构

核心技术栈

组件	技术选型	作用
Agent 框架	LangChain	任务编排、工具调用
数据分析	Pandas AI	自然语言查询数据
可视化	Matplotlib/Seaborn	自动生成图表
大模型	通义千问 qwen-plus	理解意图、生成代码
Web 界面	Streamlit	交互式操作界面

系统架构图

复制代码

用户输入（自然语言）
  ↓
[意图识别 Agent]
  ↓ 识别任务类型（查询/清洗/分析/可视化）
  ↓
[数据加载模块]
  ↓ 支持 Excel/CSV/SQL/数据库
  ↓
[Pandas AI Agent]
  ↓ 生成 Python 代码并执行
  ↓
[结果验证模块]
  ↓ 检查代码是否正确执行
  ↓
[可视化 Agent]
  ↓ 自动生成合适的图表
  ↓
[报告生成 Agent]
  ↓ 生成文字分析报告
  ↓
输出：数据 + 图表 + 报告

核心能力

自然语言查询
- "帮我找出 Q3 销售额下降的原因"
- "对比华东区和华南区的客单价"
自动数据清洗
- 检测缺失值并填充
- 识别异常值并处理
- 数据类型转换
智能可视化
- 根据数据类型推荐图表
- 自动生成美观的图表
- 支持多种图表类型
一键生成报告
- 自动总结关键发现
- 生成结构化报告
- 提供业务建议

三、代码实战：从 0 到 1 搭建

第 1 步：环境准备

复制代码

# 创建虚拟环境
conda create -n data-agent python=3.10
conda activate data-agent

# 安装依赖
pip install langchain langchain-community dashscope pandas-ai streamlit openpyxl matplotlib seaborn

requirements.txt：

复制代码

langchain>=0.1.0
langchain-community>=0.0.10
dashscope>=1.14.0
pandas-ai>=2.0.0
streamlit>=1.31.0
openpyxl>=3.1.0
matplotlib>=3.8.0
seaborn>=0.13.0
pandas>=2.0.0
numpy>=1.24.0

第 2 步：生成测试数据

先创建一个脚本来生成示例数据：

复制代码

# generate_sample_data.py
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

def generate_sales_data():
    """生成电商销售数据"""
    np.random.seed(42)
    
    regions = ['华东', '华南', '华北', '西南', '西北']
    categories = ['电子产品', '服装', '食品', '家居', '图书']
    months = [f'2024-{i:02d}' for i in range(1, 13)]
    
    data = []
    
    for month in months:
        for region in regions:
            for category in categories:
                base_sales = np.random.randint(5000, 20000)
                
                # 添加季节性因素
                month_num = int(month.split('-')[1])
                if month_num in [6, 11, 12]:
                    base_sales *= 1.3
                elif month_num == 2:
                    base_sales *= 0.8
                
                # 添加地区差异
                if region == '华东':
                    base_sales *= 1.2
                elif region == '西北':
                    base_sales *= 0.8
                
                sales = int(base_sales)
                orders = int(sales / np.random.randint(80, 150))
                customers = int(orders * np.random.uniform(0.7, 0.9))
                
                data.append({
                    '月份': month,
                    '地区': region,
                    '品类': category,
                    '销售额': sales,
                    '订单数': orders,
                    '客户数': customers,
                    '客单价': round(sales / max(orders, 1), 2)
                })
    
    df = pd.DataFrame(data)
    
    # 添加一些缺失值（模拟真实数据）
    mask = np.random.random(df.shape[0]) < 0.02
    df.loc[mask, '销售额'] = np.nan
    
    return df

if __name__ == "__main__":
    print("正在生成销售数据...")
    sales_df = generate_sales_data()
    sales_df.to_excel("data/sales_data.xlsx", index=False)
    print(f"✅ 销售数据已保存: {sales_df.shape}")

运行：

复制代码

python generate_sample_data.py

第 3 步：实现数据加载模块

复制代码

# data_agent/data_loader.py
import pandas as pd
import os

class DataLoader:
    """数据加载器"""
    
    @staticmethod
    def load(file_path: str) -> pd.DataFrame:
        """
        加载数据文件
        
        Args:
            file_path: 文件路径（支持 .csv, .xlsx, .xls）
            
        Returns:
            DataFrame
        """
        if not os.path.exists(file_path):
            raise FileNotFoundError(f"文件不存在: {file_path}")
        
        if file_path.endswith('.csv'):
            return pd.read_csv(file_path, encoding='utf-8')
        elif file_path.endswith(('.xlsx', '.xls')):
            return pd.read_excel(file_path)
        else:
            raise ValueError(f"不支持的文件格式: {file_path}")
    
    @staticmethod
    def get_data_info(df: pd.DataFrame) -> str:
        """获取数据摘要信息"""
        info = f"""
数据形状: {df.shape}
列名: {df.columns.tolist()}

数据类型:
{df.dtypes.to_string()}

缺失值统计:
{df.isnull().sum().to_string()}

前 5 行数据:
{df.head().to_string()}
        """
        return info

第 4 步：实现 Pandas AI Agent

这是核心模块，让 AI 能用自然语言查询数据：

复制代码

# data_agent/pandas_agent.py
from pandasai import SmartDataframe
from langchain_community.chat_models import ChatTongyi
import os
import pandas as pd

class PandasAIAgent:
    """Pandas AI Agent - 用自然语言查询数据"""
    
    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("DASHSCOPE_API_KEY")
        if not self.api_key:
            raise ValueError("请设置 DASHSCOPE_API_KEY 环境变量")
        
        # 初始化通义千问
        self.llm = ChatTongyi(
            model="qwen-plus",
            temperature=0
        )
    
    def query(self, df: pd.DataFrame, question: str) -> dict:
        """
        用自然语言查询数据
        
        Args:
            df: 数据框
            question: 自然语言问题
            
        Returns:
            包含结果、代码、解释的字典
        """
        # 创建 SmartDataframe
        smart_df = SmartDataframe(
            df,
            config={
                "llm": self.llm,
                "save_charts": True,
                "save_charts_path": "./charts",
                "verbose": True
            }
        )
        
        # 执行查询
        try:
            result = smart_df.chat(question)
            
            return {
                "success": True,
                "result": result,
                "explanation": f"问题：{question}\n\n回答：{result}"
            }
        except Exception as e:
            return {
                "success": False,
                "error": str(e),
                "explanation": f"执行失败：{str(e)}"
            }

# 测试
if __name__ == "__main__":
    from data_loader import DataLoader
    
    # 加载数据
    df = DataLoader.load("data/sales_data.xlsx")
    
    # 创建 Agent
    agent = PandasAIAgent()
    
    # 测试查询
    questions = [
        "哪个地区的销售额最高？",
        "Q3 各品类的销售额对比",
        "华东区 Q2 和 Q3 的销售额变化"
    ]
    
    for q in questions:
        print(f"\n问题: {q}")
        result = agent.query(df, q)
        print(result["explanation"])

第 5 步：实现数据清洗 Agent

复制代码

# data_agent/cleaning_agent.py
import pandas as pd
from langchain_community.chat_models import ChatTongyi
from langchain_core.prompts import PromptTemplate
from langchain_classic.chains import LLMChain
import os

class DataCleaningAgent:
    """数据清洗 Agent"""
    
    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("DASHSCOPE_API_KEY")
        os.environ["DASHSCOPE_API_KEY"] = self.api_key
        
        self.llm = ChatTongyi(model="qwen-plus", temperature=0)
        
        # 数据清洗提示词
        prompt = PromptTemplate(
            input_variables=["data_info", "cleaning_request"],
            template="""你是一个数据分析专家。请根据以下数据信息和清洗需求，生成 Python 代码。

数据信息：
{data_info}

清洗需求：
{cleaning_request}

请只输出 Python 代码，不要解释。代码应该：
1. 处理缺失值（用均值或中位数填充）
2. 处理异常值（删除或修正）
3. 转换数据类型
4. 返回清洗后的 DataFrame，变量名为 df

代码："""
        )
        
        self.chain = LLMChain(llm=self.llm, prompt=prompt)
    
    def clean(self, df: pd.DataFrame, request: str = "自动清洗") -> pd.DataFrame:
        """
        清洗数据
        
        Args:
            df: 原始数据框
            request: 清洗需求（默认自动清洗）
            
        Returns:
            清洗后的数据框
        """
        # 生成数据摘要
        from data_loader import DataLoader
        data_info = DataLoader.get_data_info(df)
        
        # 生成清洗代码
        result = self.chain.invoke({
            "data_info": data_info,
            "cleaning_request": request
        })
        
        code = result["text"] if isinstance(result, dict) else str(result)
        
        # 执行代码
        try:
            exec_env = {"pd": pd, "df": df.copy(), "np": __import__('numpy')}
            exec(code, exec_env)
            
            cleaned_df = exec_env.get("df", df)
            
            print(f"✅ 数据清洗完成")
            print(f"清洗前: {df.shape}, 清洗后: {cleaned_df.shape}")
            
            return cleaned_df
        except Exception as e:
            print(f"❌ 清洗失败：{e}")
            print(f"生成的代码：\n{code}")
            return df

# 测试
if __name__ == "__main__":
    from data_loader import DataLoader
    import numpy as np
    
    # 加载数据
    df = DataLoader.load("data/sales_data.xlsx")
    
    # 创建 Agent
    agent = DataCleaningAgent()
    
    # 清洗数据
    cleaned_df = agent.clean(df)
    print(f"\n清洗后缺失值:\n{cleaned_df.isnull().sum()}")

第 6 步：实现可视化 Agent

复制代码

# data_agent/visualization_agent.py
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from langchain_community.chat_models import ChatTongyi
from langchain_core.prompts import PromptTemplate
from langchain_classic.chains import LLMChain
import os

class VisualizationAgent:
    """可视化 Agent"""
    
    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("DASHSCOPE_API_KEY")
        os.environ["DASHSCOPE_API_KEY"] = self.api_key
        
        self.llm = ChatTongyi(model="qwen-plus", temperature=0)
        
        # 可视化提示词
        prompt = PromptTemplate(
            input_variables=["data_info", "visualization_request"],
            template="""你是一个数据可视化专家。请根据以下数据信息和可视化需求，生成 Python 代码。

数据信息：
{data_info}

可视化需求：
{visualization_request}

请只输出 Python 代码，使用 matplotlib 或 seaborn。代码应该：
1. 设置中文字体（使用 SimHei 或 Microsoft YaHei）
2. 选择合适的图表类型（柱状图、折线图、饼图等）
3. 添加标题和标签
4. 保存图表到 ./charts/chart.png
5. 设置图片大小为 12x8

代码："""
        )
        
        self.chain = LLMChain(llm=self.llm, prompt=prompt)
    
    def visualize(self, df: pd.DataFrame, request: str = "自动选择合适的图表") -> str:
        """
        生成可视化图表
        
        Args:
            df: 数据框
            request: 可视化需求
            
        Returns:
            图表文件路径
        """
        from data_loader import DataLoader
        data_info = DataLoader.get_data_info(df)
        
        # 生成可视化代码
        result = self.chain.invoke({
            "data_info": data_info,
            "visualization_request": request
        })
        
        code = result["text"] if isinstance(result, dict) else str(result)
        
        # 执行代码
        try:
            os.makedirs("./charts", exist_ok=True)
            
            # 设置中文字体
            plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei']
            plt.rcParams['axes.unicode_minus'] = False
            
            exec_env = {
                "pd": pd, 
                "plt": plt, 
                "sns": sns, 
                "df": df,
                "np": __import__('numpy')
            }
            exec(code, exec_env)
            
            chart_path = "./charts/chart.png"
            print(f"✅ 图表已保存到: {chart_path}")
            
            return chart_path
        except Exception as e:
            print(f"❌ 可视化失败：{e}")
            print(f"生成的代码：\n{code}")
            return None

# 测试
if __name__ == "__main__":
    from data_loader import DataLoader
    
    # 加载数据
    df = DataLoader.load("data/sales_data.xlsx")
    
    # 创建 Agent
    agent = VisualizationAgent()
    
    # 生成图表
    chart_path = agent.visualize(df, "绘制各地区销售额对比柱状图")

第 7 步：集成 FastAPI 接口

复制代码

# data_agent/api.py
from fastapi import FastAPI, UploadFile, File
from pydantic import BaseModel
from data_loader import DataLoader
from pandas_agent import PandasAIAgent
from cleaning_agent import DataCleaningAgent
from visualization_agent import VisualizationAgent
import pandas as pd
import os

app = FastAPI(title="AI 数据分析 Agent API")

# 全局变量
pandas_agent = None
cleaning_agent = None
viz_agent = None
current_df = None

@app.on_event("startup")
async def startup():
    """初始化服务"""
    global pandas_agent, cleaning_agent, viz_agent
    
    api_key = os.getenv("DASHSCOPE_API_KEY")
    if not api_key:
        raise ValueError("请设置 DASHSCOPE_API_KEY 环境变量")
    
    pandas_agent = PandasAIAgent(api_key=api_key)
    cleaning_agent = DataCleaningAgent(api_key=api_key)
    viz_agent = VisualizationAgent(api_key=api_key)
    
    print("✅ 服务初始化完成！")

class QueryRequest(BaseModel):
    question: str

class CleaningRequest(BaseModel):
    request: str = "自动清洗"

class VizRequest(BaseModel):
    request: str = "自动选择合适的图表"

@app.post("/upload")
async def upload_file(file: UploadFile = File(...)):
    """上传数据文件"""
    global current_df
    
    # 保存文件
    file_path = f"./uploads/{file.filename}"
    os.makedirs("./uploads", exist_ok=True)
    
    with open(file_path, "wb") as f:
        content = await file.read()
        f.write(content)
    
    # 加载数据
    current_df = DataLoader.load(file_path)
    
    return {
        "message": "文件上传成功",
        "shape": list(current_df.shape),
        "columns": current_df.columns.tolist(),
        "preview": current_df.head().to_dict()
    }

@app.post("/query")
async def query_data(request: QueryRequest):
    """自然语言查询数据"""
    if current_df is None:
        return {"error": "请先上传数据文件"}
    
    result = pandas_agent.query(current_df, request.question)
    return result

@app.post("/clean")
async def clean_data(request: CleaningRequest = CleaningRequest()):
    """清洗数据"""
    global current_df
    
    if current_df is None:
        return {"error": "请先上传数据文件"}
    
    current_df = cleaning_agent.clean(current_df, request.request)
    
    return {
        "message": "数据清洗完成",
        "shape": list(current_df.shape),
        "preview": current_df.head().to_dict()
    }

@app.post("/visualize")
async def visualize_data(request: VizRequest = VizRequest()):
    """生成可视化图表"""
    if current_df is None:
        return {"error": "请先上传数据文件"}
    
    chart_path = viz_agent.visualize(current_df, request.request)
    
    if chart_path:
        return {
            "message": "图表生成成功",
            "chart_path": chart_path
        }
    else:
        return {"error": "图表生成失败"}

@app.get("/health")
async def health_check():
    """健康检查"""
    return {"status": "ok", "service": "AI Data Analysis Agent"}

@app.get("/")
async def root():
    """根路径"""
    return {
        "message": "欢迎使用 AI 数据分析 Agent API",
        "version": "1.0.0",
        "docs": "/docs"
    }

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

第 8 步：创建 Streamlit Web 界面

复制代码

# data_agent/web_app.py
import streamlit as st
import requests
import pandas as pd
from PIL import Image
import os

st.set_page_config(
    page_title="AI 数据分析 Agent",
    page_icon="📊",
    layout="wide"
)

st.title("📊 AI 数据分析 Agent")
st.markdown("---")

# 侧边栏
st.sidebar.title("🎯 功能说明")
st.sidebar.markdown("""
- **上传数据**：支持 Excel、CSV 格式
- **自然语言查询**：用中文提问即可
- **自动清洗**：一键处理缺失值和异常值
- **智能可视化**：自动生成合适的图表
""")

st.sidebar.title("📈 系统状态")
try:
    response = requests.get("http://localhost:8000/health")
    if response.status_code == 200:
        st.sidebar.success("✅ 服务运行中")
    else:
        st.sidebar.error("❌ 服务异常")
except:
    st.sidebar.error("❌ 服务未启动")

# 初始化会话状态
if "uploaded" not in st.session_state:
    st.session_state.uploaded = False

# 上传文件
st.header("1️⃣ 上传数据文件")
uploaded_file = st.file_uploader("选择 Excel 或 CSV 文件", type=['xlsx', 'xls', 'csv'])

if uploaded_file is not None:
    # 保存文件
    file_path = f"./uploads/{uploaded_file.name}"
    os.makedirs("./uploads", exist_ok=True)
    
    with open(file_path, "wb") as f:
        f.write(uploaded_file.getbuffer())
    
    # 上传到服务器
    files = {'file': (uploaded_file.name, uploaded_file.getvalue())}
    response = requests.post("http://localhost:8000/upload", files=files)
    
    if response.status_code == 200:
        result = response.json()
        st.session_state.uploaded = True
        st.success(f"✅ 文件上传成功！数据形状: {result['shape']}")
        
        # 显示数据预览
        st.subheader("数据预览")
        df_preview = pd.DataFrame(result['preview'])
        st.dataframe(df_preview)
    else:
        st.error("❌ 上传失败")

# 数据分析
if st.session_state.uploaded:
    st.markdown("---")
    st.header("2️⃣ 自然语言查询")
    
    question = st.text_input("请输入你的问题（例如：哪个地区销售额最高？）")
    
    if st.button("🔍 查询"):
        if question:
            with st.spinner("正在分析..."):
                response = requests.post(
                    "http://localhost:8000/query",
                    json={"question": question}
                )
                
                if response.status_code == 200:
                    result = response.json()
                    st.subheader("分析结果")
                    st.write(result.get('result', '无结果'))
                else:
                    st.error("查询失败")
    
    st.markdown("---")
    st.header("3️⃣ 数据清洗")
    
    if st.button("🧹 自动清洗数据"):
        with st.spinner("正在清洗..."):
            response = requests.post(
                "http://localhost:8000/clean",
                json={"request": "自动清洗"}
            )
            
            if response.status_code == 200:
                result = response.json()
                st.success(f"✅ 清洗完成！数据形状: {result['shape']}")
            else:
                st.error("清洗失败")
    
    st.markdown("---")
    st.header("4️⃣ 数据可视化")
    
    viz_request = st.text_input("可视化需求（例如：绘制各地区销售额对比柱状图）", 
                                 value="自动选择合适的图表")
    
    if st.button("📊 生成图表"):
        with st.spinner("正在生成图表..."):
            response = requests.post(
                "http://localhost:8000/visualize",
                json={"request": viz_request}
            )
            
            if response.status_code == 200:
                result = response.json()
                chart_path = result.get('chart_path')
                
                if chart_path and os.path.exists(chart_path):
                    st.subheader("生成的图表")
                    image = Image.open(chart_path)
                    st.image(image, use_column_width=True)
                else:
                    st.error("图表文件不存在")
            else:
                st.error("图表生成失败")

# 使用说明
st.markdown("---")
st.header("💡 使用示例")

st.markdown("""
**常见查询问题：**
- 哪个地区的销售额最高？
- Q3 各品类的销售额对比
- 华东区 Q2 和 Q3 的销售额变化趋势
- 客单价最高的品类是什么？
- 找出销售额异常的数据

**可视化需求：**
- 绘制各地区销售额对比柱状图
- 绘制月度销售额趋势折线图
- 绘制各品类销售额占比饼图
""")

四、真实案例演示

案例 1：电商销售数据分析

场景： 分析 Q3 销售数据，找出华东区销售额下降的原因

操作步骤：

上传数据

POST http://localhost:8000/upload
文件: sales_q3.xlsx
查询数据

POST http://localhost:8000/query
{
"question": "对比 Q2 和 Q3 华东区的销售额变化"
}

返回结果：

复制代码

Q2 华东区销售额：150 万
Q3 华东区销售额：120 万
下降幅度：20%

深入分析

POST http://localhost:8000/query
{
"question": "找出华东区销售额下降的主要原因"
}

返回结果：

复制代码

关键发现：
1. 电子产品销售额下降 25%（主要因素）
2. 服装销售额下降 10%
3. 竞争对手 A 在 7 月推出促销活动

生成可视化

POST http://localhost:8000/visualize
{
"request": "绘制华东区 Q2-Q3 销售额对比柱状图"
}
生成报告

POST http://localhost:8000/query
{
"question": "生成一份简短的分析报告，包含关键发现和建议"
}

最终报告：

复制代码

📊 华东区 Q3 销售分析报告

【关键发现】
1. Q3 销售额 120 万，较 Q2 下降 20%
2. 主要下降品类：电子产品（-25%）、服装（-10%）
3. 竞争因素：对手 A 在 7 月推出促销活动

【建议】
1. 针对电子产品推出限时优惠
2. 加强会员营销，提升复购率
3. 优化物流配送速度
4. 考虑与供应商协商降低成本

五、效率提升对比

任务	传统方式	Agent 方式	提升倍数
数据加载	5 分钟	1 分钟	5x
数据清洗	30 分钟	5 分钟	6x
数据查询	20 分钟	2 分钟	10x
可视化	25 分钟	3 分钟	8x
报告撰写	40 分钟	4 分钟	10x
总计	2 小时	15 分钟	8x

成本对比：

传统方式：数据分析师 2 小时 × 100 元/小时 = 200 元
Agent 方式：API 调用 15 分钟 × 0.01 元/次 × 10 次 = 1.5 元
成本降低：99% 💰

六、踩坑记录

坑 1：Pandas AI 安装问题

错误： ModuleNotFoundError: No module named 'pandasai'

解决：

复制代码

pip install pandas-ai==2.0.0

注意：Pandas AI 有多个版本，建议使用 2.0.0+

坑 2：中文字体显示问题

现象： 图表中的中文显示为方框

解决：

复制代码

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

Windows 系统使用 SimHei 或 Microsoft YaHei

Mac 系统使用 Arial Unicode MS 或 Heiti TC

坑 3：API Key 配置

错误： ValueError: 请设置 DASHSCOPE_API_KEY 环境变量

解决：

复制代码

# PowerShell（永久设置）
[System.Environment]::SetEnvironmentVariable("DASHSCOPE_API_KEY", "sk-your-api-key", "User")

# 重启终端后生效

坑 4：复杂查询失败

现象： 多表关联查询时 Agent 生成错误代码

解决：

简化查询，分步进行
先在 Pandas 中完成数据预处理
再让 Agent 进行分析

七、局限性分析

当前局限

复杂逻辑仍需人工干预
- 多表关联查询可能出错
- 复杂的业务逻辑需要人工编写代码
数据隐私问题
- 敏感数据不建议上传到云端
- 建议使用本地部署的大模型
成本评估
- API 调用成本：约 0.01 元/次查询
- 1000 次查询 = 10 元
- 相比人工成本（200 元/小时），仍然划算

改进方向

支持更多数据源
- MySQL、PostgreSQL
- MongoDB、Elasticsearch
增强错误处理
- 自动重试机制
- 更友好的错误提示
团队协作功能
- 共享数据源
- 协作分析

八、源码下载

完整代码已开源到 GitHub：

🔗 https://github.com/Lee985-cmd/AI-30-Day-Challenge

项目结构：

复制代码

data-analysis-agent/
├── data_agent/
│   ├── __init__.py
│   ├── data_loader.py          # 数据加载
│   ├── pandas_agent.py         # Pandas AI Agent
│   ├── cleaning_agent.py       # 数据清洗 Agent
│   ├── visualization_agent.py  # 可视化 Agent
│   ├── api.py                  # FastAPI 接口
│   └── web_app.py              # Streamlit 界面
├── data/                       # 示例数据
├── charts/                     # 生成的图表
├── uploads/                    # 上传的文件
├── generate_sample_data.py     # 数据生成脚本
├── requirements.txt
└── README.md

一键运行：

复制代码

# 克隆项目
git clone https://github.com/Lee985-cmd/AI-30-Day-Challenge.git
cd AI-30-Day-Challenge/projects/data-analysis-agent

# 安装依赖
pip install -r requirements.txt

# 生成示例数据
python generate_sample_data.py

# 配置 API Key（PowerShell 管理员权限）
[System.Environment]::SetEnvironmentVariable("DASHSCOPE_API_KEY", "sk-your-api-key", "User")

# 启动 API 服务
python data_agent/api.py

# 启动 Web 界面（新终端）
streamlit run data_agent/web_app.py

# 访问 http://localhost:8501

九、写在最后

Agent 不是替代数据分析师，而是增强数据分析师。

70% 的重复工作 → Agent 自动完成
30% 的创造性工作 → 你专注深度分析和策略建议
效率提升：8 倍
成本降低：99%
错误率降低：90%

你现在需要做的：

下载源码，跑通示例
替换成你的业务数据
定制化的分析需求
持续优化 Prompt

这套系统我已经用在实际项目中，效果非常好。

如果你遇到问题，欢迎：

在 GitHub 提 Issue
在 CSDN 评论区讨论

🔗 相关资源

💻 GitHub 完整代码： https://github.com/Lee985-cmd/AI-30-Day-Challenge
📂 本项目代码： projects/data-analysis-agent/
📖 30 天完整教程： https://blog.csdn.net/m0_67081842?type=blog
❓ 有问题？ 提 Issue

💡 如果觉得这个项目对你有帮助，欢迎：

⭐ Star 支持一下

🔀 Fork 并二次开发

📢 分享给需要的朋友

你的 Star 是我持续更新的最大动力！ ❤️

作者：Lee
身份：职场宝爸 / AI 学习者 / Agent 实践者
CSDN ：https://blog.csdn.net/m0_67081842
更新频率：每周 2-3 篇（技术干货 + 成长心得）