PandasAI的应用与实战解析(一):环境安装、运行demo

文章目录

什么是PandasAI?一句话总结的话,PandasAI就是一个结合了Pandas和AI的开源工具,更详细地说,PandasAI 是一款强大的Python库,它使得用户能够以自然语言轻松向各类数据源(如CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databricks及Snowflake等)提出问题。该库借助生成式人工智能技术,助力用户实现对数据的深度探索、清洗与分析工作。

不仅如此,PandasAI 还提供了丰富的可视化功能,可通过图表形式展示数据;同时,它能有效处理缺失值问题以净化数据集,并通过特征生成进一步提升数据质量。因此,无论是对于数据科学家还是数据分析师而言,PandasAI 都是一款全方位的数据处理工具。

官方文档:https://docs.pandas-ai.com/en/latest/

github仓库:https://github.com/Sinaptik-AI/pandas-ai

  • 特点:提升效率,节省开发人员的时间和精力

    自然语言查询:以自然语言向数据提问。

    数据可视化:生成图形和图表以可视化数据。

    数据清理:通过解决缺失值来清理数据集。

    特征生成:通过特征生成提高数据质量。

    数据连接器:连接到各种数据源,如 CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等。

  • 工作原理简述:

    PandasAI 使用生成式 AI 模型来理解和解释自然语言查询,并将其转换为 python 代码和 SQL 查询。然后,它使用代码与数据进行交互,并将结果返回给用户。


要想使用PandasAI,首先需要把demo跑起来,下面我将演示整个过程的详细步骤。

1.源码包下载、明确依赖版本

  • 进入PandasAI的github仓库https://github.com/Sinaptik-AI/pandas-ai,点击页面上的Releases:
  • 选择版本,我选择的是v2.0.29,下载source code.zip:
  • 然后,我将下载的源码包放到了我的项目文件夹根目录 下并解压了,查看pandas-ai-2.0.29文件夹下的.readthedocs.yaml文件,里面有关于python版本和依赖安装文件的说明:python版本为3.10,requirements文件为pandas-ai-2.0.29/docs/requirements.txt

2.安装python依赖

  • 为了更便于管理环境,我创建了一个conda虚拟环境:
powershell 复制代码
conda create -n pandasai python=3.10
  • 然后进入环境:
powershell 复制代码
conda activate pandasai
  • 在项目根目录下安装requirement文件依赖:
powershell 复制代码
pip install -r ./pandas-ai-2.0.29/docs/requirements.txt
  • 另外还需要安装pandasai这个依赖:
powershell 复制代码
pip install pandasai==2.0.29

到这里环境就安装好了。

3.运行demo

官网提供的demo有bug(使用BambooLLM大语言模型会报错,但是使用OpenAI不会),已经有其他人遇到了和我一样的问题,并给该开源作者提了issue,但是目前这个bug还没有修复,因此需要修改一下demo的代码。

  • 首先我生成了一个包含23条数据的csv数据集(dataset.csv,存放在了pandas-ai-2.0.29/examples/data目录中),用于测试PandasAI是否可以成功地运行:
csv 复制代码
countries,gdp
United States,10001
Canada,10002
Mexico,10003
Guatemala,10004
Belize,10005
El Salvador,10006
Honduras,10007
Panama,10008
Bahamas,10009
Cuba,10011
Jamaica,10012
Haiti,10013
Dominican Republic,10014
Costa Rica,10015
Saint Kitts and Nevis,10016
Antigua and Barbuda,10017
Dominica,10018
Saint Lucia,10019
Saint Vincent and the Grenadines,10021
Barbados,10022
Grenada,10023
Trinidad and Tobago,10024
Nicaragua,10025
  • 然后,我修改了pandas-ai-2.0.29/examples目录下的from_csv.py的代码:
powershell 复制代码
"""Example of using PandasAI with a pandas dataframe"""

from pandasai import SmartDataframe
from pandasai.llm import OpenAI
from pandasai.helpers.openai_info import get_openai_callback


llm = OpenAI(api_token="你的OpenAI Token")

df = SmartDataframe("./data/data.csv", config={"llm": llm, "conversational": False})

with get_openai_callback() as cb:
    response = df.chat("Calculate the sum of the gdp of north american countries")

    print(response)
    print(cb)
  • 进入examples目录:
powershell 复制代码
cd pandas-ai-2.0.29\examples
  • 运行from_csv.py:

注意,调用OpenAI需要开代理,否则会报网络异常

powershell 复制代码
python from_csv.py

执行成功:

至此,PandasAI的demo就成功运行起来了。

相关推荐
冬奇Lab8 分钟前
RAG 系列(二):用 LangChain 搭建你的第一个 RAG Pipeline
人工智能·langchain·llm
学习论之费曼学习法22 分钟前
多模态大模型实战:用 GPT-4o API 打造 AI 助手,能看、能听、能说!
人工智能
昨夜见军贴061631 分钟前
IACheck与AI报告审核,开启供应商资质核验报告审核新篇章
人工智能
m0_726365831 小时前
Ai漫剧系统 几分钟,让AI 把一篇小说变成了一部漫剧成片:从剧本到视频的全流程系统实现
人工智能·语言模型·ai作画·音视频
AIwenIPgeolocation1 小时前
出海应用合规与风控平衡术:可信ID的全球安全实践
人工智能·安全
WordPress学习笔记1 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
直奔標竿1 小时前
Java开发者AI转型第二十七课!Spring AI 个人知识库实战(六)——全栈闭环收官,解锁前端流式渲染终极技巧
java·开发语言·前端·人工智能·后端·spring
科技社1 小时前
咪咕互娱亮相数字中国峰会:“精品游戏+轻量终端”组合,打开数字娱乐新想象
人工智能
数智化精益手记局2 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Flying pigs~~2 小时前
RAG 完整面试指南:原理、优化、幻觉解决方案
人工智能·prompt·rag·智能体·检索增强生成·rag优化