LLM Agent 自动完成数据处理工作!喝着咖啡就把活干了,妙啊!

如果我的文章对你有用,请在"年度人气创作者榜单"活动中投我一票

前言

之前一直在研究 Chatchat 开源项目,并且已经把环境调试成功了,但是我一直想摸索一种全新的大模型的应用点,突发奇想有了一个关于数据处理的思路,因为单位里有很大部分工作都是数据处理工作,而数据处理工作平时都是调用各种小工具来进行的,如果我能使用 Agent 对话的形式,让同事通过对话就完成数据的处理工作岂不是美哉!说干就干!

环境搭建

之前写的《搭建 Langchain-Chatchat 详细过程》一文中已经详细介绍了环境的搭建过程,这里就不再赘述。

至于使用的大模型,因为现在阿里的通义千问的大模型 qwen-turbo 限时免费,注册账号之后会送 200 万的 token 额度足够用了,所以我选择了这个大模型。如果想用的话要先注册阿里云账号并进行登陆,然后按照申请教程获取 api-key 即可使用。

任务介绍

我的手里有三个文件 重点信息.xlsx普查信息.xlsx地址信息.xlsx,这三个文件中都有互相关联的字段挂接了关键的信息,我需要干的事情分为三步:

  1. 普查信息.xlsx 文件中通过关键字段 id 找出和 重点信息.xlsx 相关的结果,将结果保存到 result.csv 中。
  2. 地址信息.xlsx 文件中通过关键字段 id 找出和 result.csv 相关的地址信息,将结果保存到 result1.csv
  3. 因为 result1.csv 都是非标准化的地址,所以还要使用自己写的地址匹配引擎,将 result1.csv 中的字段为 地址 的信息全部匹配到标准化的地址库上,完成标准化定位。

关键代码

我们需要在 tools 文件夹之下写两个工具函数 filter_by_field_in_two_filesmatch_address ,逻辑内容涉及到工作细节,不方便透露这里就不贴了,然后在 tools_select.py 中加入这两个要用到的工具,具体的函数含义就是其中的 description 部分,如下:

ini 复制代码
Tool.from_function(
    func=filter_by_field_in_two_files,
    name="filter_by_field_in_two_files",
    description="Useful for when you need to find and save special info from given two files by specified field name,there is a string composed of four function parameters.which are input A filename , input B filenam, field name, output filename",
    args_schema=filter_by_field_in_two_files_Input,
),

Tool.from_function(
        func=match_address,
        name="match_address",
        description="Useful for when you need to match addresses in a file by specified field name,there is only a string composed of three function parameters which are input filename ,field name, output filename.",
        args_schema=match_address_Input,
),
  • 第一个函数 filter_by_field_in_two_files 主要接受四个参数,包括 A 文件名,B文件名,关联字段名,结果文件名,完成从两个关联的文件中通过指定字段过滤信息并进行保存的任务。
  • 第二个函数 match_address 主要接受三个参数,包括文件名,字段名,结果文件名,完成将指定文件的字段内容进行地址标准化匹配的任务。

效果展示

启动项目后,我选择了自己要用的大模型为线上的 qwen-api ,然后再选择对话模式为 自定义 Agent 问答,为了输出的答案比较合理,我就将 Temperature 降低为 0.01 ,然后输入自己的 Prompt 命令让大模型自动调用合适的工具去完成任务:

arduino 复制代码
请执行下面三步操作,每步选择合适的工具进行处理:

第一步:将文件'重点信息.xlsx'和文件'普查信息.xlsx'通过字段'id'筛选出关键信息并将结果保存到文件'result.csv'中

第二步:将文件'result.csv'和文件'地址信息.xlsx'通过字段'id'筛选出关键信息并将结果保存到文件'result1.csv'中

第三步:将文件 'result1.csv' 通过字段'地址'进行匹配,结果保存到文件 'result2.csv' 中

可以从图中看出,大模型的思考过程分为三步,每一步都将我的指令中的参数提取了出来,并且调用了合适的工具去解决。第一步和第二步都调用了 filter_by_field_in_two_files 工具,第三步调用了 match_address 工具,PERFECT!

最终生成的三份结果文件也都在文件夹中,而且处理的结果内容正确,这表明大模型自动调用工具来完成数据处理的工作这一个思路是可行的。也就是说只要把关键的操作过程写成一个个具体的参数可控的工具,理论上只要大模型的理解能力足够高,操作人员只要将数据处理的需求讲清楚,大模型就可以自动调用合适的工具来自动地一步一步地完成任务。

OMG!我发现了一个震惊的结果!这下好了,这些活小学生都可以干了,又要失业一批人了。喝杯咖啡压压惊~~

参考

相关推荐
小雨下雨的雨11 小时前
井字棋AI机器人实现详解 - Minimax算法实战-鸿蒙PC Electron框架完成
前端·人工智能·算法·华为·electron·鸿蒙
我没胡说八道14 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟14 小时前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love14 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇14 小时前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明14 小时前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc14 小时前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技14 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本14 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent14 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt