基于 Dify + 通义千问的多模态大模型搭建发票识别 Agent

在AI浪潮席卷而来的今天，你还在为发票手动录入烦恼吗？本文手把手教你利用Dify平台和阿里通义千问多模态大模型，快速构建一个智能发票识别Agent。零代码基础也能上手，提升工作效率10倍以上！从注册到部署，全流程详解。快来解锁你的AI生产力吧！

在数字化转型的时代，企业每天处理海量的发票数据，手动录入不仅耗时耗力，还容易出错。想象一下，如果你有一个智能Agent，能自动扫描发票图像，提取关键信息如金额、日期、税号，甚至分类归档，那该多省心啊！

这个方案的核心在于Dify和通义千问的完美结合。Dify是一个开源的AI应用开发平台，它允许开发者通过拖拽式界面快速构建AI应用和Agent，支持集成各种大模型。通义千问（Qwen）则是阿里云推出的强大多模态大模型系列，支持文本、图像、视频等多种输入，能处理复杂的视觉任务，如OCR（光学字符识别）和语义理解。结合两者，我们可以创建一个多模态Agent，专攻发票识别，帮助中小企业或个人用户实现自动化办公。

为什么选择这个组合？首先，Dify门槛低，无需编写复杂代码；其次，通义千问的多模态能力强悍，尤其在中文发票识别上表现优异，能准确处理模糊、倾斜的图像；最后，整个搭建过程成本低廉，只需几小时就能上线。接下来，我将一步步带你从零搭建，确保即使是AI小白也能跟上。整个流程基于最新的 Dify 版本和 qwen-vl-max，准备好了吗？让我们开始吧！

准备工作和账号注册

首先，确保你有基本的环境准备：一台电脑、稳定的网络，以及一个阿里云百炼平台账号（用于通义千问）。

注册Dify账号 ：

打开浏览器，访问 Dify官网。使用邮箱或GitHub账号注册。Dify支持云端部署和本地自建，如果你只是测试，云端免费版就够用。注意，免费版有API调用限额，但足以搭建原型。

本地部署也很简单，将 dify clone 下来使用 docker compose up -d 即可运行。
获取通义千问API Key ：

登录阿里云百炼控制台，访问模型，点击左下角的密钥管理，然后在API管理页面生成一个API Key。记住，这个Key是连接Dify和通义千问的桥梁。通义千问支持多模态模型如Qwen-VL（视觉语言模型），我们将用它来处理发票图像。

创建Dify应用并集成通义千问模型

现在，进入Dify的核心操作。

新建工作流 ：

在Dify控制台，点击创建空白应用，选择"工作流"模式创建应用。给它起个名字，比如"发票识别 Agent"，再点击"创建"按钮。
集成大模型 ：

在开始的下一个节点点击LLM，此时下面的模型会自动选中之前配置的第一个模型，我们需要将其模型切换为 qwen-vl-max 或者其他支持视觉的大模型。

配置Prompt模板 ：

在LLM的SYSTEM编辑器中，定义核心提示词。提示词是Agent的"大脑"，告诉模型如何处理发票。示例Prompt（直接复制使用）：

txt 复制代码

 你是一个专业的发票识别专家。用户会上传一张发票图像，请分析图像内容，提取以下关键信息：  
 - 发票号码  
 - 开票日期  
 - 总金额（含税小写）

 如果图像模糊或信息缺失，请提示用户重新上传。输出格式为JSON，除JSON数据外不返回任何说明信息包括， ```json ``` 这种也不需要，便于后续处理。  
 未识别到内容时的示例输出：
 {
     "code": -1,
     "msg": "图像模糊或信息缺失"
 }
 正确的示例输出：  
 {
     "code": 200,
     "msg": "图像模糊或信息缺失",
     "data": {
         "invoice_number": "0987654321",
         "date": "2025-08-17",
         "total_amount": "600.00"
     }
 }

这个Prompt利用了通义千问的多模态能力，能直接"看"图像并理解语义。

添加数据处理脚本 ：

添加代码执行节点，输入变量选择大模型输出的 text，输出变量为 result ，输出类型为对象，代码内容如下所示：
python 复制代码
```
import json

def main(text: str) -> dict:
    return {
        "result": json.loads(text)
    }
```
添加结束节点 ：

新增结束节点，输出内容为上一步的 result ，到这一步配置就完成了。
发布：

测试没问题后，点击右上角的 发布 按钮，生成分享链接或API Endpoint。你可以将其嵌入到微信小程序、网页，或直接用Dify的Chat界面。想高级点？也可以通过调用API的方式将其集成到企业微信或钉钉。

基于 Dify + 通义千问的多模态大模型 搭建发票识别 Agent

准备工作和账号注册

创建Dify应用并集成通义千问模型

基于 Dify + 通义千问的多模态大模型搭建发票识别 Agent