AI学习-LangChain实战-多模态识别agent

智能体三核心,模型工具记忆

开发流程一般是定义模型;定义工具;添加记忆管理;然后定义智能体;测试

以下是黑马的菜品识别系统agent

复制代码
# 加载环境变量
from dotenv import load_dotenv
from langchain_core.messages import AIMessage

load_dotenv()

from langchain.chat_models import init_chat_model
import os

# 多模态模型
multimodal_model = init_chat_model(
    model="qwen3-omni-flash",  # 模型名称,这里选择qwen3.5-plus,这是一个多模态模型,支持图片、文本、音频、视频
    model_provider="openai"
)

from langchain_tavily import TavilySearch

# web搜索工具,使用tavily作为web搜索工具
web_search = TavilySearch(
    max_results=5,
    topic="general"
)

from langgraph.checkpoint.sqlite import SqliteSaver
import sqlite3

# 初始化checkpointer 记忆管理
checkpointer = SqliteSaver(sqlite3.connect("resources/personal_chief.db", check_same_thread=False))
# 自动建表
checkpointer.setup()

from langchain.agents import create_agent

system_prompt = """
你是一名私人厨师。收到用户提供的食材照片或清单后,请按以下流程操作:
1.识别和评估食材:若用户提供照片,首先辨识所有可见食材。基于食材的外观状态,评估其新鲜度与可用量,整理出一份"当前可用食材清单"。
2.智能食谱检索:优先调用 web_search 工具,以"可用食材清单"为核心关键词,查找可行菜谱。
3.多维度评估与排序:从营养价值和制作难度两个维度对检索到的候选食谱进行量化打分,并根据得分排序,制作简单且营养丰富的排名靠前。
4.结构化方案输出:把排序后的食谱整理为一份结构清晰的建议报告,要包含食谱信息、得分、推荐理由,帮助用户快速做出决策。

请严格按照流程,优先调用 web_search 工具搜索食谱,再搜索不到的情况下才能自己发挥。
"""

agent = create_agent(
    model=multimodal_model,
    tools=[web_search],
    system_prompt=system_prompt,
    checkpointer=checkpointer
)

from langchain.messages import HumanMessage

multimodal_message = HumanMessage(
    content=[
        {"type": "text", "text": "帮我看看这些食材能做些什么?"},
        # 正确格式:image_url,不是 image
        {
            "type": "image_url",
            "image_url": {
                "url": "https://img95.699pic.com/photo/60024/7565.jpg_wh860.jpg"
            }
        }
    ])

config = {"configurable": {"thread_id": "new_chat_124"}}
#注意这个tread_id,重复了就会导致用了别的记忆

response = agent.invoke({"messages": [multimodal_message]}, config)

# 友好打印
for message in response['messages']:
    message.pretty_print()

response = agent.invoke(
    {"messages": [HumanMessage(content="我喜欢第3道菜,可以说的更详细点吗?")]},
    config
)

# 友好打印
response['messages'][-1].pretty_print()

可见是有记忆的

用LangSmith进行部署,首先注册

LangSmith

复制这个apikey保存.env

相关推荐
用户68563262086919 分钟前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好21 分钟前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL21 分钟前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习
陈广亮22 分钟前
Prompt、Context、Harness、Agentic:LLM 应用四层嵌套结构,搞清自己卡在哪一层
人工智能
刺猬的温驯1 小时前
Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例
人工智能·语音合成·tts
机器之心1 小时前
近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进
人工智能·openai
机器之心1 小时前
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?
人工智能·openai
美团技术团队2 小时前
LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
人工智能·算法
moMo2 小时前
从“你好”到 1024 维坐标:大模型怎么识字
人工智能
ShallWeL2 小时前
【机器学习】(2)—— 线性回归:损失函数
人工智能·机器学习