【狂飙全模态】狂飙AGI-智能图文理解助手

狂飙AGI-智能图文理解助手

      • 一、项目展示
      • 二、环境准备
        • [1 智谱API Key获取](#1 智谱API Key获取)
          • [1.1 登录官网](#1.1 登录官网)
          • [1.2 添加新的API Key](#1.2 添加新的API Key)
          • [1.3 点击复制API Key(备用)](#1.3 点击复制API Key(备用))
        • [2 虚拟环境配置](#2 虚拟环境配置)
          • [2.1 创建虚拟环境](#2.1 创建虚拟环境)
          • [2.2 安装依赖包](#2.2 安装依赖包)
      • 三、代码实现
          • [3.1 导入依赖包](#3.1 导入依赖包)
          • [3.2 设置API Key](#3.2 设置API Key)
          • [3.3 定义图像编码函数(base64)](#3.3 定义图像编码函数(base64))
          • [3.4 定义图文理解函数](#3.4 定义图文理解函数)
          • [3.5 Gradio界面构建](#3.5 Gradio界面构建)
          • [3.6 项目完整代码](#3.6 项目完整代码)
      • 四、效果展示

一、项目展示

二、环境准备

1 智谱API Key获取
1.1 登录官网

官网网址https://bigmodel.cn/

1.2 添加新的API Key
1.3 点击复制API Key(备用)
2 虚拟环境配置
2.1 创建虚拟环境
shell 复制代码
conda create -n KBAGI python=3.10
2.2 安装依赖包
bash 复制代码
pip install io base64 openai gradio pillow

三、代码实现

3.1 导入依赖包
python 复制代码
import io
import base64
import gradio as gr
from openai import OpenAI
from PIL import Image
3.2 设置API Key
python 复制代码
Zhipu_API_KEY="XXXXXXXXXX【替换为1.3复制的API Key】XXXXXXXXXXXXXX"
Zhipu_base_url="https://open.bigmodel.cn/api/paas/v4/"

# 初始化客户端
client = OpenAI(api_key=Zhipu_API_KEY, base_url=Zhipu_base_url)
3.3 定义图像编码函数(base64)
python 复制代码
def encode_image_to_base64(image):
    """将上传的图像编码为base64字符串"""
    if image is None:
        return None

    # 打开图像并转换为RGB模式(如果需要)
    img = Image.open(image)
    if img.mode != 'RGB':
        img = img.convert('RGB')

    # 将图像保存到内存中的字节流
    buffered = io.BytesIO()
    img.save(buffered, format="JPEG")

    # 编码为base64
    img_str = base64.b64encode(buffered.getvalue()).decode('utf-8')
    return img_str
3.4 定义图文理解函数
python 复制代码
def image_understanding(image, prompt):
    """使用GLM-4V模型进行图像理解"""
    if image is None:
        return "请上传一张图片"

    if not prompt:
        prompt = "请描述这张图片的内容"

    # 将图像编码为base64
    image_base64 = encode_image_to_base64(image)

    try:
        # 调用GLM-4V模型进行图像理解
        response = client.chat.completions.create(
            model="glm-4v",
            messages=[
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "text",
                            "text": prompt
                        },
                        {
                            "type": "image_url",
                            "image_url": {
                                "url": f"data:image/jpeg;base64,{image_base64}"
                            }
                        }
                    ]
                }
            ],
            temperature=0.7
        )

        return response.choices[0].message.content
    except Exception as e:
        return f"处理图像时出错: {str(e)}"
3.5 Gradio界面构建
python 复制代码
# 创建Gradio界面
with gr.Blocks(title="狂飙AGI-智能图文理解助手") as demo:
    gr.Markdown("# 🌟狂飙AGI-智能图文理解助手")
    gr.Markdown("基于GLM-4V模型的智能图像理解工具,可分析图片内容并回答相关问题")

    with gr.Row():
        with gr.Column():
            image_input = gr.Image(type="filepath", label="上传图片")
            prompt_input = gr.Textbox(
                label="输入问题",
                placeholder="例如:请描述这张图片的内容,图片中有什么?",
                value="请描述这张图片的内容"
            )
            submit_btn = gr.Button("开始分析", variant="primary")

        with gr.Column():
            result_output = gr.Textbox(label="分析结果", interactive=False, lines=10)

    # 示例图片
    gr.Examples(
        examples=[["Qwen3.jpg", "请描述这张图片的内容"]],
        inputs=[image_input, prompt_input],
        outputs=result_output,
        fn=image_understanding,
        cache_examples=True
    )

    # 绑定事件
    submit_btn.click(
        fn=image_understanding,
        inputs=[image_input, prompt_input],
        outputs=result_output
    )

    # 支持回车提交
    prompt_input.submit(
        fn=image_understanding,
        inputs=[image_input, prompt_input],
        outputs=result_output
    )

if __name__ == "__main__":
    demo.launch()
3.6 项目完整代码
python 复制代码
import io
import base64
import gradio as gr
from openai import OpenAI
from PIL import Image

Zhipu_API_KEY = "XXXXXXXXXX【替换为1.3复制的API Key】XXXXXXXXXXXXXX"
Zhipu_base_url = "https://open.bigmodel.cn/api/paas/v4/"

# 初始化客户端
client = OpenAI(api_key=Zhipu_API_KEY, base_url=Zhipu_base_url)


def encode_image_to_base64(image):
    """将上传的图像编码为base64字符串"""
    if image is None:
        return None

    # 打开图像并转换为RGB模式(如果需要)
    img = Image.open(image)
    if img.mode != 'RGB':
        img = img.convert('RGB')

    # 将图像保存到内存中的字节流
    buffered = io.BytesIO()
    img.save(buffered, format="JPEG")

    # 编码为base64
    img_str = base64.b64encode(buffered.getvalue()).decode('utf-8')
    return img_str


def image_understanding(image, prompt):
    """使用GLM-4V模型进行图像理解"""
    if image is None:
        return "请上传一张图片"

    if not prompt:
        prompt = "请描述这张图片的内容"

    # 将图像编码为base64
    image_base64 = encode_image_to_base64(image)

    try:
        # 调用GLM-4V模型进行图像理解
        response = client.chat.completions.create(
            model="glm-4v",
            messages=[
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "text",
                            "text": prompt
                        },
                        {
                            "type": "image_url",
                            "image_url": {
                                "url": f"data:image/jpeg;base64,{image_base64}"
                            }
                        }
                    ]
                }
            ],
            temperature=0.7
        )

        return response.choices[0].message.content
    except Exception as e:
        return f"处理图像时出错: {str(e)}"


# 创建Gradio界面
with gr.Blocks(title="狂飙AGI-智能图文理解助手") as demo:
    gr.Markdown("# 🌟狂飙AGI-智能图文理解助手")
    gr.Markdown("基于GLM-4V模型的智能图像理解工具,可分析图片内容并回答相关问题")

    with gr.Row():
        with gr.Column():
            image_input = gr.Image(type="filepath", label="上传图片")
            prompt_input = gr.Textbox(
                label="输入问题",
                placeholder="例如:请描述这张图片的内容,图片中有什么?",
                value="请描述这张图片的内容"
            )
            submit_btn = gr.Button("开始分析", variant="primary")

        with gr.Column():
            result_output = gr.Textbox(label="分析结果", interactive=False, lines=10)

    # 示例图片
    gr.Examples(
        examples=[["Qwen3.jpg", "请描述这张图片的内容"]],
        inputs=[image_input, prompt_input],
        outputs=result_output,
        fn=image_understanding,
        cache_examples=True
    )

    # 绑定事件
    submit_btn.click(
        fn=image_understanding,
        inputs=[image_input, prompt_input],
        outputs=result_output
    )

    # 支持回车提交
    prompt_input.submit(
        fn=image_understanding,
        inputs=[image_input, prompt_input],
        outputs=result_output
    )

if __name__ == "__main__":
    demo.launch()

四、效果展示

相关推荐
之歆18 小时前
Spring AI入门到实战到原理源码-MCP
java·人工智能·spring
知乎的哥廷根数学学派19 小时前
面向可信机械故障诊断的自适应置信度惩罚深度校准算法(Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习·矩阵
qq_3181215919 小时前
互联网大厂Java面试故事:从Spring Boot到微服务架构的技术挑战与解答
java·spring boot·redis·spring cloud·微服务·面试·内容社区
且去填词19 小时前
DeepSeek :基于 Schema 推理与自愈机制的智能 ETL
数据仓库·人工智能·python·语言模型·etl·schema·deepseek
待续30119 小时前
订阅了 Qoder 之后,我想通过这篇文章分享一些个人使用心得和感受。
人工智能
weixin_3975780219 小时前
人工智能发展历史
人工智能
计算机毕设VX:Fegn089519 小时前
计算机毕业设计|基于springboot + vue医院设备管理系统(源码+数据库+文档)
数据库·vue.js·spring boot·后端·课程设计
Mr__Miss19 小时前
保持redis和数据库一致性(双写一致性)
数据库·redis·spring
强盛小灵通专卖员19 小时前
基于深度学习的山体滑坡检测科研辅导:从论文实验到系统落地的完整思路
人工智能·深度学习·sci·小论文·山体滑坡
OidEncoder19 小时前
从 “粗放清扫” 到 “毫米级作业”,编码器重塑环卫机器人新能力
人工智能·自动化·智慧城市