香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频

演示视频

香橙派RK3588部署千问大模型Qwen2-VL-2B推理视频

一、场景假设

视频输入为一条网络流,利用大模型对视频中的图像帧进行推理。由于大模型推理耗时长,无法对每帧都进行推理,因此采用跳帧推理的方式:当推理完一帧后,期间会跳过若干帧,然后立即推理最新的一帧。

二、处理流程

1. 拉流

  • 使用 ffmpeg 拉取 rtsp 流,进行解封装得到 h264。

  • 为保证传输稳定,配置为 rtsp over tcp。

2. 视频解码

通过 mpp 解码 h264,得到 nv12 图像。

3. 图像转换

利用 rga 将 nv12 图像进行放缩和转 rgb 操作,此过程采用 letterbox 方式,主要目的是保持宽高等比放缩。

4. 图像编码

使用 rknn 将 rgb 图像编码成大模型能够理解图像所用的图像向量。

5. 推理

借助 rknn 将提示词和图像向量输入大模型进行推理,推理结果直接打印出来。

6. 渲染

将用于推理的图像(即图像编码前的图像),通过 qt 适配 qwidget 和 opengles 的方式进行渲染。

三、使用模型

  • Qwen2-VL-2B_llm_w8a8_rk3588.rkllm

  • Qwen2-VL-2B_vision_rk3588.rknn

四、主要耗时

  • 图像编码模型加载:5s

  • 大模型加载:7s

  • 图像编码:3s

  • 大模型推理:5s

注意:模型加载仅在程序开始时进行一次即可。

五、资源占用

  • CPU:145%(满载 800%)

  • 内存:5GB

  • NPU:50%~99%

  • 温度:69℃

相关推荐
Zzj_tju11 小时前
视觉语言模型技术指南:图像是怎么“接入”语言模型的?视觉编码器、投影层与对齐机制详解
人工智能·语言模型·自然语言处理
大模型任我行12 小时前
谷歌:大模型规划最优性超越传统算法
人工智能·语言模型·自然语言处理·论文笔记
Leon_Chenl15 小时前
【已开源】【嵌入式 Linux 音视频+ AI 实战项目】瑞芯微 Rockchip 系列 RK3588-基于深度学习的人脸门禁+ IPC 智能安防监控系统
深度学习·opencv·yolo·ffmpeg·音视频·边缘计算·人脸识别+检测
Jump 不二16 小时前
揭秘腾讯 Ima 知识库架构:从开源 WeKnora 看 RAG + 知识图谱落地实践
人工智能·语言模型·架构·机器人·开源·知识图谱
我是发哥哈18 小时前
三款主流AI视频生成模型商用能力对比与选型分析
大数据·人工智能·学习·ai·chatgpt·aigc·音视频
潜创微科技18 小时前
IT6622:HDMI1.4 发射 + eARC 音频接收 单芯片高清音视频方案
音视频
彷徨而立18 小时前
【音频编解码】音频编码格式 G.722、G.722.1、G.722.1.C 的区别
音视频
诸葛亮的芭蕉扇18 小时前
iOS视频自动全屏问题解决方案
ios·音视频
流年似水~18 小时前
Docker/Kubernetes 实战:从入门到生产级部署
人工智能·程序人生·docker·语言模型·ai编程