技术栈

图像理解

YJlio
11 天前
人工智能·chatgpt·aigc·多模态·语音交互·ai工具·图像理解
2023-09-25:ChatGPT 从纯文本走向多模态交互,看、听、说能力意味着什么?2023 年 9 月 25 日,ChatGPT 迎来了一个非常重要的能力节点:开始逐步支持“看、听、说”能力。
七夜zippoe
6 个月前
多模态大模型·图像理解·推理优化·deepseek-vl2·自动文案生成
实战DeepSeek-VL2:实现图片内容理解与自动文案生成的完整流程目录摘要1 技术原理与架构设计1.1 DeepSeek-VL2模型架构深度解析1.2 视觉-语言对齐机制
铮铭
1 年前
深度学习·文生图·deepseek·janus-pro·图像理解
联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署直接上手搓了:由于RTX4060只有8G显存,只能运行1B的模型,下面是下载模型的代码:修改demo/app_januspro.py中model的名称为1B。运行后用浏览器打开http://127.0.0.1:7860即可。
我是有底线的