人工智能之基于阿里云快速搭建Llama-3.2-11B-Vision-Instruct

人工智能之基于阿里云快速搭建Llama-3.2-11B-Vision-Instruct

需求描述

  1. 基于阿里云搭建图片生成文字模型,模型名称:LLM-Research/Llama-3.2-11B-Vision-Instruct
  2. 使用上述模型输入图片生成文字,模型路径

业务实现

阿里云配置

阿里云配置如下:

代码验证

python 复制代码
import requests
import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor
from modelscope import snapshot_download
model_id = "LLM-Research/Llama-3.2-11B-Vision-Instruct"
model_dir = snapshot_download(model_id, ignore_file_pattern=['*.pth'])

model = MllamaForConditionalGeneration.from_pretrained(
    model_dir,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_dir)

url = "https://vcg01.cfp.cn/creative/vcg/800/new/VCG41519623066.jpg"
image = Image.open(requests.get(url, stream=True).raw)

messages = [
    {"role": "user", "content": [
        {"type": "image"},
        {"type": "text", "text": "如果你需要对图片描述,你会怎么描述?"}
    ]}
]
input_text \
       = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(image, input_text, return_tensors="pt").to(model.device)

output = model.generate(**inputs, max_new_tokens=30)
print(processor.decode(output[0]))

结果展示如下,生成的文本信息如下:

The image shows a baby in a white outfit being held by an adult, with the baby looking at the camera and smiling.

从多次搭建的经验来看,建议在搭建模型相关的内容的时候,优先选择阿里云的相关服务,很多东西阿里云的容器云已经提供底层技术,可以很快的使用modelscope提供的操作内容进行快速的模型搭建。

相关推荐
嗷嗷哦润橘_29 分钟前
Deepseek系列从v3到R易背面经版
开发语言·人工智能·笔记·deepseek
一个机器视觉工程师的自我修养1 小时前
Halcon.Net与Numpy、OpenCV联合编程
人工智能·opencv·numpy
AndrewHZ1 小时前
DeepSeek-R1技术革命:用强化学习重塑大语言模型的推理能力
人工智能·python·深度学习·算法·语言模型
漂亮_大男孩1 小时前
深度学习|表示学习|Instance Normalization 全面总结|26
人工智能·深度学习·神经网络·学习·cnn
美狐美颜sdk1 小时前
美颜SDK架构设计指南:性能优化与跨平台适配实战
人工智能·深度学习·性能优化·美颜sdk·视频美颜sdk
开出南方的花2 小时前
DeepSeek模型架构及优化内容
人工智能·pytorch·深度学习·机器学习·架构·nlp·attention
杀死这个程序员2 小时前
conda介绍及常用命令举例
人工智能·conda
说私域3 小时前
互联网企业线上业务拓展与开源AI智能名片2+1链动模式S2B2C商城小程序的创新应用
人工智能·小程序·开源
Orange_sparkle3 小时前
大模型基本原理(四)——如何武装ChatGPT
人工智能·语言模型·chatgpt
时间很奇妙!3 小时前
NLP & Word Embeddings
人工智能·自然语言处理·word