教程
只要数据集多,就能微调出效果不错的多模态大模型。
这里使用unsloth工具,微调 Gemma4,官方教程地址:https://unsloth.ai/docs/zh/mo-xing/gemma-4/train
这里主要说数据集的组成格式:
流程:图片 + 指令 → 多模态模型 → 直接输出 JSON
json
{
"messages": [
{
"role": "user",
"content": [
{
"type": "image",
"image": "captcha_001.png"
},
{
"type": "text",
"text": "请识别该验证码任务,并输出需要点击的矩形框位置。"
}
]
},
{
"role": "assistant",
"content": [
{
"type": "text",
"text": "{\"task\":\"text_click\",\"targets\":[{\"text\":\"春\",\"click_rect_point\":[56,84,126,178],\"order\":1}]}"
}
]
}
]
}
测试效果
进入【无限识别 hypercalc】官网进行对接识别。https://www.hypercalc.cn
