微调 Gemma 4 识别腾讯天御全系列验证码【解决方案-一个模型识别 滑块|文字点选|图标点选|空间点选】

教程

只要数据集多,就能微调出效果不错的多模态大模型。

这里使用unsloth工具,微调 Gemma4,官方教程地址:https://unsloth.ai/docs/zh/mo-xing/gemma-4/train

这里主要说数据集的组成格式:

流程:图片 + 指令 → 多模态模型 → 直接输出 JSON

json 复制代码
{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image",
          "image": "captcha_001.png"
        },
        {
          "type": "text",
          "text": "请识别该验证码任务,并输出需要点击的矩形框位置。"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "type": "text",
          "text": "{\"task\":\"text_click\",\"targets\":[{\"text\":\"春\",\"click_rect_point\":[56,84,126,178],\"order\":1}]}"
        }
      ]
    }
  ]
}

测试效果

进入【无限识别 hypercalc】官网进行对接识别。https://www.hypercalc.cn

相关推荐
Agent手记1 小时前
成品发货全流程自动化,落地实操与错发漏发规避方案 | 2026企业级Agent端到端落地指南
运维·人工智能·ai·自动化
weixin_444012931 小时前
CSS怎样调整弹性项目排列顺序_使用order属性轻松控制DOM显示顺序
jvm·数据库·python
iuvtsrt1 小时前
SQL处理分组聚合时的NULL值处理_利用NVL函数
jvm·数据库·python
元让_vincent1 小时前
论文Review SLAM II-NVM | RA-L 2025 | 面向室内双面墙问题的法向量辅助建图方法
人工智能·机器人·自动驾驶·法向量·激光slam·室内
一个帅气昵称啊1 小时前
.Net基于NetCoreKevin框架 AI 与 Hangfire 集成:实现AI智能自动任务调度
人工智能·.net·hangfire
byte轻骑兵1 小时前
【LE Audio】CAP精讲[6]: 控制中枢操盘指南,Commander协同全流程拆解
人工智能·音视频·le audio·低功耗音频
189228048611 小时前
NV236美光MT29F32T08GWLBHD6-24TES:B
大数据·服务器·人工智能·科技·缓存
龙侠九重天1 小时前
JetBrains AI 助手集成 Rider、IDEA 等 IDE 的 AI 辅助功能
ide·人工智能·大模型·intellij-idea·agent·jetbrains·智能体
dinglu1030DL1 小时前
CSS如何利用Flex实现悬浮的侧边按钮组_利用fixed定位与flex布局组合
jvm·数据库·python