微调 Gemma 4 识别腾讯天御全系列验证码【解决方案-一个模型识别 滑块|文字点选|图标点选|空间点选】

教程

只要数据集多,就能微调出效果不错的多模态大模型。

这里使用unsloth工具,微调 Gemma4,官方教程地址:https://unsloth.ai/docs/zh/mo-xing/gemma-4/train

这里主要说数据集的组成格式:

流程:图片 + 指令 → 多模态模型 → 直接输出 JSON

json 复制代码
{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image",
          "image": "captcha_001.png"
        },
        {
          "type": "text",
          "text": "请识别该验证码任务,并输出需要点击的矩形框位置。"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "type": "text",
          "text": "{\"task\":\"text_click\",\"targets\":[{\"text\":\"春\",\"click_rect_point\":[56,84,126,178],\"order\":1}]}"
        }
      ]
    }
  ]
}

测试效果

进入【无限识别 hypercalc】官网进行对接识别。https://www.hypercalc.cn

相关推荐
小黄人软件3 分钟前
Claude和Codex下载离线包 安装遇到问题:windows无法访问指定设备 路径 文件 应用无法打开也无法卸载,解决了
人工智能·microsoft·openai·codex
落叶无情3 分钟前
分析:不上传文档给AI上下文窗口,仅让Ai上网搜索icef认知框架的详情,可以获得比较完整的信息,并可直接进行基本推理的具体机制
人工智能
王小王-1233 分钟前
基于Python的车联网数据聚合与可视化分析平台设计与实现
python·车联网·新能源汽车·车联网聚合分析
Hector_zh6 分钟前
逐浪 · 第十一篇: Vibe Coding 下的效率定义与规范建设
人工智能·vibecoding
147API12 分钟前
Claude进入受监管系统前,接入层应该先怎么设计
人工智能
Szime13 分钟前
深智微:面向汽车电子与工业控制的电子元器件原装现货服务商
人工智能·汽车
gis分享者14 分钟前
Claude Code 接入蓝耘 GLM-5.1:终端 AI 编程助手配置实战
人工智能·ai·实战·claude·cc·接入glm
企学宝18 分钟前
央国企数字化培训升级路径:学分制+AI评卷的全新实践
人工智能·企业培训·公司内训
三更两点18 分钟前
AI拉呱-2026年06月12日AI技术洞察简报
人工智能
终端域名20 分钟前
AI与区块链融合:加密货币的下一前沿——技术架构、企业价值与未来趋势
人工智能·架构·区块链