论文阅读——SimpleClick

SimpleClick: Interactive Image Segmentation with Simple Vision Transformers

模型直接在VIT上增加交互是分割

用VIT MAE方法训练的预训练权重

用交互式分割方法微调,微调流程:

1、在当前分割自动模拟点击,没有人为提供的点击

受到RITM启发,使用随机和迭代的点击模拟策略结合。

随机点击生成的点不考虑顺序,

迭代点击模拟策略生成的点是有顺序的,后一次点击应该在前次点击生成的掩码错误的区域,更像人类点击。

2、结合前次交互得到的掩码作为额外输入,提高分割质量,以及根据现有的分割掩码refine.

损失函数:normalized focal loss

实验结果:

相关推荐
风象南12 小时前
普通人用AI加持赚到的第一个100块
人工智能·后端
牛奶13 小时前
2026年大模型怎么选?前端人实用对比
前端·人工智能·ai编程
牛奶13 小时前
前端人为什么要学AI?
前端·人工智能·ai编程
罗西的思考16 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab16 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab16 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸18 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云18 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny86518 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔19 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能