RT,秋招未遂,试图做一个自动填写简历的Agent,既能提高春招效率,又能作为项目经历写进简历。
考虑到如下方案:
1.获取前端代码,得到表单数据,并将label送入LLM,返回填写内容后进行填写
2.使用OCR识别当前页面字段和对应的bbox,交给LLM判断是否是需要填写的字段并返回填写值
3.使用VLM识别当前页面字段和对应bbox,给出推荐值并进行填写
方案1:表单填写
优点:送入LLM的无关内容少,单次推理速度快
缺点:受到前端代码格式的限制,未必通用所有网页,需要开发油猴脚本
方案2:OCR + LLM
优点:适配各种网页,无需深扒前端代码
缺点:OCR识别全屏区域,传入LLM的无关字段很多,增加推理成本和速度
方案2:VLM
优点:适配各种网页,无需深扒前端代码;无需前置识别操作,开发简单
缺点:VLM输出的bbox偏移严重