PromptPilot AI 肉眼般的视觉感官,又一款工作提效工具

火山方舟推出的大模型应用落地的领航员------PromptPilot

PromptPilot具备3个玩法

  1. 需要让Agent随着用户数据自发改进,就像所有成功的搜索引擎和推荐引擎那样。 让Agent也找到自己的scaling law
  2. 视觉理解能力。
  3. 文本理解能力。
  4. 医疗知识问答。

产品亮点

Prompt调试 + 视觉理解

豆包新模型+PromptPilot

Doubao-Seed-1.6-thinking模型思考能力大幅强化, 对比Doubao-1.5-thinking-pro,在Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k 上下文窗口,输出长度支持最大 16k tokens。

这份资料令人瞩目,它强烈预示着一款极具潜力的国产AI模型即将面世,这无疑为国内AI生态注入了新的活力与期待,在日常办公中去提升效率。它通过大量的测试数据,不断调整和优化提示词,让AI的回答质量越来越高。PromptPilot做的就是这件事。

提下产品不足点:

  1. 在视觉理解功能上,如果不通过图床url方式上传,采用本地上传图片时有时会失败。
  2. 浏览器如果是火狐,在批量评测图片,上传excel数据后,多行数据会堆叠成一坨,浏览适配存在问题。
  3. 批量评测、审查图片生成模型回答时响应较慢。
  4. 上传图片时需要扫脸认证,也是有些抽风的操作。

产品小提升点

若把视觉理解能力加在生图功能上,扩大用户受众群体。我昨天让豆包生成一组雨天一辆未开车灯的汽车,试了几轮都开着车灯。

先用一个找不同的小游戏,进行细节测评,PromptPilot 直观视觉审查能力、细节敏锐度可平替Claude-4.0-Sonnet的推理能力。

PromptPilot 视觉理解能力不平庸。

PromptPilot展现的这种能力,可以称之为视觉合规检测能力,是一种图片识别感知能力。

简单来说,就是让AI像一个经验丰富的安全检查员一样,不仅能看懂图片内容,还能根据既定的规则和标准,判断图片中的人物行为是否合规。然后根据豆包新模型的回答,我们可自定义一个评分标准,让大模型感知它的回答满意度,最终优化出一套非常清晰的提示词。

PromptPilot 视觉跑批流程(道路交通案例)

访问地址promptpilot.volcengine.com/

编写一个图片视觉理解需求(我这里跑了下道路交通的图片),生成一个清晰的Prompt。

text 复制代码
例:为了交通规范化,你需要根据交通道路车辆的图片,
判断道路车辆是否存在违规驾驶和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。

优化后的Prompt。

text 复制代码
你的任务是根据交通道路车辆的图片描述,判断道路车辆是否存在违规驾驶和未佩戴安全防护用具的情况。请仔细阅读以下图片描述:
<交通道路车辆图片描述>
{{image_url}}
</交通道路车辆图片描述>
在判断时,请考虑以下违规驾驶和未佩戴安全防护用具的标准:

1. 违规驾驶:闯红灯、逆行、超速、压线行驶、违规变道、占用应急车道等。

   ....

新建一个内容理解任务,点击加号,注意这里选择使用thinking相关深度思考大模型。

单个case图片处理能力上传单张图片需要进行扫脸实名认证(有点抽风)。

生成模型回答,然后选择基于模型回答改下 ,回答存在3个标签思考判断违规类别,其中思考过程可以要求简洁一点。

批量图片评测能力相比较单张图片,批量图片评测时模型回答响应速度会慢一些,及时性不高。

采用execel表格数据批量上传图片,存在以下列(image_url、理想回答),模型回答列是通过模型自动生成。

智能评分给大模型正向反馈,开启智能评分,填写评分标准(思考标签正确,判断标签正确,且违规类型和理想回答一致,得5分; 否则得1分,尤其是违规类型和理想回答不一致的话,请直接给1分)

通过以上评测最终获得清晰的Prompt

因为最终的分数符合我的预期,4分,换算到百分制,其实是80分,所以可以正常结束。 但是如果不满意,想继续优化,可以点如下按钮,继续优化下一轮,通过更多的迭代轮数提高效果。

PromptPilot 将提示词优化作为产品亮点

提示词的确尤为重要,不能是一个模糊的问题,你的目标是什么,你的个人信息是什么,需制定怎么样的一个计划,你可以观察AI深度思考的方式,去改进、优化你的提示词,最后沉淀下来,这才是一个学习AI、理解AI的过程,发挥AI正真的作用。

希望这篇文章能帮助大家意识到AI应用过程的一些细节,为工作赋能、提效,如果本文能给你提供启发和帮助,还请留下你的一健三连(点赞转发评论),给我一些鼓励,谢谢。

一一 END 一一

(文: 500bai)

相关推荐
用户57573033462420 小时前
🚀 告别“意大利面条”代码:用 LangChain 像搭乐高一样玩转大模型
人工智能
蕤葳-21 小时前
深度解析:基于AI人才标准,为职场新人规划一级与二级认证的报考路径
人工智能
只与明月听21 小时前
RAG深入学习之向量数据库
前端·人工智能·python
月诸清酒21 小时前
别让你的 Coding Agent 瞎忙活,你最缺的可能是这套 Harness 规则
人工智能
极客老王说Agent21 小时前
别被OpenClaw的30万Star晃了眼!AI产业逻辑重写后,打工人更该看清谁在“真干活”
人工智能·ai·chatgpt
Bruce204899821 小时前
OpenClaw 零基础全解析(小白友好版)
人工智能·chatgpt
Bruce204899821 小时前
OpenClaw 自定义Skill插件开发全流程(2026最新版)
人工智能
TengTaiTech21 小时前
从航空级混音到AI协同指挥:基于QCC5181与大模型打造新一代智能耳机
人工智能·qcc·混音
水如烟21 小时前
孤能子视角:关系枢纽与大模型
人工智能
ZiLing21 小时前
做 AI Agent Runtime 半年后,我发现它根本不是“会调用工具的 LLM”
人工智能·agent