PromptPilot AI 肉眼般的视觉感官,又一款工作提效工具

火山方舟推出的大模型应用落地的领航员------PromptPilot

PromptPilot具备3个玩法

  1. 需要让Agent随着用户数据自发改进,就像所有成功的搜索引擎和推荐引擎那样。 让Agent也找到自己的scaling law
  2. 视觉理解能力。
  3. 文本理解能力。
  4. 医疗知识问答。

产品亮点

Prompt调试 + 视觉理解

豆包新模型+PromptPilot

Doubao-Seed-1.6-thinking模型思考能力大幅强化, 对比Doubao-1.5-thinking-pro,在Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k 上下文窗口,输出长度支持最大 16k tokens。

这份资料令人瞩目,它强烈预示着一款极具潜力的国产AI模型即将面世,这无疑为国内AI生态注入了新的活力与期待,在日常办公中去提升效率。它通过大量的测试数据,不断调整和优化提示词,让AI的回答质量越来越高。PromptPilot做的就是这件事。

提下产品不足点:

  1. 在视觉理解功能上,如果不通过图床url方式上传,采用本地上传图片时有时会失败。
  2. 浏览器如果是火狐,在批量评测图片,上传excel数据后,多行数据会堆叠成一坨,浏览适配存在问题。
  3. 批量评测、审查图片生成模型回答时响应较慢。
  4. 上传图片时需要扫脸认证,也是有些抽风的操作。

产品小提升点

若把视觉理解能力加在生图功能上,扩大用户受众群体。我昨天让豆包生成一组雨天一辆未开车灯的汽车,试了几轮都开着车灯。

先用一个找不同的小游戏,进行细节测评,PromptPilot 直观视觉审查能力、细节敏锐度可平替Claude-4.0-Sonnet的推理能力。

PromptPilot 视觉理解能力不平庸。

PromptPilot展现的这种能力,可以称之为视觉合规检测能力,是一种图片识别感知能力。

简单来说,就是让AI像一个经验丰富的安全检查员一样,不仅能看懂图片内容,还能根据既定的规则和标准,判断图片中的人物行为是否合规。然后根据豆包新模型的回答,我们可自定义一个评分标准,让大模型感知它的回答满意度,最终优化出一套非常清晰的提示词。

PromptPilot 视觉跑批流程(道路交通案例)

访问地址promptpilot.volcengine.com/

编写一个图片视觉理解需求(我这里跑了下道路交通的图片),生成一个清晰的Prompt。

text 复制代码
例:为了交通规范化,你需要根据交通道路车辆的图片,
判断道路车辆是否存在违规驾驶和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。

优化后的Prompt。

text 复制代码
你的任务是根据交通道路车辆的图片描述,判断道路车辆是否存在违规驾驶和未佩戴安全防护用具的情况。请仔细阅读以下图片描述:
<交通道路车辆图片描述>
{{image_url}}
</交通道路车辆图片描述>
在判断时,请考虑以下违规驾驶和未佩戴安全防护用具的标准:

1. 违规驾驶:闯红灯、逆行、超速、压线行驶、违规变道、占用应急车道等。

   ....

新建一个内容理解任务,点击加号,注意这里选择使用thinking相关深度思考大模型。

单个case图片处理能力上传单张图片需要进行扫脸实名认证(有点抽风)。

生成模型回答,然后选择基于模型回答改下 ,回答存在3个标签思考判断违规类别,其中思考过程可以要求简洁一点。

批量图片评测能力相比较单张图片,批量图片评测时模型回答响应速度会慢一些,及时性不高。

采用execel表格数据批量上传图片,存在以下列(image_url、理想回答),模型回答列是通过模型自动生成。

智能评分给大模型正向反馈,开启智能评分,填写评分标准(思考标签正确,判断标签正确,且违规类型和理想回答一致,得5分; 否则得1分,尤其是违规类型和理想回答不一致的话,请直接给1分)

通过以上评测最终获得清晰的Prompt

因为最终的分数符合我的预期,4分,换算到百分制,其实是80分,所以可以正常结束。 但是如果不满意,想继续优化,可以点如下按钮,继续优化下一轮,通过更多的迭代轮数提高效果。

PromptPilot 将提示词优化作为产品亮点

提示词的确尤为重要,不能是一个模糊的问题,你的目标是什么,你的个人信息是什么,需制定怎么样的一个计划,你可以观察AI深度思考的方式,去改进、优化你的提示词,最后沉淀下来,这才是一个学习AI、理解AI的过程,发挥AI正真的作用。

希望这篇文章能帮助大家意识到AI应用过程的一些细节,为工作赋能、提效,如果本文能给你提供启发和帮助,还请留下你的一健三连(点赞转发评论),给我一些鼓励,谢谢。

一一 END 一一

(文: 500bai)

相关推荐
Niuguangshuo2 小时前
深入解析Stable Diffusion基石——潜在扩散模型(LDMs)
人工智能·计算机视觉·stable diffusion
迈火2 小时前
SD - Latent - Interposer:解锁Stable Diffusion潜在空间的创意工具
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
wfeqhfxz25887822 小时前
YOLO13-C3k2-GhostDynamicConv烟雾检测算法实现与优化
人工智能·算法·计算机视觉
芝士爱知识a2 小时前
2026年AI面试软件推荐
人工智能·面试·职场和发展·大模型·ai教育·考公·智蛙面试
Li emily3 小时前
解决港股实时行情数据 API 接入难题
人工智能·python·fastapi
Aaron15883 小时前
基于RFSOC的数字射频存储技术应用分析
c语言·人工智能·驱动开发·算法·fpga开发·硬件工程·信号处理
J_Xiong01173 小时前
【Agents篇】04:Agent 的推理能力——思维链与自我反思
人工智能·ai agent·推理
星爷AG I3 小时前
9-26 主动视觉(AGI基础理论)
人工智能·计算机视觉·agi
爱吃泡芙的小白白3 小时前
CNN参数量计算全解析:从基础公式到前沿优化
人工智能·神经网络·cnn·参数量
拐爷3 小时前
vibe‑coding 九阳神功之喂:把链接喂成“本地知识”,AI 才能稳定干活(API / 设计 / 报道 / 截图)
人工智能