最近和一个工友吃饭,虽然他职位比我高一级,但他为人和善,能开玩笑,和部门的其他同事都处得挺好,大家都叫他「锁哥」。酒过三巡,我们开始聊起了公司近况,公司最近裁员一波又一波的,领导一边喊着拥抱AI一边降本。
锁哥说,公司现在这状况,继续裁下去的概率还是很大的。现在AI一天比一天厉害,就算老板知道AI无法完全接手人类的工作,也会用AI来鞭笞我们。增不增效不知道,反正降本就挺明显的。现阶段我们要想想办法保住份工。
保住份工?我意识到锁哥在敲黑板了,立刻给锁哥装多杯酒。
锁哥问我,你觉得怎样的员工才是好员工?
我手一抖,撒了一点酒出来。我觉得好员工就是凡事有交代、件件有着落、事事有回音。
锁哥又干了一杯,叹了口气说,这是上个版本的答案。而这个版本的答案是找到一个好用的能力放大器。光拥有能力放大器还不够,你还需要有能力可放大。

锁哥有问,你觉得一个好员工应该具备什么能力?
这题我懂,以我程序员为例,那肯定是编程能力啦,来吧锁哥,即使喝多两杯我也能回答你的算法题。
锁哥叹了口气,对服务员说了一句,来一打菠萝啤。
能把软硬技能都修炼好,才称得上是好员工。别觉得这词儿土,搞不懂这俩的区别,你在职场大概率就是个 "努力但总背锅" 的冤种,或者 "有本事但混不下去" 的刺头。
所谓的硬技能,就是 "能直接拿出来秀的具体本事"。像程序员敲代码的速度和 bug 率,会计做报表时小数点的精准度,设计师用PS把甲方爸爸的 "五彩斑斓黑" 从离谱变成能看,运营写文案时抓眼球的本事,甚至是销售背产品参数时比复读机还溜的记性。硬技能这东西,有就是有,没有就是没有,藏不住。
但硬技能是有时效性的。10年前你Excel玩得溜算硬技能,现在小学生都会VLOOKUP。5年前你会做个 H5 页面能吹半年,现在小程序模板200元一套。在AI时代,硬技能的保质期变得更短了。
而软技能呢,这玩意儿就玄乎了,它不是具体的 "会什么",而是 "怎么把会的东西用好,怎么跟人打交道不翻车"。比如开会时,你明明方案比同事的强,但他嘴皮子溜,三言两语把领导说嗨了,你吭哧瘪肚半天说不明白,最后功劳成他的。这就是你软技能里的 "表达能力" 瘸腿了。
对于大多数程序员来说软技能是弱项。
我虎躯一震,意识到事情不是那么简单,高喊一声,服务员,再来一打菠萝啤!
锁哥微微一笑,不用慌,今天约你吃饭就是想塞钱进你袋。对于大多数人来说,确实连怎么有效跟AI对话都做不好,豆包团队也很清楚知道这个痛点。所以这次推出的 PromptPilot 就是为了解决这问题。
我们小组常用的 Coze,功能虽然强大,但界面也有点吓人,尤其是不懂编程的同事一看就晕。

其实工作流可以简单理解为任务拆解,在AI的加持下,一份好的提示词尤其重要。提示词写得不好不是你的错,一款好的AI产品就应该要足够简单。
在这个环节中,如何用AI辅助我们写出一份好的提示词呢?
我用"质检巡检"这项工作举例。
我们公司的生产车间有安全生产规范,比如员工在工作时需要佩戴好安全帽等操作规范,摄像头会将生产环境记录下来。以前是人工抽检,在AI时代,这项工作应该交给AI来检查。
打开 PromptPilot 独立站地址 :promptpilot.volcengine.com
登录后,选中"Prompt生成"这个菜单项,然后输入你希望AI帮你完成的任务,最后点击输入框右下角的发送按钮。

这次提出的需求:
为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全帽的情况,需要给出违规类别。
接着 PromptPilot 就会根据你的需求生成一份优质提示词。

还没完,接下来肯定要验证一下这份提示词是否好用。
我准备了一批数据来验证,这几张图都是以 url 的方式存储在 Excel 中。

第一行的 image_url
指的是图片的变量名,再看看前面的 PromptPilot 生成的提示词中有一句写着 {{PRODUCTION_WORKSHOP_IMAGE}}
,这个其实就是它要检查的图片变量名,和我们 Excel 里的变量名对不上。此时要么改 Excel 里的变量名,要么改 PromptPilot 里的。我选择修改 PromptPilot 里的。
选中提示词里的 PRODUCTION_WORKSHOP_IMAGE
,然后点击下方的"优化你的 Prompt",输入"将变量名改为image_url"即可。

最终 PromptPilot 生成出来的提示词如下:
xml
你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全帽的情况,并给出违规类别。请仔细查看以下生产车间的图片:
<生产车间图片>
{{image_url}}
</生产车间图片>
在判断时,请仔细观察图片中的每一个细节,特别关注设备的操作情况和人员安全帽的佩戴情况。
首先,在<思考>标签中详细分析图片内容,描述你观察到的可能存在违规操作设备和未佩戴安全帽的具体画面和依据。
然后,在<判断>标签中给出最终判断,如果存在违规情况,明确指出违规类别(违规操作设备、未佩戴安全帽、两者皆有);如果不存在违规情况,则写"未发现违规情况"。
<思考>
[在此详细分析图片内容,说明可能存在的违规情况及依据]
</思考>
<判断>
[在此给出最终判断和违规类别]
</判断>
请确保你的判断客观准确,基于图片实际情况进行分析。
把这段提示词复制出来验证一下。切换到"Prompt调试 -> 视觉理解",将刚刚生成的提示词复制进来。

然后把鼠标放在 {{image_url}}
变量旁边的"上传图片"的图标上,将刚刚准备好的其中一张图片的url粘贴进去。

然后在右侧的"模型回答"面板里选择最新的 doubao-seed-1.6 模型(有新用新😊)。
这个模型可是你的"硬技能"。
-
Doubao-Seed-1.6-thinking|250715:思考能力强化、支持多模态、256K长上下文 Doubao-Seed-1.6-thinking模型思考能力大幅强化, 对比Doubao-1.5-thinking-pro,在Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k 上下文窗口,输出长度支持最大 16k tokens。
-
Doubao-Seed-1.6-flash|250715:极致速度、支持多模态、256K长上下文,纯文本能力大幅提升近10% Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,纯文本能力大幅提升近10%。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
接着点击"保存并生成模型回答"按钮,等待 PromptPilot 生成回答即可。

我使用的是 doubao-seed-1.6-thinking-250615 模型,该模型有深度思考能力,这个案例用时不到5秒。

最终的判断是正确的。
如果你在单次测试中得到的答案不正确,或者觉得它的回答太啰嗦了,可以点击"模型回答"面板下方的"基于模型回答改写"按钮进行改写或者使用"更多模型回答参考"。

接下来就是批量测试环节了。
点击页面右上角的"批量测试"按钮,上传刚刚准备好的那份 Excel 资料。

在"理想回答"这列输入你心中的答案(也可以基于模型回答改写)。

接着点击一下每一行"模型回答"这列下的"生成回答"按钮,或者点击右上方的"生成全部回答"按钮,然后给每一行打分。

注意,在评分时,能用2分制就不要采用多分制。比如这里可以选的分数是1-5,那我就只用1和5,2、3、4都不用。这样能让AI比较好的理解你的意图。
由于采用了2分制,所以需要调整一下评分标准。
思考标签正确,判断标签正确,且违规类型和理想回答一致,得5分;
否则得1分,尤其是违规类型和理想回答不一致的话,请直接给1分

最后一步,使用"智能优化"进一步提升质量。点击页面右上角的"智能优化"按钮。

然后点击页面下方"开始智能优化"按钮。

等待10-30分钟就能拿到一份优化报告。

这份报告可以清晰看出提示词优化的地方、输出质量对比等数据。

如果觉得优化结果还是不满意,可以重复上述步骤迭代多个版本,我们只要最优质的精华。
听完锁哥的介绍,我有种"得PromptPilot者得天下"的感觉,嘴角上扬,低声和锁哥说,这个PromptPilot这么牛,配合 doubao-seed-1.6,真是让我硬的地方更硬,软的地方更软啊,哈哈哈哈哈哈哈。
既然如此,我是不是可以利用这套组合来提升数据标记员的工作效率,比如训练车牌识别模型时,标记员需要手动标记车牌位置。
锁哥听完微微一笑,岂止是辅助,大胆点,试试能不能取代。明天上班就把立项书写出来。
说完,锁哥轻轻敲了一下,我上个厕所,你认真思考一下我刚刚说的话。
我静静的看着锁哥吃剩的那盆蟹,等了半小时锁哥都没回来,直到店员提醒我要打烊了,我才意识到锁哥刚刚敲的不是桌子,是黑板。于是默默地掏出手机,放大我账单金额。