「一张PNG流程图,修改一个字要重画整个图」
这个困扰我很久的的痛点,我用AI彻底解决了。今天想和大家分享,我是如何用SOLO模式开发出这个智能流程图工具的。
灵感来源
最近在看一些AI相关的论文,想把一些技术流程图改改作为内部分享的内容,但是一看是PNG图片格式,直接眼前一黑
我只想修改一点内容,却只能在Visio/ProcessOn里重新画一遍 ,已经经历过无数个逼疯的瞬间

「有没有可能直接把图片转成可编辑流程图?」
这个想法,成为了项目的起点,也没有考虑太多,直接动手,行动力代表一切
初步尝试
🛠️ 第一版:实现整个工具的框架和核心功能
我在Trae solo模式写了一段提示词,内容很简单,实现两个核心功能:文字转流程图+ OCR识别图片转流程图,同时编辑器界面要直线能通过点击、拖动等对流程图进行修改。
很快,第一版就完成了,花的时间算起来还不到10分钟

我先测试了比较简单的**「文字转流程图」**

很顺利,文字转流程图功能基本满足需求。只需要输入一段文字,同时选择对应的分隔符,立马生成可编辑的流程图

横向布局的默认输出
当然,默认的生成的流程图样式还有美化空间,不过可以等最后再优化
我更在意的是OCR识别效果,第一次尝试:很遗憾,失败了。这个结果我倒也不意外,再强大的AI编程模型也不可能从零编写OCR识别算法,不论哪个工具都做不到,还是得用合理的方式实现
要合理的利用AI编程工具的系统能力
就像solo模式的任务分解、上下文能力比之前的builder模式强很多

因此,我直接在GitHub上找了两个高星的ORC识别的开源工具,让Trae直接集成到本项目中

阅读代码、安装依赖、开发接口、调试等等,solo很流畅地完成了,每次都是一轮对话直接搞定
But...
开发这事,使用一个新方式往往会带来新问题
无论是人类coding还是AI coding都是这样
Trae集成现有OCR项目后,识别文字的可靠性是提高了不少,但转成流程图这个过程依旧无法成功

这是因为图片转流程图的需求,不只是需要识别文字,还需要将文字对应到流程图的各个节点,以及还需知道各个流程节点之间的连线关系

更换方案
第三次突破:接入火山引擎豆包1.5视觉模型

用大模型的视觉能力来解决提取和理解图片内容的难题
火山引擎上有模型在线体验的功能,我先在线尝试了一次。
发了一张"把大象放进冰箱"的流程图,让AI同时识别文字+节点形状+连线关系 。

识别准确度很高,也能自定义结构化输出格式,感觉这波稳了
方案可行!!!
回到Trae重新写了一段提示词,主要是三个部分:
- 告诉Trae把OCR识别功能直接调用火山引擎的豆包大模型实现;

- 附上了官方的 API 调用代码,并且告诉它API key ;

- 附上了在先前官网测试得到的返回结果,便于Trae分析如何将模型输出的内容转化为可编辑的流程图;
solo模式直接一次成功接入API,这里必须点个赞👍
之前使用Claude code 接入视觉模型,经常没办法一次成功,不知道是不是Trae的工程师有专门优化过
甚至还能帮我修改提供给大模型的提示词

样式美化
功能实现没问题后,开始着手美化流程图样式
主要是两方面:
- 优化流程图节点的排版,包括自动对齐、优化连线逻辑,避免多余的直角转弯等;
- 配色系统:我选择了4种比较流行的风格色系(包含多巴胺配色、Labubu高能色系、洛可可色系、莫兰迪色系)

最终成果

开发心法:SOLO模式的启示
-
PRD生成:用自然语言描述需求,自动生成专业的产品需求文档
最开始的提示词可以简洁为主,描述好主要功能即可,生成PRO文档后,会以表格的形式呈现具体界面功能,直接在表格里修改,其实更有助于我们厘清产品需求。
-
端到端网页生成智能体,告别终端报错
solo模式开发web真的有种舒爽感,能力非常强,而且交付的成果都是一步到位,以前在终端复制报错内容到协助框的糟糕体验,已经是过去式。
-
从"提示词工程"到"上下文工程"的转变
回看整个开发历程,我没有特意写很专业的提示词,基本是:需求+功能(+实现方式);
比如我让它自己读完整项目的代码包集成OCR;直接把大模型返回结果给他参考,但它能自己修改提示词,让大模型返回的结果标准化;
💡 最大的感受是:
当AI真正理解开发者的意图时,技术的边界就会被重新定义。
如果你也有好的创意和想法,欢迎在评论区交流!
#TRAE2.0SOLO出道