从「复刻」到「一键生成」：我的AI流程图工具开发实录

「一张PNG流程图，修改一个字要重画整个图」

这个困扰我很久的的痛点，我用AI彻底解决了。今天想和大家分享，我是如何用SOLO模式开发出这个智能流程图工具的。

灵感来源

最近在看一些AI相关的论文，想把一些技术流程图改改作为内部分享的内容，但是一看是PNG图片格式，直接眼前一黑

我只想修改一点内容，却只能在Visio/ProcessOn里重新画一遍，已经经历过无数个逼疯的瞬间

「有没有可能直接把图片转成可编辑流程图？」

这个想法，成为了项目的起点，也没有考虑太多，直接动手，行动力代表一切

初步尝试

🛠️ 第一版：实现整个工具的框架和核心功能

我在Trae solo模式写了一段提示词，内容很简单，实现两个核心功能：文字转流程图+ OCR识别图片转流程图，同时编辑器界面要直线能通过点击、拖动等对流程图进行修改。

很快，第一版就完成了，花的时间算起来还不到10分钟

我先测试了比较简单的**「文字转流程图」**

很顺利，文字转流程图功能基本满足需求。只需要输入一段文字，同时选择对应的分隔符，立马生成可编辑的流程图

横向布局的默认输出

当然，默认的生成的流程图样式还有美化空间，不过可以等最后再优化

我更在意的是OCR识别效果，第一次尝试：很遗憾，失败了。这个结果我倒也不意外，再强大的AI编程模型也不可能从零编写OCR识别算法，不论哪个工具都做不到，还是得用合理的方式实现

要合理的利用AI编程工具的系统能力

就像solo模式的任务分解、上下文能力比之前的builder模式强很多

因此，我直接在GitHub上找了两个高星的ORC识别的开源工具，让Trae直接集成到本项目中

阅读代码、安装依赖、开发接口、调试等等，solo很流畅地完成了，每次都是一轮对话直接搞定

But...

开发这事，使用一个新方式往往会带来新问题

无论是人类coding还是AI coding都是这样

Trae集成现有OCR项目后，识别文字的可靠性是提高了不少，但转成流程图这个过程依旧无法成功

这是因为图片转流程图的需求，不只是需要识别文字，还需要将文字对应到流程图的各个节点，以及还需知道各个流程节点之间的连线关系

更换方案

第三次突破：接入火山引擎豆包1.5视觉模型

用大模型的视觉能力来解决提取和理解图片内容的难题

火山引擎上有模型在线体验的功能，我先在线尝试了一次。

发了一张"把大象放进冰箱"的流程图，让AI同时识别文字+节点形状+连线关系。

识别准确度很高，也能自定义结构化输出格式，感觉这波稳了

方案可行！！！

回到Trae重新写了一段提示词，主要是三个部分：

告诉Trae把OCR识别功能直接调用火山引擎的豆包大模型实现；

附上了官方的 API 调用代码，并且告诉它API key ；

附上了在先前官网测试得到的返回结果，便于Trae分析如何将模型输出的内容转化为可编辑的流程图；

solo模式直接一次成功接入API，这里必须点个赞👍

之前使用Claude code 接入视觉模型，经常没办法一次成功，不知道是不是Trae的工程师有专门优化过

甚至还能帮我修改提供给大模型的提示词

样式美化

功能实现没问题后，开始着手美化流程图样式

主要是两方面：

优化流程图节点的排版，包括自动对齐、优化连线逻辑，避免多余的直角转弯等；
配色系统：我选择了4种比较流行的风格色系（包含多巴胺配色、Labubu高能色系、洛可可色系、莫兰迪色系）

最终成果

开发心法：SOLO模式的启示

PRD生成：用自然语言描述需求，自动生成专业的产品需求文档

最开始的提示词可以简洁为主，描述好主要功能即可，生成PRO文档后，会以表格的形式呈现具体界面功能，直接在表格里修改，其实更有助于我们厘清产品需求。
端到端网页生成智能体，告别终端报错

solo模式开发web真的有种舒爽感，能力非常强，而且交付的成果都是一步到位，以前在终端复制报错内容到协助框的糟糕体验，已经是过去式。
从"提示词工程"到"上下文工程"的转变

回看整个开发历程，我没有特意写很专业的提示词，基本是：需求+功能（+实现方式）；

比如我让它自己读完整项目的代码包集成OCR；直接把大模型返回结果给他参考，但它能自己修改提示词，让大模型返回的结果标准化；

💡 最大的感受是：

当AI真正理解开发者的意图时，技术的边界就会被重新定义。

如果你也有好的创意和想法，欢迎在评论区交流！

#TRAE2.0SOLO出道