从「复刻」到「一键生成」:我的AI流程图工具开发实录

「一张PNG流程图,修改一个字要重画整个图」

这个困扰我很久的的痛点,我用AI彻底解决了。今天想和大家分享,我是如何用SOLO模式开发出这个智能流程图工具的。

灵感来源

最近在看一些AI相关的论文,想把一些技术流程图改改作为内部分享的内容,但是一看是PNG图片格式,直接眼前一黑

我只想修改一点内容,却只能在Visio/ProcessOn里重新画一遍 ,已经经历过无数个逼疯的瞬间

「有没有可能直接把图片转成可编辑流程图?」

这个想法,成为了项目的起点,也没有考虑太多,直接动手,行动力代表一切

初步尝试

🛠️ 第一版:实现整个工具的框架和核心功能

我在Trae solo模式写了一段提示词,内容很简单,实现两个核心功能:文字转流程图+ OCR识别图片转流程图,同时编辑器界面要直线能通过点击、拖动等对流程图进行修改。

很快,第一版就完成了,花的时间算起来还不到10分钟

我先测试了比较简单的**「文字转流程图」**

很顺利,文字转流程图功能基本满足需求。只需要输入一段文字,同时选择对应的分隔符,立马生成可编辑的流程图

横向布局的默认输出

当然,默认的生成的流程图样式还有美化空间,不过可以等最后再优化

我更在意的是OCR识别效果,第一次尝试:很遗憾,失败了。这个结果我倒也不意外,再强大的AI编程模型也不可能从零编写OCR识别算法,不论哪个工具都做不到,还是得用合理的方式实现

要合理的利用AI编程工具的系统能力

就像solo模式的任务分解、上下文能力比之前的builder模式强很多

因此,我直接在GitHub上找了两个高星的ORC识别的开源工具,让Trae直接集成到本项目中

阅读代码、安装依赖、开发接口、调试等等,solo很流畅地完成了,每次都是一轮对话直接搞定

But...

开发这事,使用一个新方式往往会带来新问题

无论是人类coding还是AI coding都是这样

Trae集成现有OCR项目后,识别文字的可靠性是提高了不少,但转成流程图这个过程依旧无法成功

这是因为图片转流程图的需求,不只是需要识别文字,还需要将文字对应到流程图的各个节点,以及还需知道各个流程节点之间的连线关系

更换方案

第三次突破:接入火山引擎豆包1.5视觉模型

用大模型的视觉能力来解决提取和理解图片内容的难题

火山引擎上有模型在线体验的功能,我先在线尝试了一次。

发了一张"把大象放进冰箱"的流程图,让AI同时识别文字+节点形状+连线关系 。

识别准确度很高,也能自定义结构化输出格式,感觉这波稳了

方案可行!!!

回到Trae重新写了一段提示词,主要是三个部分:

  1. 告诉Trae把OCR识别功能直接调用火山引擎的豆包大模型实现;
  1. 附上了官方的 API 调用代码,并且告诉它API key ;
  1. 附上了在先前官网测试得到的返回结果,便于Trae分析如何将模型输出的内容转化为可编辑的流程图;

solo模式直接一次成功接入API,这里必须点个赞👍

之前使用Claude code 接入视觉模型,经常没办法一次成功,不知道是不是Trae的工程师有专门优化过

甚至还能帮我修改提供给大模型的提示词

样式美化

功能实现没问题后,开始着手美化流程图样式

主要是两方面:

  1. 优化流程图节点的排版,包括自动对齐、优化连线逻辑,避免多余的直角转弯等;
  2. 配色系统:我选择了4种比较流行的风格色系(包含多巴胺配色、Labubu高能色系、洛可可色系、莫兰迪色系)

最终成果

开发心法:SOLO模式的启示

  1. PRD生成:用自然语言描述需求,自动生成专业的产品需求文档


    最开始的提示词可以简洁为主,描述好主要功能即可,生成PRO文档后,会以表格的形式呈现具体界面功能,直接在表格里修改,其实更有助于我们厘清产品需求。

  2. 端到端网页生成智能体,告别终端报错


    solo模式开发web真的有种舒爽感,能力非常强,而且交付的成果都是一步到位,以前在终端复制报错内容到协助框的糟糕体验,已经是过去式。

  3. 从"提示词工程"到"上下文工程"的转变


    回看整个开发历程,我没有特意写很专业的提示词,基本是:需求+功能(+实现方式);

    比如我让它自己读完整项目的代码包集成OCR;直接把大模型返回结果给他参考,但它能自己修改提示词,让大模型返回的结果标准化;

💡 最大的感受是:

当AI真正理解开发者的意图时,技术的边界就会被重新定义。

如果你也有好的创意和想法,欢迎在评论区交流!

#TRAE2.0SOLO出道

相关推荐
小Lu的开源日常21 小时前
踩坑日记:为什么 .gitignore 不起作用了
git·代码规范·trae
飞哥数智坊3 天前
“成章”写作助手开源:中秋赏不成月,那就开源一个 AI 实战项目吧
人工智能·ai编程·trae
用户4099322502123 天前
PostgreSQL处理SQL居然像做蛋糕?解析到执行的4步里藏着多少查询优化的小心机?
后端·ai编程·trae
用户4099322502124 天前
PostgreSQL备份不是复制文件?物理vs逻辑咋选?误删还能精准恢复到1分钟前?
后端·ai编程·trae
用户4099322502125 天前
转账不翻车、并发不干扰,PostgreSQL的ACID特性到底有啥魔法?
后端·ai编程·trae
用户4099322502126 天前
银行转账不白扣钱、电商下单不超卖,PostgreSQL事务的诀窍是啥?
后端·ai编程·trae
youcans_7 天前
【Trae】Trae 插件实战手册(1)PyCharm 安装 Trae
人工智能·python·pycharm·ai编程·trae
用户4099322502127 天前
PostgreSQL里的PL/pgSQL到底是啥?能让SQL从“说目标”变“讲步骤”?
后端·ai编程·trae
用户4099322502128 天前
PostgreSQL视图不存数据?那它怎么简化查询还能递归生成序列和控制权限?
后端·ai编程·trae
豆包MarsCode9 天前
不做“赛博棉花工”!TRAE 帮我实现数据处理自由
trae