从「复刻」到「一键生成」:我的AI流程图工具开发实录

「一张PNG流程图,修改一个字要重画整个图」

这个困扰我很久的的痛点,我用AI彻底解决了。今天想和大家分享,我是如何用SOLO模式开发出这个智能流程图工具的。

灵感来源

最近在看一些AI相关的论文,想把一些技术流程图改改作为内部分享的内容,但是一看是PNG图片格式,直接眼前一黑

我只想修改一点内容,却只能在Visio/ProcessOn里重新画一遍 ,已经经历过无数个逼疯的瞬间

「有没有可能直接把图片转成可编辑流程图?」

这个想法,成为了项目的起点,也没有考虑太多,直接动手,行动力代表一切

初步尝试

🛠️ 第一版:实现整个工具的框架和核心功能

我在Trae solo模式写了一段提示词,内容很简单,实现两个核心功能:文字转流程图+ OCR识别图片转流程图,同时编辑器界面要直线能通过点击、拖动等对流程图进行修改。

很快,第一版就完成了,花的时间算起来还不到10分钟

我先测试了比较简单的**「文字转流程图」**

很顺利,文字转流程图功能基本满足需求。只需要输入一段文字,同时选择对应的分隔符,立马生成可编辑的流程图

横向布局的默认输出

当然,默认的生成的流程图样式还有美化空间,不过可以等最后再优化

我更在意的是OCR识别效果,第一次尝试:很遗憾,失败了。这个结果我倒也不意外,再强大的AI编程模型也不可能从零编写OCR识别算法,不论哪个工具都做不到,还是得用合理的方式实现

要合理的利用AI编程工具的系统能力

就像solo模式的任务分解、上下文能力比之前的builder模式强很多

因此,我直接在GitHub上找了两个高星的ORC识别的开源工具,让Trae直接集成到本项目中

阅读代码、安装依赖、开发接口、调试等等,solo很流畅地完成了,每次都是一轮对话直接搞定

But...

开发这事,使用一个新方式往往会带来新问题

无论是人类coding还是AI coding都是这样

Trae集成现有OCR项目后,识别文字的可靠性是提高了不少,但转成流程图这个过程依旧无法成功

这是因为图片转流程图的需求,不只是需要识别文字,还需要将文字对应到流程图的各个节点,以及还需知道各个流程节点之间的连线关系

更换方案

第三次突破:接入火山引擎豆包1.5视觉模型

用大模型的视觉能力来解决提取和理解图片内容的难题

火山引擎上有模型在线体验的功能,我先在线尝试了一次。

发了一张"把大象放进冰箱"的流程图,让AI同时识别文字+节点形状+连线关系 。

识别准确度很高,也能自定义结构化输出格式,感觉这波稳了

方案可行!!!

回到Trae重新写了一段提示词,主要是三个部分:

  1. 告诉Trae把OCR识别功能直接调用火山引擎的豆包大模型实现;
  1. 附上了官方的 API 调用代码,并且告诉它API key ;
  1. 附上了在先前官网测试得到的返回结果,便于Trae分析如何将模型输出的内容转化为可编辑的流程图;

solo模式直接一次成功接入API,这里必须点个赞👍

之前使用Claude code 接入视觉模型,经常没办法一次成功,不知道是不是Trae的工程师有专门优化过

甚至还能帮我修改提供给大模型的提示词

样式美化

功能实现没问题后,开始着手美化流程图样式

主要是两方面:

  1. 优化流程图节点的排版,包括自动对齐、优化连线逻辑,避免多余的直角转弯等;
  2. 配色系统:我选择了4种比较流行的风格色系(包含多巴胺配色、Labubu高能色系、洛可可色系、莫兰迪色系)

最终成果

开发心法:SOLO模式的启示

  1. PRD生成:用自然语言描述需求,自动生成专业的产品需求文档


    最开始的提示词可以简洁为主,描述好主要功能即可,生成PRO文档后,会以表格的形式呈现具体界面功能,直接在表格里修改,其实更有助于我们厘清产品需求。

  2. 端到端网页生成智能体,告别终端报错


    solo模式开发web真的有种舒爽感,能力非常强,而且交付的成果都是一步到位,以前在终端复制报错内容到协助框的糟糕体验,已经是过去式。

  3. 从"提示词工程"到"上下文工程"的转变


    回看整个开发历程,我没有特意写很专业的提示词,基本是:需求+功能(+实现方式);

    比如我让它自己读完整项目的代码包集成OCR;直接把大模型返回结果给他参考,但它能自己修改提示词,让大模型返回的结果标准化;

💡 最大的感受是:

当AI真正理解开发者的意图时,技术的边界就会被重新定义。

如果你也有好的创意和想法,欢迎在评论区交流!

#TRAE2.0SOLO出道

相关推荐
CF14年老兵4 分钟前
🔥 2025 年开发者必试的 10 款 AI 工具 🚀
前端·后端·trae
晴殇i4 小时前
前端视角下的单点登录(SSO)从原理到实战
前端·面试·trae
飞哥数智坊16 小时前
AI编程实战:写作助手进化,Trae+Kimi-K2两小时搞定“带样式复制”
人工智能·trae
豆包MarsCode16 小时前
奖品激励+官方认证!TRAE最佳实践征文大赛来了
trae
bytebeats17 小时前
如何使用Trae和Claude-3.5-Sonnet在Flutter中从图片生成自定义按钮
trae
前端卧龙人18 小时前
不用懂代码,新手也可以使用Trae实现一个电子签名
trae
前端日常开发18 小时前
什么?你还不会PWA,那就让Trae来教吧~
trae
创码小奇客19 小时前
Spring Boot 集成 Talos:打造智能调参系统,让模型性能自动飙升
java·spring boot·trae
兵临天下api21 小时前
【干货满满】如何处理requests库调用API接口时的异常情况
trae