【产品底稿 06】商助慧V1.2实战复盘:Milvus向量库重构+RAG仿写升级+前端SSE排版彻底修复

一、底稿前言

本篇为商助慧・RAG 个人专属 AI 写作助手 V1.2 版本迭代落地实践记录,承接【产品底稿 05】 V1.1 版本内容。

本次围绕底层向量库、文本分片、业务字段、前端渲染、AI 提示词、个人知识库等模块进行全链路优化调整,针对旧版系统存在的内容杂乱、稳定性不足等问题进行改进完善,逐步打磨适配 CSDN 文章创作发布场景的专属 AI 写作工具。


二、本次全链路技术优化落地内容

1. Milvus 向量库底层优化:数据清理 + 字段规范化

对 Milvus 向量库执行全量数据清理,梳理并清理历史冗余脏数据、错误格式切片与无效向量信息,重新梳理集合底层结构,统一全量字段规范。

针对历史存在的文本分片混乱、向量格式不统一、检索匹配精度不足、内容匹配错乱等问题进行优化改进,为后续 52 篇原创文章全量入库,搭建干净、标准、稳定的底层数据基础。

2. 文本分片策略优化升级

优化调整全新语义分片规则:

  • 按原文段落边界切分

  • 按完整语义单元切分

  • 合理控制碎片长度,规避过长、过短无效分片

  • 完整保留原文段落结构,不破坏原文原有逻辑

优化后 RAG 检索精准度得到有效提升,仿写内容匹配度更高,内容碎片化、跳转无关内容的问题得到明显改善。

3. 新增业务结构化字段:文章类型 / 分类标记

知识库新增文章类型业务字段,区分技术底稿、人生底稿、产品底稿等多场景分类,支持:

  • 按文章类型定向检索

  • 按对应风格定向仿写

  • 后续批量管理、筛选与数据统计

知识库逐步从无结构文本存储,向结构化个人技术资产库方向完善升级。

4. 前端 SSE 流式排版 & 换行问题优化

针对历史流式逐字输出内容拥挤、换行异常、段落区分不清晰等阅读体验问题进行优化:

  • 调整多余不必要字符截断逻辑

  • 完整保留流式原文格式

  • 采用 white-space: pre-wrap 标准聊天排版方案

  • 句子结束自动分段处理

优化后文章段落区分清晰,阅读体验舒适,排版效果对齐豆包聊天、CSDN 官方文章阅读样式。

5. AI 仿写能力优化:提示词约束规则完善

针对历史仿写存在的特殊符号杂乱、语句碎片化、通顺度不足、排版混乱、文风偏离原创等问题,完善提示词约束规则:

  • 规范输出符号使用,减少多余特殊符号

  • 引导输出完整通顺语句,减少病句、碎句、半截内容

  • 规范段落换行、中文标点使用标准

  • 引导固定输出结构:痛点 → 思路 → 方案 → 总结

优化后仿写内容通顺规范,可直接用于 CSDN 文章创作发布,文风更贴合本人原创风格。

6. 个人专属原创技术知识库搭建

完成首批 10 篇本人 CSDN 原创实战底稿入库,全部完成去广告、去侧边栏、去冗余垃圾内容的纯正文清洗,统一采用 37 岁老码农实战踩坑复盘文风。

当前已入库 10 篇原创底稿,剩余 42 篇原创文章待后续分批入库。现阶段 RAG 检索运行稳定,仿写风格统一,输出质量满足日常创作使用要求。


三、本次迭代优化闭环问题汇总

序号 问题 状态
1 Milvus 脏数据清理 + 底层结构规范化 ✅ 完成
2 文本分片规则标准化重构 ✅ 完成
3 文章类型业务字段新增,结构化管理 ✅ 完成
4 前端 SSE 排版、换行异常修复 ✅ 完成
5 AI 仿写输出杂乱、碎句、文风偏离 ✅ 完成
6 首批 10 篇高质量个人原创知识库搭建 ✅ 完成

系统整体稳定性、可用性得到明显提升,可稳定用于日常 CSDN 文章创作仿写场景。


四、本次版本迭代总结

本次迭代针对旧版系统内容杂乱、排版体验不佳、检索不稳定等多项问题进行全链路优化,系统从开发调试阶段的试用版本,逐步完善为干净规范、运行稳定、可适配日常量产发文需求的个人专属 RAG AI 写作助手。


五、下一阶段规划

  • 持续分批抓取剩余 42 篇本人 CSDN 原创文章

  • 严格按照本次统一规范:原文清洗 → 规范语义分片 → 携带类型字段 → Milvus 入库

  • 持续完善文章管理前端页面

  • 持续迭代优化,稳步提升仿写内容质量


六、本次迭代收获

本次完成向量库重构、字段规范、分片规则优化、前端排版改进、提示词升级、知识库搭建全链路打通,商助慧项目正式从开发调试阶段,迈入可稳定日常使用、可长期扩展迭代、可落地产生实际创作价值的成熟阶段。


📚 系列导航:

【人生底稿 01】|农村少年(1995--2005)

【技术底稿】01:37岁老码农,用4台机器搭了套个人DevOps平台

【产品底稿01】37 岁 Java 老码农,用 Java 搭了个 AI 写作助手,把自己 14 年技术文章全喂给了 AI!

相关推荐
QYR_112 小时前
2026零重力座椅产业升级:安全法规与AI智控如何重塑高端智驾座舱?
人工智能·市场调研
Bat U2 小时前
JavaEE|多线程(四)
java·开发语言
阿丰资源2 小时前
基于SpringBoot+MySQL的在线拍卖系统设计与实现(附源码)
spring boot·后端·mysql
Han.miracle2 小时前
Spring Cloud + Nacos 环境切换与配置管理最佳实践
数据库·spring boot·spring cloud·maven
.柒宇.2 小时前
RAG与RAGFlow详解:从原理到应用
ai·知识库·rag·ragflow
空空潍2 小时前
Claude Code从安装到国内模型配置(含DS/CC-Switch)
ai·claude
budingxiaomoli2 小时前
SpringBoot快速上手
java·spring boot·后端
三毛的二哥2 小时前
BEV:MapTR
人工智能·算法·计算机视觉·3d
月诸清酒2 小时前
AI 科技日报 (通义新开源模型27B参数打赢编程旗舰)
人工智能·开源