【产品底稿 04】商助慧 V1.1 里程碑：爬虫入库 + MySQL + Milvus 全链路打通

程序员老邢2026-04-13 9:24

哈喽各位同行，我是老邢。

继产品底稿 01 定下 V1.1 个人专属 AI 写作助手方向后，这段时间一直在闷头推进核心链路落地。目前商助慧 V1.1 版本已经完成最关键的底座建设：CSDN 文章爬虫、MySQL 结构化存储、Milvus 向量入库、前端页面展示，全流程正式跑通。

一、V1.1 阶段核心目标

彻底放弃对外商业化，专注服务自身写作需求
把个人 14 年技术文章、人生底稿全部沉淀为私有知识库
实现文章从抓取、清洗、分片、存储到展示的全自动闭环
搭建稳定可靠的 RAG 底层数据环境，为后续 AI 写作做支撑

二、当前已完成核心功能

1. CSDN 文章爬虫模块

支持文章 URL 一键爬取，自动解析正文内容
实现 HTML 标签清洗、冗余内容过滤、文本格式化
配套图片抓取与路径处理，保证内容完整性
接口稳定，可批量灌库，无需手动复制粘贴

2. 双存储架构落地

MySQL 存储文章原文、标题、创建时间、关联关系等结构化数据
实现数据校验、异常捕获、重复入库拦截
Milvus 向量库负责文本分片后的向量存储
完成 MySQL 与 Milvus 数据双写逻辑，保证数据一致性

3. RAG 基础分片入库

采用固定长度文本分片，适配向量检索规则
对接向量生成服务，实现自动向量化入库
构建专属私有知识库，数据完全在内网环境运行

4. 前端展示与管理

文章列表、详情页正常展示，数据回显完整
支持知识库内容查看、管理
前后端接口联调全部通过，流程无阻塞

三、实际开发踩坑与解决

爬虫正文提取不稳定，存在冗余代码与噪音数据优化：强化规则过滤，提升正文纯度，减少干扰内容
长文本直接入库导致向量异常优化：统一分片规则，控制单段文本长度
MySQL 与 Milvus 数据不同步优化：增加事务控制与失败重试机制，保证双库一致性
图片路径错乱无法正常显示优化：统一资源路径规则，修复地址映射问题

四、V1.1 当前阶段价值

这一阶段完成后，商助慧真正拥有了属于自己的私有知识底座。

不再依赖通用大模型，数据完全私有化、内网化
所有技术底稿、人生底稿可统一管理、批量入库
RAG 检索环境就绪，后续可直接实现基于个人内容的 AI 写作、风格仿写
为 AI 生成初稿、智能问答、内容梳理打下最扎实的基础

五、下一阶段 V1.2 规划

支持 TXT、MD、PDF 多格式文件导入
优化分片策略，从固定长度转向语义分片
完善 RAG 召回逻辑，提升检索精准度
接入 AI 写作界面，实现基于私有库的内容生成

后续会继续同步产品迭代细节，保持纯 Java 生态落地 AI 应用，一步一步把个人专属写作助手做扎实。

持续更新《人生底稿》成长史 &《技术底稿》&《产品底稿》实战干货，一起踏实成长，不焦虑、不内卷。

📚 系列导航：

【人生底稿 01】｜农村少年（1995--2005）

【技术底稿】01：37岁老码农，用4台机器搭了套个人DevOps平台

【产品底稿01】37 岁 Java 老码农，用 Java 搭了个 AI 写作助手，把自己 14 年技术文章全喂给了 AI！

上一篇：Chrome安全机制全解析

下一篇：GitHub热门翻译项目：这款镜像Star增长最快

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结