【产品底稿 04】商助慧 V1.1 里程碑:爬虫入库 + MySQL + Milvus 全链路打通

哈喽各位同行,我是老邢。

继产品底稿 01 定下 V1.1 个人专属 AI 写作助手方向后,这段时间一直在闷头推进核心链路落地。目前商助慧 V1.1 版本已经完成最关键的底座建设:CSDN 文章爬虫、MySQL 结构化存储、Milvus 向量入库、前端页面展示,全流程正式跑通。

一、V1.1 阶段核心目标

  1. 彻底放弃对外商业化,专注服务自身写作需求
  2. 把个人 14 年技术文章、人生底稿全部沉淀为私有知识库
  3. 实现文章从抓取、清洗、分片、存储到展示的全自动闭环
  4. 搭建稳定可靠的 RAG 底层数据环境,为后续 AI 写作做支撑

二、当前已完成核心功能

1. CSDN 文章爬虫模块

  • 支持文章 URL 一键爬取,自动解析正文内容
  • 实现 HTML 标签清洗、冗余内容过滤、文本格式化
  • 配套图片抓取与路径处理,保证内容完整性
  • 接口稳定,可批量灌库,无需手动复制粘贴

2. 双存储架构落地

  • MySQL 存储文章原文、标题、创建时间、关联关系等结构化数据
  • 实现数据校验、异常捕获、重复入库拦截
  • Milvus 向量库负责文本分片后的向量存储
  • 完成 MySQL 与 Milvus 数据双写逻辑,保证数据一致性

3. RAG 基础分片入库

  • 采用固定长度文本分片,适配向量检索规则
  • 对接向量生成服务,实现自动向量化入库
  • 构建专属私有知识库,数据完全在内网环境运行

4. 前端展示与管理

  • 文章列表、详情页正常展示,数据回显完整
  • 支持知识库内容查看、管理
  • 前后端接口联调全部通过,流程无阻塞

三、实际开发踩坑与解决

  1. 爬虫正文提取不稳定,存在冗余代码与噪音数据优化:强化规则过滤,提升正文纯度,减少干扰内容
  2. 长文本直接入库导致向量异常优化:统一分片规则,控制单段文本长度
  3. MySQL 与 Milvus 数据不同步优化:增加事务控制与失败重试机制,保证双库一致性
  4. 图片路径错乱无法正常显示优化:统一资源路径规则,修复地址映射问题

四、V1.1 当前阶段价值

这一阶段完成后,商助慧真正拥有了属于自己的私有知识底座。

  • 不再依赖通用大模型,数据完全私有化、内网化
  • 所有技术底稿、人生底稿可统一管理、批量入库
  • RAG 检索环境就绪,后续可直接实现基于个人内容的 AI 写作、风格仿写
  • 为 AI 生成初稿、智能问答、内容梳理打下最扎实的基础

五、下一阶段 V1.2 规划

  1. 支持 TXT、MD、PDF 多格式文件导入
  2. 优化分片策略,从固定长度转向语义分片
  3. 完善 RAG 召回逻辑,提升检索精准度
  4. 接入 AI 写作界面,实现基于私有库的内容生成

后续会继续同步产品迭代细节,保持纯 Java 生态落地 AI 应用,一步一步把个人专属写作助手做扎实。


持续更新《人生底稿》成长史 &《技术底稿》&《产品底稿》实战干货,一起踏实成长,不焦虑、不内卷。

📚 系列导航:

【人生底稿 01】|农村少年(1995--2005)

【技术底稿】01:37岁老码农,用4台机器搭了套个人DevOps平台

【产品底稿01】37 岁 Java 老码农,用 Java 搭了个 AI 写作助手,把自己 14 年技术文章全喂给了 AI!

相关推荐
俊哥V4 小时前
每日 AI 研究简报 · 2026-05-21
人工智能·ai
星球奋斗者5 小时前
深度学习革命
ai·ai发展及热点
Lei活在当下5 小时前
先用起来,再理解,关于协程Coroutine应该知道的事
android·java·jvm
Java爱好狂.5 小时前
Java程序员体系化学习路线(2026最新版)
java·后端·java面试·java架构师·java程序员·java八股文·java学习路线
tongluowan0076 小时前
以ReentrantLock为例解释AQS的工作流程
java·模板方法模式·aqs·reentrantlock
王翼鹏6 小时前
利用AI根据设计图开发页面总结
ui·ai
IronMurphy6 小时前
MySQL拷打第二讲
数据库·mysql
身如柳絮随风扬7 小时前
Java 项目打包与部署完全指南:JAR vs WAR,从构建到运行
java·firefox·jar
云烟成雨TD7 小时前
Spring AI Alibaba 1.x 系列【62】时光旅行(Time-Travel)
java·人工智能·spring
令狐少侠20118 小时前
使用Qclaw或Workbuddy 安装Codex
ai