【产品底稿 04】商助慧 V1.1 里程碑:爬虫入库 + MySQL + Milvus 全链路打通

哈喽各位同行,我是老邢。

继产品底稿 01 定下 V1.1 个人专属 AI 写作助手方向后,这段时间一直在闷头推进核心链路落地。目前商助慧 V1.1 版本已经完成最关键的底座建设:CSDN 文章爬虫、MySQL 结构化存储、Milvus 向量入库、前端页面展示,全流程正式跑通。

一、V1.1 阶段核心目标

  1. 彻底放弃对外商业化,专注服务自身写作需求
  2. 把个人 14 年技术文章、人生底稿全部沉淀为私有知识库
  3. 实现文章从抓取、清洗、分片、存储到展示的全自动闭环
  4. 搭建稳定可靠的 RAG 底层数据环境,为后续 AI 写作做支撑

二、当前已完成核心功能

1. CSDN 文章爬虫模块

  • 支持文章 URL 一键爬取,自动解析正文内容
  • 实现 HTML 标签清洗、冗余内容过滤、文本格式化
  • 配套图片抓取与路径处理,保证内容完整性
  • 接口稳定,可批量灌库,无需手动复制粘贴

2. 双存储架构落地

  • MySQL 存储文章原文、标题、创建时间、关联关系等结构化数据
  • 实现数据校验、异常捕获、重复入库拦截
  • Milvus 向量库负责文本分片后的向量存储
  • 完成 MySQL 与 Milvus 数据双写逻辑,保证数据一致性

3. RAG 基础分片入库

  • 采用固定长度文本分片,适配向量检索规则
  • 对接向量生成服务,实现自动向量化入库
  • 构建专属私有知识库,数据完全在内网环境运行

4. 前端展示与管理

  • 文章列表、详情页正常展示,数据回显完整
  • 支持知识库内容查看、管理
  • 前后端接口联调全部通过,流程无阻塞

三、实际开发踩坑与解决

  1. 爬虫正文提取不稳定,存在冗余代码与噪音数据优化:强化规则过滤,提升正文纯度,减少干扰内容
  2. 长文本直接入库导致向量异常优化:统一分片规则,控制单段文本长度
  3. MySQL 与 Milvus 数据不同步优化:增加事务控制与失败重试机制,保证双库一致性
  4. 图片路径错乱无法正常显示优化:统一资源路径规则,修复地址映射问题

四、V1.1 当前阶段价值

这一阶段完成后,商助慧真正拥有了属于自己的私有知识底座。

  • 不再依赖通用大模型,数据完全私有化、内网化
  • 所有技术底稿、人生底稿可统一管理、批量入库
  • RAG 检索环境就绪,后续可直接实现基于个人内容的 AI 写作、风格仿写
  • 为 AI 生成初稿、智能问答、内容梳理打下最扎实的基础

五、下一阶段 V1.2 规划

  1. 支持 TXT、MD、PDF 多格式文件导入
  2. 优化分片策略,从固定长度转向语义分片
  3. 完善 RAG 召回逻辑,提升检索精准度
  4. 接入 AI 写作界面,实现基于私有库的内容生成

后续会继续同步产品迭代细节,保持纯 Java 生态落地 AI 应用,一步一步把个人专属写作助手做扎实。


持续更新《人生底稿》成长史 &《技术底稿》&《产品底稿》实战干货,一起踏实成长,不焦虑、不内卷。

📚 系列导航:

【人生底稿 01】|农村少年(1995--2005)

【技术底稿】01:37岁老码农,用4台机器搭了套个人DevOps平台

【产品底稿01】37 岁 Java 老码农,用 Java 搭了个 AI 写作助手,把自己 14 年技术文章全喂给了 AI!

相关推荐
AlfredZhao2 小时前
AI 编程工作总结:从体验问题到模块能力建设
ai·codex
nanxun8861 天前
记一次诡异的 Docker 容器"串包"故障排查
java
用户1563068103511 天前
Day01 | Java 基础(Java SE)
java
行者全栈架构师1 天前
Maven dependency:tree 的 8 个高级用法
java·后端
cup111 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
行者全栈架构师1 天前
IDEA 中 Maven 项目的 15 个红色报错快速解决方法
java·后端
令人头秃的代码0_01 天前
mac(m5)平台编译openjdk
java
IT王师傅1 天前
从 豆包 到 Codex CLI:一名普通开发者的 AI 工具进化路线
ai·codex cli·openclaw
岳小哥AI1 天前
Siri要接入AI了,苹果手机上一句话让GPT写文案、DeepSeek写代码的时刻来了
ai·ai基础
Artech1 天前
[MAF预定义的AIContextProvider-03]ChatHistoryMemoryProvider——赋予Agent从经验中学习的能力
ai·c#·agent·memory·maf