【产品底稿 04】商助慧 V1.1 里程碑:爬虫入库 + MySQL + Milvus 全链路打通

哈喽各位同行,我是老邢。

继产品底稿 01 定下 V1.1 个人专属 AI 写作助手方向后,这段时间一直在闷头推进核心链路落地。目前商助慧 V1.1 版本已经完成最关键的底座建设:CSDN 文章爬虫、MySQL 结构化存储、Milvus 向量入库、前端页面展示,全流程正式跑通。

一、V1.1 阶段核心目标

  1. 彻底放弃对外商业化,专注服务自身写作需求
  2. 把个人 14 年技术文章、人生底稿全部沉淀为私有知识库
  3. 实现文章从抓取、清洗、分片、存储到展示的全自动闭环
  4. 搭建稳定可靠的 RAG 底层数据环境,为后续 AI 写作做支撑

二、当前已完成核心功能

1. CSDN 文章爬虫模块

  • 支持文章 URL 一键爬取,自动解析正文内容
  • 实现 HTML 标签清洗、冗余内容过滤、文本格式化
  • 配套图片抓取与路径处理,保证内容完整性
  • 接口稳定,可批量灌库,无需手动复制粘贴

2. 双存储架构落地

  • MySQL 存储文章原文、标题、创建时间、关联关系等结构化数据
  • 实现数据校验、异常捕获、重复入库拦截
  • Milvus 向量库负责文本分片后的向量存储
  • 完成 MySQL 与 Milvus 数据双写逻辑,保证数据一致性

3. RAG 基础分片入库

  • 采用固定长度文本分片,适配向量检索规则
  • 对接向量生成服务,实现自动向量化入库
  • 构建专属私有知识库,数据完全在内网环境运行

4. 前端展示与管理

  • 文章列表、详情页正常展示,数据回显完整
  • 支持知识库内容查看、管理
  • 前后端接口联调全部通过,流程无阻塞

三、实际开发踩坑与解决

  1. 爬虫正文提取不稳定,存在冗余代码与噪音数据优化:强化规则过滤,提升正文纯度,减少干扰内容
  2. 长文本直接入库导致向量异常优化:统一分片规则,控制单段文本长度
  3. MySQL 与 Milvus 数据不同步优化:增加事务控制与失败重试机制,保证双库一致性
  4. 图片路径错乱无法正常显示优化:统一资源路径规则,修复地址映射问题

四、V1.1 当前阶段价值

这一阶段完成后,商助慧真正拥有了属于自己的私有知识底座。

  • 不再依赖通用大模型,数据完全私有化、内网化
  • 所有技术底稿、人生底稿可统一管理、批量入库
  • RAG 检索环境就绪,后续可直接实现基于个人内容的 AI 写作、风格仿写
  • 为 AI 生成初稿、智能问答、内容梳理打下最扎实的基础

五、下一阶段 V1.2 规划

  1. 支持 TXT、MD、PDF 多格式文件导入
  2. 优化分片策略,从固定长度转向语义分片
  3. 完善 RAG 召回逻辑,提升检索精准度
  4. 接入 AI 写作界面,实现基于私有库的内容生成

后续会继续同步产品迭代细节,保持纯 Java 生态落地 AI 应用,一步一步把个人专属写作助手做扎实。


持续更新《人生底稿》成长史 &《技术底稿》&《产品底稿》实战干货,一起踏实成长,不焦虑、不内卷。

📚 系列导航:

【人生底稿 01】|农村少年(1995--2005)

【技术底稿】01:37岁老码农,用4台机器搭了套个人DevOps平台

【产品底稿01】37 岁 Java 老码农,用 Java 搭了个 AI 写作助手,把自己 14 年技术文章全喂给了 AI!

相关推荐
FQNmxDG4S5 小时前
Java多线程编程:Thread与Runnable的并发控制
java·开发语言
虹科网络安全6 小时前
艾体宝干货|数据复制详解:类型、原理与适用场景
java·开发语言·数据库
哥布林学者6 小时前
深度学习进阶(十五)通道注意力 SE
机器学习·ai
2301_771717216 小时前
解决mysql报错:1406, Data too long for column
android·数据库·mysql
axng pmje6 小时前
Java语法进阶
java·开发语言·jvm
绘梨衣5477 小时前
Docker+FastAPI+MySQL 项目部署报错汇总
mysql·docker·fastapi
rKWP8gKv77 小时前
Java微服务性能监控:Prometheus与Grafana集成方案
java·微服务·prometheus
老前端的功夫7 小时前
【Java从入门到入土】28:Stream API:告别for循环的新时代
java·开发语言·python
qq_435287927 小时前
第9章 夸父逐日与后羿射日:死循环与进程终止?十个太阳同时值班的并行冲突
java·开发语言·git·死循环·进程终止·并行冲突·夸父逐日
小江的记录本7 小时前
【Kafka核心】架构模型:Producer、Broker、Consumer、Consumer Group、Topic、Partition、Replica
java·数据库·分布式·后端·搜索引擎·架构·kafka