【产品底稿 04】商助慧 V1.1 里程碑:爬虫入库 + MySQL + Milvus 全链路打通

哈喽各位同行,我是老邢。

继产品底稿 01 定下 V1.1 个人专属 AI 写作助手方向后,这段时间一直在闷头推进核心链路落地。目前商助慧 V1.1 版本已经完成最关键的底座建设:CSDN 文章爬虫、MySQL 结构化存储、Milvus 向量入库、前端页面展示,全流程正式跑通。

一、V1.1 阶段核心目标

  1. 彻底放弃对外商业化,专注服务自身写作需求
  2. 把个人 14 年技术文章、人生底稿全部沉淀为私有知识库
  3. 实现文章从抓取、清洗、分片、存储到展示的全自动闭环
  4. 搭建稳定可靠的 RAG 底层数据环境,为后续 AI 写作做支撑

二、当前已完成核心功能

1. CSDN 文章爬虫模块

  • 支持文章 URL 一键爬取,自动解析正文内容
  • 实现 HTML 标签清洗、冗余内容过滤、文本格式化
  • 配套图片抓取与路径处理,保证内容完整性
  • 接口稳定,可批量灌库,无需手动复制粘贴

2. 双存储架构落地

  • MySQL 存储文章原文、标题、创建时间、关联关系等结构化数据
  • 实现数据校验、异常捕获、重复入库拦截
  • Milvus 向量库负责文本分片后的向量存储
  • 完成 MySQL 与 Milvus 数据双写逻辑,保证数据一致性

3. RAG 基础分片入库

  • 采用固定长度文本分片,适配向量检索规则
  • 对接向量生成服务,实现自动向量化入库
  • 构建专属私有知识库,数据完全在内网环境运行

4. 前端展示与管理

  • 文章列表、详情页正常展示,数据回显完整
  • 支持知识库内容查看、管理
  • 前后端接口联调全部通过,流程无阻塞

三、实际开发踩坑与解决

  1. 爬虫正文提取不稳定,存在冗余代码与噪音数据优化:强化规则过滤,提升正文纯度,减少干扰内容
  2. 长文本直接入库导致向量异常优化:统一分片规则,控制单段文本长度
  3. MySQL 与 Milvus 数据不同步优化:增加事务控制与失败重试机制,保证双库一致性
  4. 图片路径错乱无法正常显示优化:统一资源路径规则,修复地址映射问题

四、V1.1 当前阶段价值

这一阶段完成后,商助慧真正拥有了属于自己的私有知识底座。

  • 不再依赖通用大模型,数据完全私有化、内网化
  • 所有技术底稿、人生底稿可统一管理、批量入库
  • RAG 检索环境就绪,后续可直接实现基于个人内容的 AI 写作、风格仿写
  • 为 AI 生成初稿、智能问答、内容梳理打下最扎实的基础

五、下一阶段 V1.2 规划

  1. 支持 TXT、MD、PDF 多格式文件导入
  2. 优化分片策略,从固定长度转向语义分片
  3. 完善 RAG 召回逻辑,提升检索精准度
  4. 接入 AI 写作界面,实现基于私有库的内容生成

后续会继续同步产品迭代细节,保持纯 Java 生态落地 AI 应用,一步一步把个人专属写作助手做扎实。


持续更新《人生底稿》成长史 &《技术底稿》&《产品底稿》实战干货,一起踏实成长,不焦虑、不内卷。

📚 系列导航:

【人生底稿 01】|农村少年(1995--2005)

【技术底稿】01:37岁老码农,用4台机器搭了套个人DevOps平台

【产品底稿01】37 岁 Java 老码农,用 Java 搭了个 AI 写作助手,把自己 14 年技术文章全喂给了 AI!

相关推荐
2601_950703942 小时前
Java安全编程与静态分析实战
java
好家伙VCC2 小时前
**发散创新:基于Python与OpenCV的视频流帧级分析实战**在当前人工智能与计算机视觉飞速发展的背景下
java·人工智能·python·计算机视觉
SimonKing2 小时前
大V说’AI替代不了你’,但现实是——用AI的人正在替代你
java·后端·程序员
FIT2CLOUD飞致云2 小时前
新增工作流类型工具,对话时可选择模型与知识库,MaxKB开源企业级智能体平台v2.8.0版本发布
人工智能·ai·开源·智能体·maxkb
一叶龙洲2 小时前
Java中使用模板引擎(FreeMarker / Velocity) + Word XML导出复杂Word
xml·java·word
xixixi777772 小时前
通信产业的“全维度加速”:从5G-A商用、6G冲刺到卫星互联网密集组网
大数据·网络·人工智能·ai·多模型
Halo_tjn2 小时前
Java 接口的定义重构学生管理系统
java·开发语言·算法
ofoxcoding2 小时前
OpenClaw Nanobot 架构拆解:从源码学会 AI Agent 的骨架设计(2026)
人工智能·ai·架构
Albert Edison2 小时前
【RabbitMQ】快速入门
java·分布式·rabbitmq