[实战] Node.js + DeepSeek 打造智能档案归档系统:从混乱到有序的自动化之旅

1. 背景与痛点

在 IT 工程交付、政府项目或大型企业管理中,"资料归档" 往往是项目收尾阶段最令人头秃的环节。

C:\myApp\project-archive
场景通常是这样的:

  1. 原始文件一团糟 :你手里有一个几百兆的文件夹,里面堆满了 PDF、扫描件、Word 文档,文件名五花八门(例如 2024-10-12 会议记录_最终版.pdf)。
  2. 归档要求极严格 :客户给了你十几个 Word 文档(案卷目录),每个文档里有一个表格,规定了该案卷必须包含哪些文件,而且必须重命名为标准格式(例如 01-01 项目会议纪要.pdf)。
  3. 人工耗时极长:传统的做法是人工逐个打开文件看内容,然后去目录里找对应项,重命名,拖进去......几百个文件需要耗费数天,且极易出错。

解决思路:

能不能写个程序,让它像人一样"看懂"文件名,自动跟目录里的标题配对?

答案是肯定的。通过结合 Node.js 的文件处理能力与 DeepSeek LLM(大语言模型) 的语义理解能力,我们构建了一套自动化归档系统。


2. 系统架构设计

为了确保工具在实际工程中落地(可用、稳定、抗造),我们经历了从"全云端处理"到"本地+云端混合"的架构演进。

核心流程

  1. 输入:用户上传多个"案卷目录" Word 文件 (.docx)。
  2. 扫描:后端自动扫描本地磁盘的一个指定文件夹(存放所有杂乱的原始文件)。
  3. 解析:提取 Word 文档中表格的"序号"和"标准题名"。
  4. 思考(AI Agent) :将"原始文件名列表"和"标准题名列表"发送给 DeepSeek API,让 AI 进行模糊语义匹配。
  5. 执行:根据 AI 的匹配结果,自动复制文件、重命名、分类存放到对应文件夹。
  6. 生成:自动生成符合档案局标准的"案卷封面"和"卷内目录" Word 文档。
  7. 输出:打包成 ZIP 供用户下载。

技术栈

  • Runtime: Node.js (Express)
  • AI Engine: DeepSeek V3 (via API)
  • Word Process : mammoth (读取内容), docxtemplater (生成模版)
  • File System : fs-extra (增强的文件操作)

3. 核心代码深度解析

让我们通过分析 server.js 的关键逻辑,来看看这个系统是如何运转的。

3.1 启动自检与目录"防崩"设计

在早期的版本中,用户经常遇到 ENOENT 错误,原因是上传目录不存在。我们在系统启动时加入了强制自检:

javascript 复制代码
// server.js 片段
const BASE_UPLOAD_DIR = path.join(__dirname, 'uploads');
const DOCX_UPLOAD_DIR = path.join(BASE_UPLOAD_DIR, 'docx_temp');
const RAW_FILE_DIR = path.join(BASE_UPLOAD_DIR, 'temp');

// 核心优化:启动即创建目录,防止找不到文件夹报错
fs.ensureDirSync(DOCX_UPLOAD_DIR);
fs.ensureDirSync(RAW_FILE_DIR);

设计意图 :利用 fs-extraensureDirSync,确保无论部署在什么环境,程序运行的第一秒,所有必要的基础设施都已就绪。

3.2 解析 Word 表格(提取归档需求)

Word 文档本质是 XML,直接解析很痛苦。我们使用 mammoth 将 Word 转为 HTML,再用 cheerio(类似 jQuery)提取表格数据。

javascript 复制代码
// 解析目录 DOCX
const { value: html } = await mammoth.convertToHtml({ path: docFile.path });
const $ = cheerio.load(html);

$('table tr').each((i, elem) => {
    // 提取表格列
    const cols = $(elem).find('td').map((j, td) => $(td).text().trim()).get();
    // 启发式校验:第一列是数字才认为是有效数据行
    if (cols.length >= 3 && /^\d+$/.test(cols[0])) {
        items.push({
            seq: cols[0],       // 序号
            title: cols[3],     // 题名 (这是我们要去匹配的目标)
            // ...其他元数据
        });
    }
});

设计意图:这种方式比直接解析 XML 更具容错性,即使 Word 表格格式稍微不规范,只要它是 HTML 表格结构,就能读取。

3.3 AI 大脑:DeepSeek 语义匹配

这是本系统的灵魂。传统的正则匹配(Regex)无法处理文件名差异(如"合同扫描件" vs "咨询服务合同")。而 LLM 天生擅长这个。

javascript 复制代码
async function callDeepSeekMatcher(rawFiles, targetItems) {
    // Prompt 工程:明确任务、输入和输出格式
    const prompt = `
    任务:文件匹配。
    【原始文件名】: ${JSON.stringify(rawFiles)}
    【标准标题】: ${JSON.stringify(targetItems.map(t => ({ id: t.id, title: t.title })))}
    请根据语义将标准标题与原始文件名配对。
    要求:
    1. 忽略日期格式差异、版本号差异。
    2. 返回 JSON 格式: {"目标ID": "原始文件名"}。
    `;
    
    const response = await axios.post(DEEPSEEK_API_URL, {
        model: "deepseek-chat", 
        messages: [{ role: "user", content: prompt }],
        response_format: { type: "json_object" } // 强制 JSON 输出
    }, ...);
    
    return JSON.parse(response.data.choices[0].message.content);
}

亮点 :我们利用了 DeepSeek 的 json_object 模式,确保 AI 返回的不是闲聊,而是机器可读的结构化数据。

3.4 自动化执行与容错

拿到 AI 的匹配结果后,Node.js 开始搬运文件。这里处理了几个关键的工程问题:

  1. 文件缺失处理 :如果 AI 没找到文件,生成一个 .txt 占位符,提示人工后续补充。
  2. 非法字符清洗 :Windows 文件名不支持 \ / : * ? " < > |,代码中自动替换为下划线。
  3. 格式强校验 :严厉拒绝老旧的 .doc 格式,避免解析器崩溃。
javascript 复制代码
if (matchedName) {
    // 构造标准化文件名:01-01 标准题名.pdf
    const safeTitle = item.title.replace(/[\\/:*?"<>|]/g, '_');
    const finalName = `${volNum}-${seqNum} ${safeTitle}${ext}`;
    
    await fs.copy(srcFile.fullPath, path.join(targetFolder, finalName));
} else {
    // 优雅降级:生成缺失提示文件
    await fs.writeFile(path.join(targetFolder, `【缺失】${item.title}.txt`), "AI未找到匹配文件");
}

4. 踩坑与填坑记录

在开发过程中,我们解决了几类典型问题,这些经验非常宝贵:

4.1 ZIP 乱码与上传超时

  • 问题:最初允许用户上传几百兆的 ZIP 包。结果导致 Nginx 超时,且 Windows 上传的 ZIP 解压后中文全是乱码(GBK vs UTF-8 问题)。
  • 解决:改为**"本地目录扫描模式"**。用户只需将原始文件解压到服务器指定目录,网页端只上传轻量的 Word 目录文件。既解决了乱码,又秒传秒开。

4.2 .doc vs .docx 的噩梦

  • 问题 :用户上传了老版本的 .doc 文件,后端报错 Can't find end of central directory
  • 原因.doc 是二进制文件,.docx 是 ZIP 包。Node.js 的现代库大多只支持 ZIP 结构的 Office 文档。
  • 解决 :在后端增加严格的文件扩展名校验,遇到 .doc 直接抛出友好的错误提示,要求用户另存为 .docx

4.3 临时文件夹丢失 (ENOENT)

  • 问题multer 不会自动创建上传目录,导致首次运行直接崩溃。
  • 解决 :引入 fs.ensureDirSync,在应用启动层解决环境依赖。

5. 运行界面

相关推荐
亮子AI17 小时前
【Node.js】为什么数据库连接总是中断?
数据库·node.js
亮子AI17 小时前
【MySQL】node.js 如何批量更新数据?
数据库·mysql·node.js
One_Piece_Fu17 小时前
2026年node.js最新版下载(24.12.0LTS)安装教程(详细)
vscode·学习·node.js
Komorebi゛17 小时前
【CSS】线性流动边框样式
前端·css·css3
幻影星空VR元宇宙17 小时前
飞越中国沉浸式体验馆:7D互动影院引领全新娱乐风潮
css·百慕大冒险·幻影星空
之恒君1 天前
Node.js 模块加载 - 4 - CJS 和 ESM 互操作避坑清单
前端·node.js
be or not to be1 天前
CSS 背景(background)系列属性
前端·css·css3
冴羽1 天前
CSS 新特性!瀑布流布局的终极解决方案
前端·javascript·css
牛奶皮子1 天前
合并 CSS 文件可以减少 HTTP 请求数,因为每个请求都会带来额外的网络开销
css·网络·http