Nodejs匹配文件夹所有文件关键字

本文基于nodejs构建一个自动化检测工具:读取 Excel 中的关键字,在指定目录的所有文件中搜索是否存在对应内容,最终生成带标记结果的 Excel 文件。

一、场景需求分析

典型应用场景:

  • 前端接口冗余:检测接口是否使用
  • 前端项目国际化:检测翻译词库是否已全部使用
  • 代码规范检查:验证废弃 API 是否仍存在引用
  • 文档完整性验证:确认知识库词条是否都有对应文档

二、技术栈说明

技术 版本 作用
Node.js >=14.x 运行环境
xlsx ^0.18.5 Excel 文件处理
fs/promises 内置 文件系统操作
path 内置 路径处理

安装依赖:

bash 复制代码
npm install xlsx

三、核心代码解析

1. Excel读取模块

js 复制代码
const xlsx = require("xlsx");

function readExcelRows(filePath) {
  const workbook = xlsx.readFile(filePath);
  const sheetName = workbook.SheetNames[0];
  const sheet = workbook.Sheets[sheetName];
  // header:1 表示保留二维数组结构
  const rows = xlsx.utils.sheet_to_json(sheet, { header: 1 }); 
  return { workbook, sheetName, rows };
}

⚠️ 注意:sheet_to_jsonheader 参数决定输出格式:

  • header:1 → 二维数组(保留原始行列结构)
  • header:["col1","col2"] → 对象数组(自动映射字段)

2. 目录遍历模块

js 复制代码
async function getAllFilesContent(dirPath, fileList = []) {
  return new Promise((resolve, reject) => {
    fs.readdir(dirPath, async (err, files) => {
      if (err) return reject(err);
      
      for (const file of files) {
        const fullPath = path.join(dirPath, file);
        const stats = fs.statSync(fullPath);
        
        if (stats.isDirectory()) {
          if (!excludedDirs.includes(file)) {
            await getAllFilesContent(fullPath, fileList);
          }
        } else if (stats.isFile()) {
          try {
            const content = fs.readFileSync(fullPath, "utf8");
            fileList.push({ path: fullPath, content });
          } catch (err) {
            console.error(`读取文件失败: ${fullPath}`);
          }
        }
      }
      resolve(fileList);
    });
  });
}

✅ 最佳实践建议:

  1. 使用 fs.statSync 判断文件类型
  2. 排除 node_modules 等无关目录
  3. 添加错误处理防止程序崩溃

3. 匹配检测逻辑

js 复制代码
for (let i = 0; i < rows.length; i++) {
  const row = rows[i];
  const keyword = row[1]; // 取第二列数据
  
  if (typeof keyword === "string") {
    const matched = allFiles.some((file) => 
      file.content.includes(keyword)
    );
    
    if (!matched) {
      row[4] = "是"; // 在第五列标记
    }
  }
}

🧠 性能优化思路:

  • 使用正则表达式预编译
  • 增加防抖机制处理超长文本
  • 支持批量处理多个工作表

四、完整代码

js 复制代码
const fs = require("fs");
const path = require("path");
const xlsx = require("xlsx");

const excludedDirs = ["node_modules", "public"];

// 读取 Excel 所有行(保留结构)
function readExcelRows(filePath) {
  const workbook = xlsx.readFile(filePath);
  const sheetName = workbook.SheetNames[0];
  const sheet = workbook.Sheets[sheetName];
  const rows = xlsx.utils.sheet_to_json(sheet, { header: 1 }); // 保持数组结构
  return { workbook, sheetName, rows };
}

// 获取目录下所有文件内容
async function getAllFilesContent(dirPath, fileList = []) {
  return new Promise((resolve, reject) => {
    fs.readdir(dirPath, async (err, files) => {
      if (err) return reject(err);

      for (const file of files) {
        const fullPath = path.join(dirPath, file);
        const stats = fs.statSync(fullPath);

        if (stats.isDirectory()) {
          if (!excludedDirs.includes(file)) {
            await getAllFilesContent(fullPath, fileList);
          }
        } else if (stats.isFile()) {
          try {
            const content = fs.readFileSync(fullPath, "utf8");
            fileList.push({ path: fullPath, content });
          } catch (err) {
            console.error(`读取文件失败: ${fullPath}`);
          }
        }
      }

      resolve(fileList);
    });
  });
}

// 主函数
async function main() {
  const excelPath = "./data.xlsx"; // 替换成你的 Excel 文件路径
  const targetDir1 = ""; // 替换成你要查找的文件夹路径
  const targetDir2 = "";// 替换成你要查找的文件夹路径,可选多个路径

  // 1. 读取 Excel 原始行数据
  const { workbook, sheetName, rows } = readExcelRows(excelPath);
  console.log(`📋 共读取 ${rows.length} 行`);

  // 2. 获取两个目录的所有文件内容
  const files1 = await getAllFilesContent(targetDir1);
  const files2 = await getAllFilesContent(targetDir2);
  const allFiles = [...files1, ...files2];
  console.log(`📄 共读取 ${allFiles.length} 个文件`);

  // 3. 遍历 Excel 每一行,检查第2列关键词是否被文件匹配
  for (let i = 0; i < rows.length; i++) {
    const row = rows[i];
    const keyword = row[1]; // 第二列

    if (typeof keyword === "string") {
      const matched = allFiles.some((file) => file.content.includes(keyword));
      if (!matched) {
        row[4] = "是"; // 第5列写入"是"
      }
    }
  }

  // 4. 写回新的 Excel 文件
  const newSheet = xlsx.utils.aoa_to_sheet(rows);
  const newWorkbook = xlsx.utils.book_new();
  xlsx.utils.book_append_sheet(newWorkbook, newSheet, sheetName);
  xlsx.writeFile(newWorkbook, "./test.xlsx");

  console.log(
    "✅ 处理完成,未匹配的关键词已在第5列标记"是",结果已保存为 keywords_result.xlsx"
  );
}

main();
相关推荐
2501_942818918 小时前
AI 多模态全栈项目实战:Vue3 + Node 打造 TTS+ASR 全家桶!
vue.js·人工智能·node.js
前端流一10 小时前
[疑难杂症] 浏览器集成 browser-use 踩坑记录
前端·node.js
大布布将军12 小时前
⚡后端安全基石:JWT 原理与身份验证实战
前端·javascript·学习·程序人生·安全·node.js·aigc
闲云一鹤13 小时前
【工具篇】使用 nvm 进行 node 版本管理
前端·npm·node.js
小白咚14 小时前
npm在文件下输入运行命令,授权限制问题window
前端·npm·node.js
Dreamcatcher_AC15 小时前
Node.js留言板开发全流程解析
前端·javascript·mysql·node.js·express
『六哥』15 小时前
node.js 安装教程
node.js
程序猿的程1 天前
Stock写给前端的股票行情 SDK: stock-sdk,终于不用再求后端帮忙了
前端·javascript·node.js
疯狂踩坑人1 天前
【Nodejs】Http异步编程从EventEmitter到AsyncIterator和Stream
前端·javascript·node.js
WangHappy1 天前
面试官:如何优化批量图片上传?队列机制+分片处理+断点续传三连击!
前端·node.js