使用 Ruby 或 Python 在文件中查找

对于经常使用爬虫的我来说,在大多数文本编辑器都会有"在文件中查找"功能,主要是方便快捷的查找自己说需要的内容,那我有咩有可能用Ruby 或 Python实现类似的查找功能?这些功能又能怎么实现?

问题背景

许多流行的文本编辑器都具有"在文件中查找"功能,该功能可以在一个对话框中打开,其中包含以下选项:

  • 查找: 指定要查找的文本。
  • 文件筛选器: 指定要搜索的文件类型。
  • 开始位置: 指定要开始搜索的目录。
  • 报告: 指定要显示的结果类型,例如文件名、文件计数或两者兼有。
  • 方法: 指定要使用的搜索方法,例如正则表达式或纯文本搜索。

有人希望使用 Python 或 Ruby 类来实现类似的功能,以便可以在任何支持 Python 或 Ruby 的平台上从脚本运行此操作。

解决方案

Python

以下代码提供了在指定目录中搜索特定文本的 Python 脚本示例:

python 复制代码
import os
import re

def find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search):
    results = []
    if regex_search:
        p = re.compile(search_text)
    for dir, subdirs, subfiles in os.walk(start_dir):
        for name in fnmatch.filter(subfiles, file_filter):
            fn = os.path.join(dir, name)
            with open(fn, 'r') as f:
                if regex_search:
                    results += [(fn, lineno) for lineno, line in enumerate(f) if p.search(line)]
                else:
                    results += [(fn, lineno) for lineno, line in enumerate(f) if line.find(search_text) >= 0]
    if report_filenames:
        return [fn for fn, _ in results]
    else:
        return results

search_text = '__searchtext__'
file_filter = '*.txt; *.htm'
start_dir = 'c:/docs/2009'
report_filenames = False
regex_search = False

results = find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search)

for result in results:
    print(result)

Ruby

以下代码提供了在指定目录中搜索特定文本的 Ruby 脚本示例:

ruby 复制代码
require 'find'
require 'rexml/document'

def find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search)
  results = []
  if regex_search
    regex = Regexp.new(search_text)
  end
  Find.find(start_dir) do |path|
    if File.file?(path) && file_filter.match(path)
      file = File.open(path, 'r')
      file.each_line do |line|
        if regex_search
          results << path if line =~ regex
        else
          results << path if line.include?(search_text)
        end
      end
      file.close
    end
  end
  if report_filenames
    return results.uniq
  else
    return results
  end
end

search_text = '__searchtext__'
file_filter = '*.txt; *.htm'
start_dir = 'c:/docs/2009'
report_filenames = false
regex_search = false

results = find_in_files(search_text, file_filter, start_dir, report_filenames, regex_search)

results.each do |result|
  puts result
end

上述脚本可以接受以下参数:

  • searchtext:要查找的文本。
  • file_filter:要搜索的文件类型。
  • start_dir:要开始搜索的目录。
  • report_filenames:指定是只报告文件名还是同时报告文件内容。
  • regex_search:指定是否使用正则表达式进行搜索。

脚本将返回一个包含所有匹配文件的文件名列表,或者如果指定了报告文件名选项,则返回一个包含所有匹配文件的文件名和行号的列表。

上面就是两种语实现在文件中查找的具体代码,其实看着也不算太复杂,只要好好的去琢磨,遇到的问题也都轻而易举的解决,如果在使用中有任何问题,可以留言讨论。

相关推荐
ejinxian3 分钟前
PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等数据库
数据库·mysql·mongodb
折哥的程序人生 · 物流技术专研6 小时前
Java面试85题图解版 · 特别篇:2026后端高频面试题复盘(算法底层逻辑+高并发架构设计全解析,附Java实战代码)
java·网络·数据库·算法·面试
AOwhisky6 小时前
Redis 学习笔记(第三期):持久化与主从复制
运维·数据库·redis·笔记·学习·云计算
GoGeekBaird6 小时前
从 Prompt Engineering 到 Loop Engineering,我觉得 AI 开发这事儿终于开始变味了
后端·github
李白的天不白6 小时前
数据库连接报错问题
数据库
xxie1237946 小时前
return与print
开发语言·python
秋96 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
一条泥憨鱼6 小时前
【Redis】数据类型和常用命令
java·数据库·redis·后端·缓存
程序员二叉7 小时前
【Java】 异常高频面试题精讲 | 易错点+对比总结
java·开发语言·面试
爱喝水的鱼丶7 小时前
SAP-ABAP:SAP视图开发入门:四类标准视图的适用场景与创建步骤详解
服务器·数据库·性能优化·sap·abap