file | 某文件夹【解耦合】下的文件查找功能实现及功能单元测试

文件查找工具

概要

  • 梳理业务主逻辑:
  1. 查看存放被采集JSON数据的文件夹内的文件列表【所有 包含文件夹下的文件夹下的文件】
    这是本节内容聚焦的点
  2. 和MySQL内记录的信息做比对,判断哪些文件是新文件,需要采集的。
  3. 读取JSON文件,执行ETL操作(读取->写入CSV->写入MySQL(目的地库))。
  4. 将被处理的JSON信息,记录到MySQL数据库(元数据库)

思路

读取某个文件中的文件名--------------------set()

读取数据库中已经处理过的文件名称-----set()

做处理 -- 得到未处理过的文件名-----------set()-set()

如何处理?

  • 思路1:集合相减得到的结果是在第一个集合且不在第二个集合中的元素
  • 思路2: for循环

OS模块 --- 学习版

  • 耦合

和固定路径绑定在一起,若是将这部分代码给其他人,他们需要创建对应文件夹才可以使用

python 复制代码
# 学习OS 接口模块
import os

# 输出文件下的子文件  - 不包括子文件下的文件 仅返回子文件夹的名称
files = os.listdir(r'E:\pythonProject\ETL\day04_商品数据采集\04_数据\采集JSON')
print(files)

# 输出文件下的子文件 包括子文件夹呢?
# 递归调用
def read_dir(dir):
    results =[]
    files = os.listdir(dir)
    for file in files:
        # 判断是否是目录
        if os.path.isdir(file):
            results += read_dir(dir+'/'+file)
        else:
            results.append(dir+'/'+file)

    return results
  • 调用

print(read_dir(os.getcwd()))

python 复制代码
['E:\\pythonProject\\pythonetl\\learning/learning_os.py', 'E:\\pythonProject\\pythonetl\\learning/learning_time.py', 'E:\\pythonProject\\pythonetl\\learning/learning_unittest.py', 'E:\\pythonProject\\pythonetl\\learning/learn_logging.py', 'E:\\pythonProject\\pythonetl\\learning/log_t1.py', 'E:\\pythonProject\\pythonetl\\learning/mycode.py']

当前路径E:\pythonProject\pythonetl\learning\learning_os.py,在learning_os.py中执行以下代码

os.getcwd()

python 复制代码
print('getcwd',os.getcwd())

getcwd E:\pythonProject\pythonetl\learning

os.path.dirname(os.getcwd())

python 复制代码
print('dirname',os.path.dirname(os.getcwd()))

dirname E:\pythonProject\pythonetl

os.path.dirname() 和 os.path.basename()

python 复制代码
stra = ['E:\pythonProject\pythonetl']
for i in stra:
    print(os.path.dirname(i))
    print(os.path.basename(i))

E:\pythonProject

pythonetl

OS模块 --- 实战版

  • 在until文件夹下创建filr_until.py文件
python 复制代码
import os

def get_dir_files_list(path="./",recursive=False):
    # 判断文件夹下面,有哪些文件
    # :param path:被判断的文件夹的路径,默认当前路径
    # :param recursive:是否递归读取,默认不递归
    # :return:1ist对象,list里面存储的是文件的路径

    #os.listdir这个API返回的是你给定的path下面有哪些`文件和文件夹`、
    dir_names = os.listdir(path)
    # print('dir_names',dir_names)
    # if not dir_names:
    #     return os.path.basename(path)
    files =[]
    #定义一个list,用来记录文件
    for dir_name in dir_names:
        absolute_path = f"{path}/{dir_name}"
        if not os.path.isdir(absolute_path):
            # print('not a dir')
            #如果进来这个if,表明这个是:文件
            files.append(absolute_path)
        else:
            # print('is a dir')
            #表明是文件夹
            if recursive:
                #如果recursive是True,表明要进到文件夹里面继续找文件
                files += get_dir_files_list(absolute_path,recursive)
    return files

单元测试

  • test文件夹下的test_file_until.py文件
python 复制代码
import os.path
from unittest import TestCase
from util.file_util import get_dir_files_list


class TestFileUtil(TestCase):
    # 确定手动创建的测试目录的绝对路径
    def setUp(self) -> None: # 测试前需要提前执行的代码  例如连接数据库
        self.project_root_path = os.path.dirname(os.getcwd())
        print('解耦合获得路径:',self.project_root_path)
        pass

    def test_myfunc(self): # 要以test开头运行
        # 测试get_dir_files_list 函数
        # 该以哪一个作为我们的测试目录
        # 解耦合  ---
        '''
        请在工程根目录的test文件夹内建立:
        test_dir /
            inner1 /
                iner2 /
                    innner3/
                    5
                3
                4
            1
            2
        的目录结构用于进行此方法的单元测试
        不递归结果应该是1和2
        递归结果应该是1, 2, 3, 4, 5
        '''

        # 测试没有开启递归调用的代码
        result1 = get_dir_files_list(
            path = self.project_root_path + '/' + 'test_dir',
            recursive=False
        )

        predicted_result= ['1', '2']
        # self.assertEqual(results, predicted_result)
        result_1 = []
        for p in predicted_result:
            result_1.append(self.project_root_path + '/' + 'test_dir'+'/'+p)

        # 排除顺序对结果的影响
        result1.sort()
        result_1.sort()
        # 这里断言 函数获得的结果和预期的结果路径是一致的
        self.assertEqual(result1, result_1)


        # 测试开启递归调用的代码  不包括inner3这种情况
        result2 = get_dir_files_list(
            path = self.project_root_path + '/' + 'test_dir',
            recursive=True
        )
        predicted_result = ['1', '2','inner1/3','inner1/4','inner1/inner2/5',]
        # 若是  'inner1/4','inner1/3'  则会出现错误   因此 我们要加上一道保险  调整顺序
        # 使用sort()函数  没有返回值
        result_2 = []
        for p in predicted_result:
            result_2.append(self.project_root_path + '/' + 'test_dir'+'/'+p)

        result2.sort()
        result_2.sort()
        self.assertEqual(result2, result_2)


        # 测试开启递归调用的代码  测试空文件夹  针对 inner3这种情况
        '''
        实际上输出  不应该出现  'E:\\pythonProject\\pythonetl/test_dir/inner1/inner2/inner3'这种情况
        因为我们遍历的是可以用的文件   而非目录     所以想办法排除目录
        '''
        result3 = get_dir_files_list(
            path = self.project_root_path + '/' + 'test_dir',
            recursive=True
        )
        predicted_result = ['1', '2','inner1/3','inner1/4','inner1/inner2/5','inner1/inner2/inner3'] #
        # 若是  'inner1/4','inner1/3'  则会出现错误   因此 我们要加上一道保险  调整顺序
        # 使用sort()函数  没有返回值
        result_3 = []
        for p in predicted_result:
            result_3.append(self.project_root_path + '/' + 'test_dir'+'/'+p)
            #
            if os.path.isdir(result_3[-1]):
                if not os.listdir(result_3[-1]):
                    result_3.pop(-1)

        result3.sort()
        result_3.sort()
        self.assertEqual(result3, result_3)

    def tearDown(self)-> None: # 收尾工作
        pass
解耦合

在软件开发中,解耦合(Decoupling)是指减少或去除系统中各组件之间的相互依赖关系,以提高系统的灵活性和可维护性。

解耦合的目标是创建松散耦合的系统,其中每个组件或模块都可以独立于其他组件进行开发、测试和维护。

例如:

我的一个系统的文件路径是绝对路径, 若是我将该系统给另一个人,他会因为文件夹是否存在的问题而出现报错的风险,因此我们要做解耦合的措施

相关推荐
Dnelic-4 小时前
解决 Android 单元测试 No tests found for given includes:
android·junit·单元测试·问题记录·自学笔记
岳哥i8 小时前
前端项目接入单元测试手册
前端·单元测试
qq_4337169521 小时前
Selenium+Pytest自动化测试框架 ------ 禅道实战
自动化测试·软件测试·selenium·单元测试·pytest·接口测试·压力测试
Dreams°1231 天前
【大数据测试ETL:从0-1实战详细教程】
大数据·数据仓库·python·单元测试·etl
敲代码敲到头发茂密1 天前
怎么做好白盒测试?
java·数据库·mysql·算法·单元测试·模块测试·测试覆盖率
Dreams°1234 天前
【大数据测试HDFS + Flask详细教程与实例】
大数据·功能测试·hdfs·单元测试·flask
CSXB995 天前
三十八、Python(pytest框架-上)
python·功能测试·测试工具·单元测试·pytest
伍肆伍柒6 天前
SpringBoot 2.2.10 无法执行Test单元测试
spring boot·后端·单元测试
互联网杂货铺7 天前
基于Selenium+Python的web自动化测试框架(附框架源码+项目实战)
自动化测试·软件测试·python·selenium·测试工具·单元测试·测试用例
Ling_suu7 天前
Spring——单元测试
java·spring·单元测试