【Python体验】第五天:目录搜索、数据爬虫(评论区里写作业)

文章目录

目录搜索 os、shutil库

os 模块提供了非常丰富的方法用来处理文件和目录。

os.listdir(path):返回path指定的文件夹包含的文件或文件夹的名字的列表。

os.path 模块:获取文件的属性信息。

os.path.join(path1[, path2[, ...]]):把目录和文件名合成一个路径

os.path.isdir(path) :判断路径是否为目录

os.path.isfile(path):判断路径是否为文件

shutil.move(file,target):移动文件

python 复制代码
# 深度优先搜索文件 (目录搜索)

import os # 导入os模块
import shutil # 实现移动文件的功能需要

# path代表待搜索的目录路径,result存储搜索到的文件路径列表
def dfs(path, result):
    child_files = os.listdir(path)
    for child in child_files:
        # 使用join拼接子目录或文件的路径
        child = os.path.join(path, child)
        # 将child保存到result
        result.append(child)
        if os.path.isdir(child):
            dfs(child, result)

files = []
dfs('.', files)

# 遍历files
for file in files:
    print("find %s" %file) #打印搜索到的路径
    if(os.path.isfile(file) and file.endswith('.xlsx')):
        # 移动当前目录下的excel文件到excel目录下
        shutil.move(file, '.\excel')

移动前:

移动后:

数据爬虫 request、re

网页数据爬虫实现了互联网网页自动化下载与自动化解析。通过爬虫,可以下载和分析网页。

python 复制代码
# 网络爬虫

# spider.py:网页下载、链接提取、数据存储
# 查看豆瓣网top250(25页,每页25条)的电影简介地址,换行存入到txt中

import requests
import re

url = "https://movie.douban.com/top250?start="
pageSize = 25
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
# 正则匹配
briefUrl = "https://movie.douban.com/subject/[0-9]+/"
txt = open("douban.txt", "a", encoding="utf-8")

# 爬取10页
for page in range(0, 10):
    resp = requests.get(url + str(page * pageSize), headers=headers)
    resp.encoding = "utf-8"
    # print(resp.text)

    # 通过findall从网页中提取符合briefUrl正则规则的网址
    links = re.findall(briefUrl, resp.text)
    # 去重
    arr = set(links)
    # print(links)
    for l in arr:
        # print(l)
        txt.write(l + "\n")
txt.close()

作业:爬取案例的top250电影的关键信息(名称、类型、日期),并保存在表格中

相关推荐
forEverPlume1 分钟前
mysql如何实现高可用集群架构_基于MHA环境搭建与部署
jvm·数据库·python
嵌入式小企鹅1 小时前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
方安乐5 小时前
python之向量、向量和、向量点积
开发语言·python·numpy
三品吉他手会点灯6 小时前
C语言学习笔记 - 20.C编程预备计算机专业知识 - 变量为什么必须的初始化【重点】
c语言·笔记·学习
zh1570236 小时前
JavaScript中WorkerThreads解决服务端计算瓶颈
jvm·数据库·python
sakiko_6 小时前
UIKit学习笔记1-创建项目(使用UIKit)、使用组件
笔记·学习
生信碱移7 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
蜡台7 小时前
Python包管理工具pip完全指南-----2
linux·windows·python
Mr.朱鹏7 小时前
【Python 进阶 | 第四篇】Psycopg3 + Flask 实现 PostgreSQL CRUD 全流程:从连接池到RESTful接口
python·postgresql·flask·virtualenv·fastapi·pip·tornado
2401_871492858 小时前
Vue.js监听器watch利用回调函数处理级联下拉框数据联动
jvm·数据库·python