python爬虫(一) ---- 静态html数据抓取

python爬虫 ---- 静态html数据抓取

一、环境准备

  • 练习地址: https://ssr1.scrape.center/page/1

  • requests:发出请求

  • BeautifulSoup:解析html

  • pandas:保存数据到 csv文件

  • 依赖安装命令:

    powershell 复制代码
    pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple
    pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple
    pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 永久指定镜像源配置见文章: python镜像源配置

二、爬取思路

  • 分析网站的html结构
  • 发出请求获取html
  • 解析html获取想要的内容
  • 存储解析后的数据

三、代码

python 复制代码
import requests
from bs4 import BeautifulSoup
import pandas as pd


def request(url):
    r = requests.get(url);
    return r.text;


def parse(html):
    movie_list = [];
    soup = BeautifulSoup(html, 'lxml')
    for div in soup.find_all(name='div', attrs={'class': 'is-hover-shadow'}):
        movie_info = {};
        # 电影名
        h2 = div.find(name='h2', attrs={'class': 'm-b-sm'})
        movie_info['name'] = h2.text;

        # 电影类型
        category_list = [];
        for button in div.find_all(name='button'):
            category = button.find(name='span').text
            category_list.append(category);
        movie_info['categories'] = ",".join(category_list);

        # 地域, 时长, 上映时间
        info_list = [];
        for infoTag in div.find_all(attrs={'class': 'm-v-sm info'}):
            for spanTag in infoTag.find_all(name='span'):
                info_list.append(spanTag.text);
        movie_info['location'] = info_list[0];
        movie_info['duration'] = info_list[2];
        if len(info_list) == 4:
            movie_info['release_date'] = info_list[3][0:10];
        else:
            movie_info['release_date'] = '';

        # 评分
        score_tag = div.find(name='p', attrs={'class': 'score'});
        movie_info['score'] = score_tag.text.strip();

        movie_list.append(movie_info);
    return movie_list;


def save(data):
    df = pd.DataFrame(data);
    # 设置表头
    df.columns = ['电影名', '类型', '地域', '时长', '上映时间', '评分'];
    df.to_csv("data.csv", index=False, encoding='utf-8-sig');


if __name__ == '__main__':
    # 发出请求
    html = request('https://ssr1.scrape.center/page/1')
    print('获取html成功..')

    # 解析html
    movie_list = parse(html);
    print('解析html成功..')

    # 存储数据
    save(movie_list)
    print('写入文件成功...')

四、结果展示

相关推荐
闵孚龙19 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
chushiyunen20 小时前
langchain4j笔记、tools
笔记·python·flask
程序员三藏21 小时前
Web自动化测试详解
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
在放️21 小时前
Python 爬虫 · 第三方代理接入与合规使用
开发语言·爬虫·python
财经资讯数据_灵砚智能1 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
隔窗听雨眠1 天前
大模型加爬虫中篇:工程实践与应用场景
爬虫
赵大大宝1 天前
反爬虫从入门到精通:构建坚不可摧的数据防线
爬虫
JOJO数据科学1 天前
JupyterLab Electron 鸿蒙 PC 适配全记录:从 Python 原生崩溃到 node-static 本地工作台
python·electron·harmonyos
xufengzhu1 天前
第三方 Python 库 redis-py + hiredis 的使用
开发语言·redis·python
深蓝电商API1 天前
Selenium 5.0 全新架构解析:值得升级吗?
爬虫·selenium