爬虫入门学习

流程

  • 获取网页内容
    HTTP请求
    Python Requests
  • 解析网页内容
    HTML网页结构
    Python Beautiful Soup
  • 储存或分析数据

HTTP (Hypertext Transfer Protocol)

客户端和服务器之间的请求-响应协议

Get方法:获得数据

POST方法:创建数据

  • HTTP请求

    请求行 方法类型 资源路径?查询参数 协议版本

    POST /user/info?new_user=true&... HTTP/1.1

    请求头 主机域名 客户端相关信息 想接受的响应数据类型

    Host:www.

    User-Agent:

    Accept: /

    请求体 客户端传给服务器的其他任意数据

  • HTTP响应

    状态行 协议版本 状态码 状态消息

    HTTP/1.1 200 OK

    响应头 告知客户端的信息(响应时间、响应内容类型、编码格式

    响应体 服务器给客户端的数据内容

Python Requests

  • 安装
    pip install requests
python 复制代码
import requests
伪装浏览器请求
headers = { "User-Agent": "Mozilla/5.0(Windows NT 10.9; Win64; x64)"
response = requests.get("网址")
if response.ok:
    获取响应体内容
    print(response.text)
else:
    print("请求失败")

HTML 定义网页的结构和信息

  • 常用标签
c 复制代码
<h1>标题</h1>
<p>文本段落</p>
<br>换行
<b>加粗</b>
<img src="" width="500px">图片
<a href="链接" target="跳转方式_self/_blank">链接名</a>
<div></div> 容器 块级元素 独占一块
<span></span> 容器 内联元素 一行可有多个
<ol>有序列表
    <li></li>
    <li></li>
</ol>
<ul>无序列表
    <li></li>
    <li></li>
</ul>
表格
<table 边框border="1">
    <thead>头部</thead>
    <tbody>主体
        <tr>行
            <td>列</td>
        </tr>
    </tbody>
</table>
class属性 类可以用于所有元素帮助分组
<p class="content"></p>

Beautiful Soup

  • 安装
    pip install bs4
  • 基本用法
python 复制代码
from bs4 import BeautifulSoup
import requests
content = requests.get("").text
# 传入构造函数
soup = BeautifulSoup(content, "html.parser")
# 解析成树状结构的实例对象
all_prices = soup.findAll("p", attars={"class": "price_color"})
# 返回可迭代对象
for price in all_prices:
    print(price.string[2:])

正则表达式库re

根据自定义规则匹配一个或多个字符

多线程库threading

让不同线程同时爬取多个网页

数据分析

待进一步学习

工具 腾讯chatBI

相关推荐
兔C1 小时前
微信小程序的轮播图学习报告
学习·微信小程序·小程序
海海不掉头发1 小时前
苍穹外卖-day05redis 缓存的学习
学习·缓存
黄公子学安全1 小时前
Java的基础概念(一)
java·开发语言·python
程序员一诺1 小时前
【Python使用】嘿马python高级进阶全体系教程第10篇:静态Web服务器-返回固定页面数据,1. 开发自己的静态Web服务器【附代码文档】
后端·python
数据小小爬虫2 小时前
利用Java爬虫获取苏宁易购商品详情
java·开发语言·爬虫
小木_.2 小时前
【Python 图片下载器】一款专门为爬虫制作的图片下载器,多线程下载,速度快,支持续传/图片缩放/图片压缩/图片转换
爬虫·python·学习·分享·批量下载·图片下载器
一棵开花的树,枝芽无限靠近你2 小时前
【PPTist】组件结构设计、主题切换
前端·笔记·学习·编辑器
lovelin+v175030409662 小时前
安全性升级:API接口在零信任架构下的安全防护策略
大数据·数据库·人工智能·爬虫·数据分析
Jiude2 小时前
算法题题解记录——双变量问题的 “枚举右,维护左”
python·算法·面试
唐小旭2 小时前
python3.6搭建pytorch环境
人工智能·pytorch·python