爬虫学习笔记

定制request

传递URL

有params = param_data , 这个就是传入一些,用户密码之类的

定制请求头

无法访问时候,就是页面禁止爬取,此时要定制Headers
获取方法

进入网页-->点鸡network 选项卡-->刷新-->找到Doc-->点鸡name 下方的网址-->

然后复制User-Agent (Hoysst)

先写base_url 然后加入headers 参数是headers = headers ,一样是写成字典的形式

网络超时

为request的 timeout参数设置等待描述,如果服务器在指定时间之内没有应答就返回异常

解析网页

BeautifulSoup 简介

bs用来解析网页,支持CSS 选择器,Python 标准库中的HTML 解析器

复制代码
from bs4 import BeautifulSoup
soup = BeautifulSoup("<html>A Html Text</html>","html.parasr")
两个参数:第一个是文本,第二个是解释器
soup.prettify() 格式化输出

BeautifulSoup 四大对象

BeautifulSoup 将HTML 文档转换成一个复杂的树形结构,每个节点都是一个Pyhton 对象

它们分别是:tag, NavigableString, BeautifulSoup, Comment

Tag:

有两个属性: name 和attrs

复制代码
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>

tag.name
# 'b'

tag['class']
# 'boldest'

tag.attrs
# {'class': 'boldest'}

type(tag.attrs)
# <class 'dict'>

bs 用NavigableString 来包装夹在tag 中间的的字符串。

但是字符串中间不能包含其他的tag

复制代码
soup = BeatutifulSoup('<b class="boldest">Extremely bold</b>')
s = soup.b.string
print(s)        # Extremely bold
print(type(s))  # <class 'bs4.element.NavigableString'>
这个 s 就是一个 NavigableString 对象

BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容。大部分时候,可以把它当作 Tag 对象。但是 BeautifulSoup 对象并不是真正的 HTM L或 XML 的 tag,它没有attribute属性,name 属性是一个值为"[document]"的特殊属性。

Comment

一般表示 文档的注释部分

复制代码
soup = BeautifulSoup("<b><!--This is a comment--></b>")
comment = soup.b.string
print(comment)          # This is a comment
print(type(comment))    # <class 'bs4.element.Comment'>

遍历文档树

搜索文档树

CSS 选择器

相关推荐
星火开发设计8 分钟前
C++ stack 全面解析与实战指南
java·数据结构·c++·学习·rpc··知识
冉冰学姐16 分钟前
SSM校园学习空间预约系统w314l(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·学习·ssm 框架·校园学习空间预约系统·师生双角色
小当家.10535 分钟前
从零构建项目认知:如何画出一张合格的系统架构图(以供应链系统为例)
java·spring boot·学习·架构·系统架构·供应链·实习
博览鸿蒙1 小时前
FPGA 开发软件学习笔记分享(内含安装与环境配置)
笔记·学习·fpga开发
反向跟单策略1 小时前
期货反向跟单-贵金属牛市中的反向跟单密码
大数据·人工智能·学习·数据分析·区块链
kingmax542120081 小时前
NOAI和IOAI竞赛学习路径
人工智能·学习·青少年编程
程序员agions2 小时前
Node.js 爬虫实战指南(三):分布式爬虫架构,让你的爬虫飞起来
分布式·爬虫·node.js
日更嵌入式的打工仔2 小时前
SxsTrace.exe使用笔记
笔记
其美杰布-富贵-李2 小时前
pycalphad 学习笔记
笔记·学习·热力学计算
宵时待雨2 小时前
数据结构(初阶)笔记归纳2:顺序表的实现
c语言·数据结构·笔记·算法