爬虫(bilibili热门课程记录)

什么是爬虫?程序蜘蛛,沿着互联网获取相关信息,收集目标信息。

一、python环境安装

1、先从Download Python | Python.org中下载最新版本的python解释器

2、再从Download PyCharm: Python IDE for Professional Developers by JetBrains中下载community版本的pycharm(免费且够用)

pycharm安装中文插件(安装后重启pycharm即可)

3、如果向博主一样需要直接打开文件运行,可能需要添加一下解释器

二 爬虫的流程

1、获取网页内容(浏览器会将内容渲染成更直观的页面,而程序获得的网页是一串代码)

http请求(python request实现)

2、解析网页内容(在全面的内容中把想要的数据提取出来)

html格式 (python Beautiful Soup库)

3、储存或分析数据

注意事项

1、请求数量和频率不要太高(无异于DDoS攻击)

2、有反爬限制(例如验证码)就不要强行突破

三、什么事HTTP请求和响应

HTTP(Hypertext Transfer Protocol超文本传输协议)

HTTP请求

GET方法:获得数据

POST方法:创建数据

七、什么是HTML网页结构

网页三大要素:

(1)HTML定义网页的结构和信息(爬虫最需要关心的)

(2)CSS 定义网页的样式 //网站背景 样式

(3)JavaScript 定义用户和网页的交互逻辑

html 复制代码
<!DOCTYPE HTML>
<html>
    <body>
        <h1>这是一个标题</h1>
        <p>这是一段文字这是一段文字这是一段文字<p>
    </body>
<!html>

显示网页源代码

mac用户 先在safari高级选项中设置,然后在开发中打开

七、HTML常见标签

7.1 标题 数字越小,字号越大

html 复制代码
<h1> 这是一个一级标题 </h1>
<h2> 这是一个二级标题 </h2>
<h3> 这是一个三级标题 </h3>
<h4> 这是一个四级标题 </h4>
<h5> 这是一个五级标题 </h5>
<h6> 这是一个六级标题 </h6>

7.2 文本段落

html 复制代码
<p>给岁月<br>以文明</p>
<p>而不是给文明以岁月</p>
<br>   //是强制换行
<b> </b> //加粗
<i> </i> //斜体
<u> </u> //下划线
<img src="链接" width="500px"> //图片
<a href="https://...">我的主页</a> //超链接

7.3 容器

7.4 有序列表ordered list/无序列表unordered list

html 复制代码
<ol> //有序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ol>

<ul> //无序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ul>

7.5 表格行

7.6 class属性

相关推荐
Blurpath住宅代理25 分钟前
动态代理的五大优点:提升爬虫效率与安全性
网络·爬虫·动态ip·住宅ip·住宅代理
有代理ip1 小时前
Python 与 Golang 爬虫的隐藏优势
爬虫·python·golang
深蓝电商API2 小时前
常见反爬机制分类及对应破解思路
爬虫·python
泡泡以安2 小时前
Scrapy分布式爬虫调度器架构设计说明
分布式·爬虫·scrapy·调度器
数研小生3 小时前
用爬虫数据训练 ChatGPT 行业知识库:从数据采集到模型微调的实战指南
人工智能·爬虫·chatgpt
B站计算机毕业设计超人4 小时前
计算机毕业设计Python+Spark+Hadoop+Hive微博舆情分析 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·python·spark·cnn·课程设计
喵手5 小时前
Python爬虫实战:构建“下载-去重-入库”的图片采集流水线(附SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·sqlite持久化存储·采集图片·采集图片存储入库
Blurpath住宅代理5 小时前
如何在Python爬虫中使用代理IP?从配置到轮换的完整指南
网络·爬虫·python·住宅ip·住宅代理·动态住宅代理
NOVAnet20235 小时前
南凌科技「Bot防护」:让恶意爬虫、刷票薅羊毛等自动化攻击无处遁形
爬虫·科技·网络安全·自动化·南凌科技
数研小生5 小时前
爬虫 + 机器学习:电商评论情感分类实战指南
爬虫·机器学习·分类