爬虫:网络请求(通信)步骤,http和https协议

电脑(浏览器):www.baidu.com------url

DNS服务器:IP地址标注服务器------1.1.38

DNS服务器返回IP地址给浏览器

浏览器拿到IP地址去访问服务器,返回响应

服务器返回给响应数据:html/css/js/jpg...

html:文本 css:样式,控制文字大小,颜色

js:行为 jpg:图片

实际原理:一个网络请求只能对应一个数据包(文件)

之后抓包可能会有很多个数据包,共同组成了这个页面

复制代码
import requests
from bs4 import BeautifulSoup

# 1. 明确目标URL
url = 'https://www.baidu.com'#以百度为例

try:
    # 2. 建立网络连接并发起GET请求
    response = requests.get(url)

    # 3. 检查响应状态码
    if response.status_code == 200:
        # 4. 获取响应内容
        html_content = response.text

        # 5. 解析响应内容
        soup = BeautifulSoup(html_content, 'html.parser')

        # 提取网页标题
        title = soup.title.string
        print(f'网页标题: {title}')

    else:
        print(f'请求失败,状态码: {response.status_code}')

except requests.RequestException as e:
    print(f'请求发生错误: {e}')

确定目标 URL,发起GET请求,对响应状态码进行检查,解析响应内容并提取出网页标题,并处理可能出现的请求异常。

http和https协议:

http协议:规定了服务器和客户端互相通信的规则;超文本(不仅仅限于文本,还包括图片,音频,视频)传输协议(使用共用约定的固定格式来传递转换成字符串的超文本内容),默认端口号是80

https协议:http+ ssl/tls(安全套接字层) 默认端口号是443

ssl对传输的内容进行加密

https比http更安全,但是性能更低

http相应/请求的步骤:

1.客户端连接到web服务器

2.发送http请求

3.服务器接受请求返回响应

4.释放连接tcp连接

5.客户端解析html内存

复制代码
import requests

# 发送HTTP请求
http_url = 'http://baidu.com'
http_response = requests.get(http_url)
print(f"HTTP响应状态码: {http_response.status_code}")

# 发送HTTPS请求
https_url = 'https://www.google.com'
https_response = requests.get(https_url)
print(f"HTTPS响应状态码: {https_response.status_code}")
相关推荐
weixin_5118404717 分钟前
2026年5月4日 OCS技术方案路线选择与优劣深度调研报告
网络·人工智能
绝知此事18 分钟前
Netty实战:从零构建高性能TCP通信服务(含心跳检测)
java·网络·spring boot·网络协议·tcp/ip
小初生ZLD1 小时前
AI开发者的网络卡点:Anthropic连接超时实战避坑
网络
Bobolink_1 小时前
跨境网络中“高延迟”问题的技术成因与解决路径
网络·网络优化·跨境网络
呉師傅2 小时前
UPS滴滴告警!如何测量UPS电池内阻【UPS学习】
运维·服务器·网络·学习·电脑
@insist1232 小时前
信息安全工程师-工控安全产品体系与行业实践全解析
网络·安全·软考·信息安全工程师·软件水平考试
段一凡-华北理工大学2 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章03:高炉工业数据治理标准化与全生命周期血缘体系
网络·人工智能·高炉炼铁·工业智能体·炉温监测·高炉智能化
tedcloud1233 小时前
wifi-densepose部署教程:构建无线人体感知系统
服务器·javascript·网络·typescript·ocr
weixin199701080163 小时前
[特殊字符] 人工抓取数据革命:从“人肉爬虫”到“智能数据工厂”全面转型指南
开发语言·爬虫·python
星融元asterfusion4 小时前
INT 技术实现流量路径预览:RoCE网络监控小工具的深度解析
网络