初识爬虫4

1.理解代理ip,正向代理和反向代理

2.代理ip分类,根据匿名度分类:透明,匿名,高匿

3.防止频繁向同一个域名发送请求被封ip,需使用代理ip

python 复制代码
# -*- coding: utf-8 -*-
import requests

url = 'https://www.baidu.com'

proxies = {
    'http': 'http://47.122.65.254:8080',
    # 'https': 'https://47.122.65.254:8080'
}
response = requests.get(url, proxies=proxies)
print(response.content)

4.CA证书

python 复制代码
# -*- coding: utf-8 -*-
import requests

url = 'https://www.baidu.com'
response = requests.get(url, verify=False)
print(response.content)

5.简易爬虫,实现金山翻译的爬取

python 复制代码
import requests

# 获取翻译包的url,需要去掉多余的保护壳:
# https://ifanyi.iciba.com/index.php?c=trans&m=fy&client=6&auth_user=key_web_new_fanyi&sign=9X%2BHAviAKqteMMuVvr%2B0X9RriqVIAJSQ%2BxmfU0q7dIE%3D
url = 'https://ifanyi.iciba.com/index.php?c=trans'
# 构建请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36',
    'Referer': 'https://www.iciba.com/',
    'Host': 'ifanyi.iciba.com'
}
while True:
    # 实现用户输入的功能
    content = input('请输入您想翻译的内容(输入"exit"结束程序):')
    # 检查是否需要退出
    if content.lower() == 'exit':
        break

    # 构建参数字典
    post_data = {
        'from': 'auto',
        'to': 'auto',
        'q': content,
    }
    # 发送请求
    res = requests.post(url, headers=headers, data=post_data)
    res_1 = res.content.decode()
    # 输出翻译结果
    print(eval(res_1)['out'])
相关推荐
祁白_3 小时前
[0xV01D]_Night Traffic_writeUp
网络·安全·ctf·writeup
xingyuzhisuan3 小时前
网络 Token 常见故障原理,基础排查科普
运维·服务器·网络·php
学习3人组5 小时前
企业交换机OSPF路由协议配置与防护
网络
青风976 小时前
SDDGR:基于稳定扩散的深度生成重放,用于类增量对象检测(CVPR 2024)
网络·人工智能·深度学习·神经网络·计算机视觉
byte轻骑兵8 小时前
【HID】规范精讲[20]: 蓝牙HID低功耗黑科技——Sniff Subrating如何让设备续航翻倍?
网络·科技·人机交互·hid·蓝牙键盘
liana87448 小时前
私有化视频会议:把会议室“搬”进自己的网络
网络
Cat_Rocky9 小时前
Linux-ansible之Playbook简单应用
linux·网络·ansible
汤愈韬9 小时前
IPSec工作原理——TK
网络·网络协议·网络安全·security
ElevenS_it1889 小时前
连锁门店IT运维监控实战:200+门店网络设备+POS统一纳管+按区域分组告警路由完整配置(Zabbix Proxy架构)
运维·网络·架构·zabbix
白狐_7989 小时前
【踩坑实录】VMware中OpenKylin虚拟机网络失联的深度分析与排查全过程
网络·麒麟