Python requests有问题

1问题1

今天使用脚本爬取某网站的接口，发现使用nodejs、postman和chrome可以正确获取数据，使用Python requests却返回405，没办法，只能使用nodejs和popen，通过nodejs的https模块获取接口数据以后，使用popen返回给python进程.

2问题2

没有过多久就发现那个网站的接口有反爬机制，短时间频繁调用直接会把ip给封了，无论是Python requests、nodejs的https模块、chrome浏览器、postman全都不行，再调用就是403的错误页面，通过切换多个wifi和手机热点证实了这一点。于是找到了一家提供隧道代理IP的云计算平台，购买了隧道代理IP服务，在这个平台上下载了python语言的示例代码，更换了我的账号和密钥，以及隧道地址和端口以后，发现不行，示例代码里就是用的Python requests。起初我还以为是我用的不对，结果按照平台上测试代理可用性的方法，使用Proxifier访问没问题，就是Python requests有问题，于是联系了平台人工客服，结果人工客服告诉我使用chrome浏览器和curl命令测试是可以正常访问的。于是我在本地试了一下curl，确实可以，但是不知道为什么Python requests不行，连人工客服都不知道。没有办法了，只能使用popen了。

3问题3

Python requests却返回405的原因

使用nodejs https，发送的请求的头部是：

复制代码

GET /qjwzwb/stuchooseexam/showPositionInfo.htm?zwdm=3B72E1E17B84508D7FFAFE00295262636CE478D1E3703C19&examid=5083fd4b2a75e4d1 HTTP/1.1
Host: aaa.bbb.cn
Connection: close

响应头部：

复制代码

 {
  date: 'Wed, 08 Nov 2023 03:27:30 GMT',
  'content-type': 'text/html;charset=UTF-8',
  'content-length': '7833',
  connection: 'close',
  'set-cookie': [
    'JSESSIONID=31468102EC0D977F69F330CB4FCAE2C9; Path=/qjwzwb; HttpOnly',
    'SERVERID=c6cf1a7149f02bca0f6c4700b9f1a7ec|1699414050|1699414050;Path=/'
  ],
  'content-language': 'en-US',
  vary: 'accept-encoding'
}

使用Python requests发送的请求的头部是：

复制代码

{
    'User-Agent': 'python-requests/2.23.0', 
    'Accept-Encoding': 'gzip, deflate', 
    'Accept': '*/*', 
    'Connection': 'keep-alive'
}

响应头部是：

复制代码

{
    'Date': 'Wed, 08 Nov 2023 02:29:44 GMT', 
    'Content-Type': 'text/html', 
    'Content-Length': '64367', 
    'Connection': 'keep-alive', 
    'ETag': '"61966732-fb3c"'
}

将Python requests的头部设置为：

复制代码

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
}

响应的状态码就是200了

4问题4

Python requests使用代理还是405的原因

经过验证，将Python requests的头部设置为：

复制代码

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
}

响应的状态码就是200了