初级爬虫的总结一

初级爬虫的总结一之百度网页爬虫

我遇到的问题:

1、没有找对网页sugrec,导致connect-type没有找对,以及一些小问题

2、url拼接时候出现乱码


一、寻找正确的sugrec

1、打开百度网址,看看进行搜索时候,该网页标签是否在进行变化

2、右键点开查找

3、点击网络,再点击下面的fetch/XHR

4、点击百度一下,请注意出现的这个sugrec,之后会用到的

5、输入你要查找的词汇,在网址栏中喜欢后面的删除,回车一下,将会得到,我们需要的sugrec

6、得到要用的sugrec

二、url拼接出问题,解决办法

当 response = requests.get(url=url,params=param,headers=headers) 中无法出现正确的地址时

采用:

复制代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
rom urllib.parse import urljoin, quote, urlencode

if __name__ =="__main__":
    headers={
        "User-Agent":"填你自己的"
    }
    base_url = "https://www.baidu.com/"
    # 拼接URL
    url = urljoin(base_url, 's?wd=')
   #检查URL是否拼接正确
    print(url)
    # 动态查询
    kw = input('enter a word:')
    url=url+kw
    # response = requests.get(url=url,params=param,headers=headers)
    response = requests.get(url=url, headers=headers)
    #print(response.status_code) #检查response是否查询成功 200(成果)
    page_text = response.text
    filename =kw+'.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(filename,'over!')

一点点的拓展关于json:

不知道json代码哪里出问题了,可以采用以下的代码:

复制代码
    try:
        dic_obj = response.json()
        except json.JSONDecodeError:
        print('JSON解析错误,响应内容可能不是有效的JSON格式')
       except requests.exceptions.RequestException as e:
        print(f'请求发生错误:{e}')
    else:
        print(dic_obj)
        fileName=kw+'.json'
        fp = open('fileName','w',encoding='utf-8')
        json.dump(dic_obj,fp=fp,ensure_ascii=False)
        print('over!')
相关推荐
喵手5 分钟前
Python爬虫实战:构建企业级的招投标信息监控工具,多页动态数据抓取,实现去重增量更新(附SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·sqlite持久化存储·采集招投标信息·多页动态数据抓取
数研小生17 分钟前
淘宝宝贝详情数据爬虫:单线程采集突破方案(多线程 / 多进程实战)
linux·运维·爬虫
喵手1 小时前
Python爬虫实战:采集行业协会、研究机构等平台的政策文件列表与PDF链接批量收集系统,支持自动下载、分类归档和数据库管理(SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·sqlite持久化存储·采集行业协会、研究机构政策文件·pdf链接采集
喵手2 小时前
Python爬虫实战:携程景点数据采集实战:从多页列表到结构化数据集(附SQLite持久化存储)!
爬虫·python·爬虫实战·python爬虫工程化实战·零基础python爬虫教学·携程景点数据采集·sqlite存储采集数据
青果全球http3 小时前
多线程爬虫使用代理IP指南
爬虫·网络协议·tcp/ip
喵手3 小时前
Python爬虫实战:使用高德地图开放平台API获取餐饮POI数据(店名、坐标、评分)数据采集与地理可视化(附CSV导出 + SQLite持久化存储)!
爬虫·python·sqlite·爬虫实战·零基础python爬虫教学·高德地图开放api·获取餐饮poi数据
datascome3 小时前
文章自动采集发布Zblog网站技巧
爬虫·数据采集·zblog·网站运营·网页数据抓取
喵手3 小时前
Python爬虫实战:城市公交数据采集实战:从多线路分页到结构化站点序列(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·城市交通数据采集·多线路分页导出csv·sqlite持久化存储
0思必得013 小时前
[Web自动化] 反爬虫
前端·爬虫·python·selenium·自动化
喵手13 小时前
Python爬虫实战:从零搭建字体库爬虫 - requests+lxml 实战采集字体网字体信息数据(附 CSV 导出)!
爬虫·python·爬虫实战·零基础python爬虫教学·csv导出·采集字体库数据·字体库字体信息采集