【酱浦菌-爬虫项目】爬取学术堂论文信息

  1. 首先,代码定义了一个名为

```

url

```

的变量,它是一个包含三个网址的集合(或者说是一个集合的字典)。这些网址分别是:

  1. 接下来,设置了一个HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。

  2. 然后,通过`requests.get()`方法,分别发送GET请求到这三个URL,并将响应内容保存在`response`变量中。

  3. 由于网站的编码方式可能不同,这里使用了一些编码转换操作:

  • `response.text.encode('iso-8859-1').decode('gbk')`将响应内容从ISO-8859-1编码转换为GBK编码。
  1. 创建一个`parsel.Selector`对象,用于解析HTML内容。

  2. 从HTML中选择所有满足条件的元素:

  • 使用CSS选择器`'p span[style="font-family: 宋体"]'`,找到所有带有`style`属性值为"font-family: 宋体"的`<span>`元素。

  • 使用XPath表达式`.//text()`,提取这些`<span>`元素内的文本内容。

  1. 遍历每个提取到的文本:
  • 打印文本内容,表示下载成功。

  • 将文本内容追加到名为'pc_biye.text'的文件中(以UTF-8编码保存)。

  1. 最后,完成了对这三个网址的文本下载操作。

完整代码如下:

python 复制代码
import requests
import parsel
import os 
url = {
    'http://www.xueshut.com/lwtimu/127966.html',
    'http://www.xueshut.com/lwtimu/127966_2.html',
    'http://www.xueshut.com/lwtimu/127966_3.html'   
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
for url in url:
    response = requests.get(url=url, headers=headers)
    response_decoded = response.text.encode('iso-8859-1').decode('gbk')
    selector = parsel.Selector(response_decoded)
    text = selector.css('p span[style="font-family: 宋体"]').xpath('.//text()').extract()
    for text in text:
        print(f'{text}下载成功')
        #print("\n")
        with open('pc_biye.text','a',encoding='utf-8') as f:
            f.write(text)

运行效果如下:

相关推荐
小白学大数据9 小时前
面向大规模爬取:Python 全站链接爬虫优化(过滤 + 断点续爬)
开发语言·爬虫·python
程序员威哥1 天前
实战!Python爬京东商品评论:从采集到情感分析+词云可视化,新手30分钟跑通
开发语言·爬虫·python·scrapy
S1998_1997111609•X2 天前
哈希树函数洪水泛滥污染孪生镜像导致生物量子信息泄露以钩子而爬虫植入ssd探测
爬虫·网络协议·缓存·哈希算法·开闭原则
捉鸭子2 天前
QQ音乐sign vmp逆向
爬虫·python·网络安全·网络爬虫
上海云盾王帅2 天前
如何防御爬虫攻击:告别数据被扒,构建智能业务风控体系
爬虫
不会飞的鲨鱼2 天前
观鸟网 RSA加密 AES 解密
javascript·爬虫·python
pengyi8710152 天前
HTTP与HTTPS代理基础区别,协议原理通俗解析
网络·爬虫·网络协议·tcp/ip·智能路由器
科技牛牛2 天前
AI爬虫引爆代理IP产业:一场正在发生的数据粮草争夺战
人工智能·爬虫·tcp/ip·数据安全·ip地址查询
小白学大数据2 天前
JS 混淆加密下的 Python 爬虫解决方案
javascript·爬虫·python