【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词

目录

在本文中,我将介绍如何使用Python编写一个网络爬虫,从百度学术页面提取研究论文的标题、作者、摘要和关键词。我们将使用 requestsBeautifulSoup库来实现这一目标。

安装所需库

首先,确保已安装所需的Python库:

bash 复制代码
pip install requests beautifulsoup4

编写爬虫

以下是一个示例脚本:

python 复制代码
import requests
from bs4 import BeautifulSoup

# 百度学术页面URL
url = "https://xueshu.baidu.com/usercenter/paper/show?paperid=7ea6e4650085a4bf2457468cc815cabe&site=xueshu_se"

# 请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 发送请求
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'

if response.status_code == 200:
    # 解析HTML
    soup = BeautifulSoup(response.text, 'html.parser')

    # 提取标题
    title_tag = soup.find('a', {'data-click': "{'act_block':'main','button_tp':'title'}"})
    title = title_tag.get_text(strip=True) if title_tag else "未找到标题"

    # 提取作者
    author_tag = soup.find('p', {'class': 'author_text'})
    author = author_tag.get_text(strip=True) if author_tag else "未找到作者"

    # 提取摘要
    abstract_tag = soup.find('p', {'class': 'abstract'})
    abstract = abstract_tag.get_text(strip=True) if abstract_tag else "未找到摘要"

    # 提取关键词
    keywords_tag = soup.find('div', {'class': 'kw_wr'})
    if keywords_tag:
        keywords = [keyword.get_text(strip=True) for keyword in keywords_tag.find_all('a')]
        keywords = ', '.join(keywords)
    else:
        keywords = "未找到关键词"

    # 打印提取结果
    print("标题:", title)
    print("作者:", author)
    print("摘要:", abstract)
    print("关键词:", keywords)
else:
    print("无法访问网页")

代码解释

  1. 请求头设置:使用请求头模拟浏览器请求,避免被网站屏蔽。
  2. 解析网页内容 :使用BeautifulSoup解析HTML,提取所需信息。
  3. 处理未找到元素的情况:如果元素未找到,输出相应的提示信息。

运行脚本

将上述代码保存为一个Python文件,例如scraper.py,然后在命令行中运行:

bash 复制代码
python scraper.py

结果


相关推荐
源码之屋3 分钟前
计算机毕业设计:Python天天基金数据采集与智能分析平台 Django框架 数据分析 可视化 爬虫 大数据 大模型(建议收藏)✅
人工智能·爬虫·python·数据分析·django·flask·课程设计
四维迁跃4 分钟前
MySQL触发器处理死锁的防范方法_MySQL高并发触发器优化
jvm·数据库·python
minji...4 分钟前
Linux 网络套接字编程(三)UDP服务器与客户端实现:Windows与Linux通信,新增字典翻译功能的 UDP 通信
linux·服务器·开发语言·网络·windows·算法·udp
weixin_408717777 分钟前
golang如何实现API压测工具_golang API压测工具实现攻略
jvm·数据库·python
人道领域9 分钟前
【Redis实战篇】秒杀系统:一人一单高并发实战(synchronized锁实战与事务失效问题)
java·开发语言·数据库·redis·spring
weixin_4249993611 分钟前
Redis怎样利用Lua脚本批量抓取多类型数据
jvm·数据库·python
微刻时光12 分钟前
影刀RPA:嵌套循环深度解析与实战指南
人工智能·python·机器人·自动化·rpa·影刀rpa
0xDevNull12 分钟前
Spring中统一异常处理详细教程
java·开发语言·后端
2301_8176722612 分钟前
Golang怎么写TODO待办应用_Golang TODO应用教程【深入】
jvm·数据库·python
2301_8176722613 分钟前
PHP源码开发用一体机合适吗_集成硬件局限性说明【操作】
jvm·数据库·python