通过Python爬取公告内容

在网络时代,信息获取变得更加便捷。通过网络爬虫技术,我们可以从互联网上快速获取各种信息。本文将介绍如何使用 Python 爬虫工具从指定网站上获取公告内容,并提取其中的关键信息。

1. 简介

在本文中,我们将使用 Python 的 requests 库和 BeautifulSoup 库来实现网页内容的获取和解析。具体来说,我们将从一个示例网站中获取公告内容,并提取标题、报名方式、报名截止日期、报名状态以及发布时间等信息。

2. 准备工作

在开始之前,确保你已经安装了 Python 和相应的库。可以使用以下命令安装所需库:

python 复制代码
pip install requests beautifulsoup4

3. 代码实现

下面是我们的 Python 代码实现:

python 复制代码
import requests
from bs4 import BeautifulSoup

# 发送请求获取页面内容
url = 'https://bp.cfldcn.com/article!list.do?categoryCode=zbgg&request_time=1716616589463'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'  # 如果页面内容不是utf-8编码,需要根据实际情况修改

# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 获取所有<tr>元素
    trs = soup.find_all('tr')

    # 遍历每个<tr>元素
    for tr in trs:
        # 获取<tr>元素下的所有<td>元素
        tds = tr.find_all('td')

        # 遍历每个<td>元素,并获取其内容
        for td in tds:
            content = td.get_text()
            print(content)

    # 提取标题
    title = soup.find('title').text if soup.find('title') else '标题未找到'

    # 假设报名方式、报名截止日期、报名状态、发布时间在特定的标签中
    # 这里的示例假设这些信息在一个特定的div或其他标签中
    # 你需要根据实际的HTML结构调整选择器
    registration_method = soup.select_one('.submit_online').text if soup.select_one('.submit_online') else '报名方式未找到'
    registration_deadline = soup.select_one('.registration-deadline').text if soup.select_one('.registration-deadline') else '报名截止日期未找到'
    registration_status = soup.select_one('.submit_ing').text if soup.select_one('.submit_ing') else '报名状态未找到'
    publication_date = soup.select_one('.submit_ing').text if soup.select_one('.submit_ing') else '发布时间未找到'

    # 打印提取的信息
    print('标题:', title)
    print('报名方式:', registration_method)
    print('报名截止日期:', registration_deadline)
    print('报名状态:', registration_status)
    print('发布时间:', publication_date)
else:
    print('无法访问页面,状态码:', response.status_code)

4. 结果解析

在代码中,我们首先发送 HTTP 请求获取网页内容,然后使用 BeautifulSoup 解析页面内容。接着,我们通过选择器提取所需信息,并将其打印输出。

5. 总结

通过本文的介绍,我们学习了如何使用 Python 爬虫工具从指定网站上获取公告内容,并提取其中的关键信息。这种技术在实际工作中具有广泛的应用,可以帮助我们快速获取所需的信息,提高工作效率。

希望本文能对你有所帮助,谢谢阅读!

相关推荐
被摘下的星星7 分钟前
Java的类加载
java·开发语言
skilllite作者10 分钟前
SkillLite 多入口架构实战:CLI / Python SDK / MCP / Desktop / Swarm 一页理清
开发语言·人工智能·python·安全·架构·rust·agentskills
秋月的私语16 分钟前
遥感影像拼接线优化工具:基于Qt+GDAL+OpenCV的从零到一实践
开发语言·qt·opencv
xwz小王子24 分钟前
智元发布 GO-2:动作空间推理 + 全生命周期闭环,让机器人稳定可靠落地
开发语言·golang·机器人
charlie11451419124 分钟前
通用GUI编程技术——图形渲染实战(二十八)——图像格式与编解码:PNG/JPEG全掌握
开发语言·c++·windows·学习·图形渲染·win32
ZC跨境爬虫25 分钟前
批量爬取小说章节并优化排版(附完整可运行脚本)
前端·爬虫·python·自动化
ths51227 分钟前
Python 正则表达式实战指南:从入门到精通(12 个高频案例)(三)
python·正则表达式
ZC跨境爬虫27 分钟前
海南大学交友平台登录页开发实战day4(解决python传输并读取登录信息的问题)
开发语言·前端·python·flask·html
Wyawsl28 分钟前
Python操作MySQL数据库
数据库·python·mysql
wjs202430 分钟前
SQL LEN() 函数详解
开发语言