使用 Python 爬取研究生官网最新公告通知并推送微信消息

效果

原理很简单,我只需要使用BeautifulSoup库每隔一段时间爬取一下官网网页的内容,然后把通知有关的信息存入一个数据库判断是不是新的通知就可以。如果是新的通知就使用虾推啥推送微信消息。效果如下:

为了代码一直运行,所以我将它直接扔到服务器。让它一直跑着就行了。

代码

这里需要用到虾推啥,一行代码推送手机通知。
虾推啥官网教程链接

整体代码都比较简单易懂,小白也可以使用。
Python代码:

python 复制代码
import pymysql
import requests
from bs4 import BeautifulSoup
import time
# 数据库信息自己填写
db_config = {
    'host': '***',
    'user': '**',
    'passwd': '***',
    'port': 3306,
    'db': '***',
    'charset': 'utf8'
}
db = pymysql.connect(**db_config)


def get_html(url):
    r = requests.get(url)
    r.encoding = "utf-8"
    if r.status_code != 200:
        raise Exception()
    return r.text


def parse_html(html_doc, element, class_name):
    soup = BeautifulSoup(html_doc, "html.parser")
    dev_nodes = soup.find_all(element, class_=class_name)
    return dev_nodes


def insert_into_db(title, url, date):
    cursor = db.cursor()
    sql = "SELECT * FROM notice WHERE title = %s"
    cursor.execute(sql, (title,))
    if not cursor.fetchone():
        sql = "INSERT INTO notice(title, content, date) VALUES (%s, %s, %s)"
        try:
            cursor.execute(sql, (title, url, date))
            db.commit()
        except:
            db.rollback()
            print("插入失败")


def is_new(title):
    cursor = db.cursor()
    sql = "SELECT * FROM notice WHERE title = %s"
    cursor.execute(sql, (title,))
    if not cursor.fetchone():
        return True
    return False


def send_message(title, url, date, stitute):
    mydata = {
        'text': stitute,
        'desp': '内容:' + title + '<br>' \
                                  '网址:' + '<a href="' + url + '">' + url + '</a>' + '<br>' \
                                                                                      '日期:' + date
    }
    requests.post('https://wx.xtuis.cn/您的token.send', data=mydata)
    # 注意这里要换成你自己的token

def CIE():
    url = "https://*****" # 这里要根据自己学校的官网填写,并且网页布局也不一样,获取元素逻辑不一样
    bs_url = "https://****"
    html_doc = get_html(url)
    dev_nodes = parse_html(html_doc, "li", "first")
    title = dev_nodes[0].find("a").get_text().strip()
    date = dev_nodes[0].find("span").get_text()
    to_url = bs_url + dev_nodes[0].find("a")["href"]
    # 上面几行都是获取页面元素的逻辑,要根据实际情况修改。
    if is_new(title):
        print("信息工程学院官网有新公告!")
        insert_into_db(title, to_url, date)
        send_message(title, to_url, date, "信息工程学院官网有新公告!")
    else:
        print("无新公告!")


def GraduateSchool():
    url = "https://****" # 同上
    bs_url = "https://***"
    html_doc = get_html(url)
    dev_nodes = parse_html(html_doc, "a", "tit")
    title = dev_nodes[0].get_text()
    content = bs_url + dev_nodes[0]['href']
    date = parse_html(html_doc, 'li', "first")[0].get_text()
    if is_new(title):
        print("研究生学院官网有新公告!!")
        insert_into_db(title, content, date)
        send_message(title, content, date, "研究生学院官网有新公告!")
    else:
        print("无新公告!")


while True:
    CIE()
    GraduateSchool()
    print("目前时间:", time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
    time.sleep(60 * 5)

注意根据自己的实际情况修改代码中自己的参数。

相关推荐
databook8 小时前
Manim实现闪光轨迹特效
后端·python·动效
Juchecar9 小时前
解惑:NumPy 中 ndarray.ndim 到底是什么?
python
用户8356290780519 小时前
Python 删除 Excel 工作表中的空白行列
后端·python
Json_9 小时前
使用python-fastApi框架开发一个学校宿舍管理系统-前后端分离项目
后端·python·fastapi
数据智能老司机16 小时前
精通 Python 设计模式——分布式系统模式
python·设计模式·架构
数据智能老司机17 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机17 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机17 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i17 小时前
drf初步梳理
python·django
每日AI新事件17 小时前
python的异步函数
python