python爬虫实战(1)--爬取新闻数据

想要每天看到新闻数据又不想占用太多时间去整理,萌生自己抓取新闻网站的想法。

1. 准备工作

使用python语言可以快速实现,调用BeautifulSoup包里面的方法

安装BeautifulSoup

复制代码
pip install BeautifulSoup

完成以后引入项目

2. 开发

定义请求头,方便把请求包装成正常的用户请求,防止被拒绝

复制代码
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"
}

定义被抓取的url,并请求加上请求头

复制代码
    response = requests.get(url=url, headers=headers)

BeautifulSoup解析

复制代码
    soup = BeautifulSoup(response.text, "html.parser")

分析网站需要提取数据的标签!在这里插入图片描述(https://img-blog.csdnimg.cn/b687fdc39a0d4f1999a5492b70fda4a5.png![在这里插入图片描述](https://file.jishuzhan.net/article/1689653626621923329/6ac7c0e8b79343e0a39bcdeb7a7d0b42.png)

因为获取的对象是li标签的第一个,即

复制代码
        divs = soup.find(class_="js-item item")

这样默认就是第一个,如果需要获取全部,则需要find_all,遍历集合

防止获取到的新闻是当天的做一个日期判断

复制代码
        a = first_div.find(class_="title")
        if a.getText().__contains__(datetime.date.today().strftime("%#m月%#d日")):

日期存在title里面所以为了判断单独取一下信息

然后要取到最新日期的新闻自己的url,并get请求这个url

复制代码
            b = a.get('href')
            response = requests.get(url=b, headers=headers)
            soup = BeautifulSoup(response.text, "html.parser")

打开新的网址后分析网站标签信息

取这个标签,获取到p标签的值

复制代码
            body = soup.find(class_="post_body")
            p = body.find_all('p')

获取到的是个数组,去掉第一个元素,从第二个开始即是我们需要的结果

复制代码
            p_id_tag = p[1].__str__()

输出的信息带有元素标记,使用正则处理一下

复制代码
            raw_text = re.findall(r'<p[^>]*>(.*?)</p>', p_id_tag).__str__()
            # 去掉 HTML 标签并换行显示
            clean_text = raw_text.replace('<br/>', '\n').replace('<p>', '').replace('</p>', '').replace("']",
                                                                                                        "").replace(
                "['", "").replace(r"\u200b", "")

然后把抓取的信息写入txt

复制代码
            file = open("C:\\Users\\Administrator\\Desktop\\每日新闻" + '.txt',
                        'w', encoding='utf-8')
            file.write(clean_text)
            file.close()

最后使用定时任务每天定时抓取,这样就可以每天更新了

复制代码
    schedule.every().day.at("08:00").do(getNews)
    while True:
        schedule.run_pending()
        time.sleep(1)

运行效果

相关推荐
zh路西法9 分钟前
【Linux 串口通信】基于 C++ 多线程的同步/异步串口实现
linux·运维·c++·python
北暮城南10 分钟前
使用 Claude Code 高效实现图像边缘检测:多算法对比与工程实践
python·opencv·numpy·matplotlib·边缘检测·claude code
装不满的克莱因瓶12 分钟前
学习并掌握 LangChain 检索器的作用,实现让 LLM 动态调用知识库功能
人工智能·python·ai·langchain·llm·agent·智能体
charlie11451419113 分钟前
通用GUI编程技术——图形渲染实战(四十五)——D3D12资源与堆管理:从上传到驻留
开发语言·3d·图形渲染·win32
不会C语言的男孩14 分钟前
C++ Primer 第12章:动态内存
开发语言·c++
踏着七彩祥云的小丑37 分钟前
Go学习第1天:入门
开发语言·学习·golang·go
眠りたいです1 小时前
现代C++:C++17中的新库特性
开发语言·c++·c++20·c++17
devnullcoffee1 小时前
亚马逊 Buy Box 数据采集完全指南(2026):Python 实战 + Pangolinfo API
开发语言·python·亚马逊数据采集·亚马逊数据 api·pangolinfo api·亚马逊 buy box 数据·亚马逊数据采集软件
imDwAaY1 小时前
贝叶斯网络到粒子滤波Python算法实现 CS188 Proj4 学习笔记
网络·人工智能·笔记·python·学习·算法
sleven fung1 小时前
Whisper库
开发语言·人工智能·python·算法·ai·whisper