python 爬虫抓取百度热搜

实现思路:

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

复制代码
import requests
from bs4 import BeautifulSoup

url = 'https://top.baidu.com/board?tab=realtime'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:
    title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()
    link = element.find('a')['href']
    print(title, link)
    hot_searches.append({title, link})
print(hot_searches)

控制台打印

相关推荐
北京地铁1号线13 小时前
快手面试题:全局解释器锁
python·gil
RechoYit13 小时前
数学建模——评价与决策类模型
python·算法·数学建模·数据分析
leaves falling13 小时前
Qt 项目:计算圆面积
开发语言·qt
xiaoye370813 小时前
某大厂java面试题二面20260313
java·开发语言·spring
查尔char14 小时前
CentOS 7 编译安装 Python 3.10 并解决 SSL 问题
python·centos·ssl·pip·python3.11
Full Stack Developme14 小时前
Java -jar 命令 可以有哪些参数设置
java·开发语言·jar
独隅14 小时前
Python `with` 语句 (上下文管理器) 深度解析与避坑指南
开发语言·python
做怪小疯子14 小时前
Python 基础学习
开发语言·python·学习
denggun1234514 小时前
结构化并发(Structured Concurrency)
开发语言·ios·swift
OKkankan14 小时前
红黑树的原理及实现
开发语言·数据结构·c++·算法