python 爬虫抓取百度热搜

实现思路:

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

复制代码
import requests
from bs4 import BeautifulSoup

url = 'https://top.baidu.com/board?tab=realtime'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:
    title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()
    link = element.find('a')['href']
    print(title, link)
    hot_searches.append({title, link})
print(hot_searches)

控制台打印

相关推荐
砚底藏山河8 分钟前
股票数据API接口:如何获取股票历历史分时KDJ数据
java·python·maven
web3.088899911 分钟前
天猫API接口详解:商品详情与关键词搜索商品指南及代码示例
python·json
Csvn14 分钟前
Python 性能优化与 Profiling 工具
后端·python
科技牛牛42 分钟前
AI爬虫引爆代理IP产业:一场正在发生的数据粮草争夺战
人工智能·爬虫·tcp/ip·数据安全·ip地址查询
zjy277771 小时前
c++如何实现日志文件的异步落盘功能_基于无锁队列方案【附代码】
jvm·数据库·python
Irene19911 小时前
PyCharm 大数据开发快速上手指南(类比 VSCode 、Oracle SQL Developer)
python
wang3zc1 小时前
JavaScript中函数声明位置对解析器预编译的影响
jvm·数据库·python
小白学大数据1 小时前
JS 混淆加密下的 Python 爬虫解决方案
javascript·爬虫·python
yexuhgu1 小时前
C#怎么使用Tuple元组返回多个值_C#如何简化方法返回值【基础】
jvm·数据库·python
加号32 小时前
【Qt】 应用程序发布:依赖库拷贝与部署指南
开发语言·qt