python 爬虫抓取百度热搜

实现思路:

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

复制代码
import requests
from bs4 import BeautifulSoup

url = 'https://top.baidu.com/board?tab=realtime'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:
    title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()
    link = element.find('a')['href']
    print(title, link)
    hot_searches.append({title, link})
print(hot_searches)

控制台打印

相关推荐
only-lucky12 小时前
Qt惯性动画效果
开发语言·qt
冬夜戏雪12 小时前
线性池java demo
java·开发语言
强子感冒了12 小时前
JavaScript 零基础入门笔记:核心概念与语法详解
开发语言·javascript·笔记
wuqingshun31415912 小时前
String、StringBuffer、StringBuilder的应用场景
java·开发语言·jvm
ValhallaCoder12 小时前
hot100-回溯II
数据结构·python·算法·回溯
桂花很香,旭很美12 小时前
[7天实战入门Go语言后端] Day 5:中间件与业务分层——日志、鉴权与请求超时
开发语言·中间件·golang
2401_8288906412 小时前
正/余弦位置编码 Sinusoidal Encoding
python·自然语言处理·transformer·embedding
流烟默12 小时前
Python爬虫之下载豆瓣电影图片到本地
爬虫·python
沐知全栈开发13 小时前
Python File 方法详解
开发语言
MX_935913 小时前
@Import整合第三方框架原理
java·开发语言·后端·spring