python 爬虫抓取百度热搜

实现思路:

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

复制代码
import requests
from bs4 import BeautifulSoup

url = 'https://top.baidu.com/board?tab=realtime'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:
    title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()
    link = element.find('a')['href']
    print(title, link)
    hot_searches.append({title, link})
print(hot_searches)

控制台打印

相关推荐
进阶的鱼4 分钟前
一文了解RAG———检索增强生成
人工智能·python·ai编程
测试工坊5 分钟前
Android 内存采集避坑指南:一个命令 5ms,一个命令 15 秒,你选哪个?
python
郝学胜-神的一滴9 分钟前
Effective Modern C++ 条款39:一次事件通信的优雅解决方案
开发语言·数据结构·c++·算法·多线程·并发
JaydenAI10 分钟前
[拆解LangChain执行引擎]回到过去,开启平行世界[上篇]
python·langchain
香芋Yu11 分钟前
【从零构建AI Code终端系统】02 -- Bash 工具:一切能力的基础
开发语言·bash·agent·claude
码云数智-园园12 分钟前
Java Swing 界面美化与 JPanel 优化完全指南:从复古到现代的视觉革命
java·开发语言
@atweiwei12 分钟前
Rust 实现 LangChain
开发语言·算法·rust·langchain·llm·agent·rag
舟舟亢亢12 分钟前
Java并发编程(下)
java·开发语言
Дерек的学习记录14 分钟前
C++:类和对象part2
c语言·开发语言·c++·学习
我是大猴子15 分钟前
常见八股caffine
java·开发语言·mybatis