用python写个爬虫蜘蛛

爬虫蜘蛛通常用于从网站上抓取数据。Python中有很多库可以用来编写爬虫,其中最常用的是requestsBeautifulSoup。下面是一个简单的爬虫蜘蛛示例,用于抓取网页上的标题和链接:

复制代码

python复制代码

|---|----------------------------------------------|
| | import requests |
| | from bs4 import BeautifulSoup |
| | |
| | def get_page(url): |
| | try: |
| | response = requests.get(url) |
| | response.raise_for_status() |
| | return response.text |
| | except requests.RequestException as e: |
| | print(e) |
| | |
| | def parse_page(html): |
| | soup = BeautifulSoup(html, 'html.parser') |
| | # 获取所有标题和链接 |
| | titles = soup.find_all('h1') |
| | links = soup.find_all('a') |
| | # 打印标题和链接 |
| | for title in titles: |
| | print(title.get_text()) |
| | for link in links: |
| | print(link.get('href')) |
| | |
| | if __name__ == '__main__': |
| | url = 'http://example.com' # 要抓取的网页地址 |
| | html = get_page(url) |
| | if html: |
| | parse_page(html) |

在这个示例中,我们首先使用requests库向指定的URL发送GET请求,并获取返回的HTML内容。然后,我们使用BeautifulSoup库解析HTML,并使用选择器找到所有的标题和链接。最后,我们将标题和链接打印到控制台上。

相关推荐
新缸中之脑几秒前
Moltbook 帖子精选
开发语言·php
xyq202411 分钟前
jQuery Mobile 表单选择
开发语言
Sagittarius_A*13 分钟前
形态学与多尺度处理:计算机视觉中图像形状与尺度的基础处理框架【计算机视觉】
图像处理·人工智能·python·opencv·计算机视觉
m0_5613596715 分钟前
使用PyQt5创建现代化的桌面应用程序
jvm·数据库·python
2301_7903009616 分钟前
用Python实现自动化的Web测试(Selenium)
jvm·数据库·python
青岑CTF16 分钟前
攻防世界-Web_php_include-胎教版wp
开发语言·安全·web安全·网络安全·php
雾岛听蓝24 分钟前
C++11 列表初始化与右值引用核心解析
开发语言·c++·经验分享
自可乐26 分钟前
LangGraph从入门到精通:构建智能Agent的完整指南
人工智能·python·机器学习
m0_5613596728 分钟前
使用Docker容器化你的Python应用
jvm·数据库·python
小北方城市网34 分钟前
Spring Boot 多数据源与事务管理实战:主从分离、动态切换与事务一致性
java·开发语言·jvm·数据库·mysql·oracle·mybatis