Python——爬虫

当编写一个Python爬虫时,你可以使用BeautifulSoup库来解析网页内容,使用requests库来获取网页的HTML代码。下面是一个简单的示例,演示了如何获取并解析网页内容:

python 复制代码
import requests
from bs4 import BeautifulSoup

# 发送HTTP请求获取网页内容
url = 'https://www.example.com'  # 要爬取的网页的URL
response = requests.get(url)
html_content = response.text

# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, 'html.parser')

# 提取需要的信息
title = soup.title  # 获取网页标题
links = soup.find_all('a')  # 获取所有链接

# 打印结果
print(f'网页标题:{title}')
print('所有链接:')
for link in links:
    print(link.get('href'))

上述代码中的示例网页URL为https://www.example.com,你可以将其替换为你所需爬取的网页地址。代码首先使用requests库发送HTTP GET请求获取网页内容,然后使用BeautifulSoup库解析网页内容。最后提取了网页的标题和所有链接,并打印出来。

请注意,爬取网页时需要尊重网站的使用规则,并遵守相关法律法规。

相关推荐
try2find1 小时前
安装llama-cpp-python踩坑记
开发语言·python·llama
博观而约取2 小时前
Django ORM 1. 创建模型(Model)
数据库·python·django
精灵vector3 小时前
构建专家级SQL Agent交互
python·aigc·ai编程
Zonda要好好学习4 小时前
Python入门Day2
开发语言·python
Vertira4 小时前
pdf 合并 python实现(已解决)
前端·python·pdf
太凉4 小时前
Python之 sorted() 函数的基本语法
python
项目題供诗4 小时前
黑马python(二十四)
开发语言·python
晓13135 小时前
OpenCV篇——项目(二)OCR文档扫描
人工智能·python·opencv·pycharm·ocr
是小王同学啊~5 小时前
(LangChain)RAG系统链路向量检索器之Retrievers(五)
python·算法·langchain
AIGC包拥它5 小时前
提示技术系列——链式提示
人工智能·python·langchain·prompt