python 实现一个简单的网页爬虫程序

最近在学习python,以下为网页爬虫代码,供参考

1、爬取指定网页的标题和所有的连接

2、并将这些信息保存到一个文件中。

前置:因使用到网页相关的功能,故需导入requests、BeautifulSoup 库来完成

#导入网页相关的库

import requests

from bs4 import BeautifulSoup

#定义一个函数get_page()

def get_page(url):

response = requests.get(url) # 发送HTTP的get请求

解析响应内容为HTML(此处使用*.content,否则使用*.text有乱码)

soup = BeautifulSoup(response.content, 'html.parser')

获取链接的文本内容,即标题

*.title代表HTML文档中<title>标签,*.string属于则用于获取该标签内的直接文本内容

title = soup.title.string

links = soup.find_all('a') # 找到所有的<a>标签,即链接

打开文件用于保存

with open('results.txt', 'w', encoding='utf-8') as file:

file.write(f"网页标题:{title}") # 保存标题到文件

遍历所有连接

for link in links:

获取链接的href属性,即URL; # 保存链接到文件

file.write("\n\nURL:")

file.write(link.get('href'))

使用方法

get_page('https://mail.163.com')

3、远行后,可在"results.txt"文件查看到网页标题及URL

特别注意python的格式要求较高

相关推荐
痛&快乐着15 分钟前
Python 包管理工具 uv 命令大全(附核心注意事项)
python·uv
专心搞代码19 分钟前
【大模型开发】python基础(二)
开发语言·python
Feibo201120 分钟前
OpenClaw部署
python
努力学习的小廉29 分钟前
Python基础——搭建 Python 环境
开发语言·python
清水白石00840 分钟前
Python 编程全景解析:四大核心容器的性能较量、语义之美与高阶实战
开发语言·数据库·python
2401_8785302140 分钟前
深入理解Python的if __name__ == ‘__main__‘
jvm·数据库·python
liuyao_xianhui1 小时前
优选算法_栈_删除字符中的所有相邻重复项_C++
开发语言·数据结构·c++·python·算法·leetcode·链表
STLearner1 小时前
AI论文速读 | 元认知监控赋能深度搜索:认知神经科学启发的分层优化框架
大数据·论文阅读·人工智能·python·深度学习·学习·机器学习
林姜泽樾1 小时前
python入门第四课,运算符、转义字符和文本
python·pycharm
PieroPc1 小时前
用tkinter 做一个通过 扫描仪硬件 扫描纸质文档的软件 支持pdf
python·pdf·扫描