python 实现一个简单的网页爬虫程序

最近在学习python,以下为网页爬虫代码,供参考

1、爬取指定网页的标题和所有的连接

2、并将这些信息保存到一个文件中。

前置:因使用到网页相关的功能,故需导入requests、BeautifulSoup 库来完成

#导入网页相关的库

import requests

from bs4 import BeautifulSoup

#定义一个函数get_page()

def get_page(url):

response = requests.get(url) # 发送HTTP的get请求

解析响应内容为HTML(此处使用*.content,否则使用*.text有乱码)

soup = BeautifulSoup(response.content, 'html.parser')

获取链接的文本内容,即标题

*.title代表HTML文档中<title>标签,*.string属于则用于获取该标签内的直接文本内容

title = soup.title.string

links = soup.find_all('a') # 找到所有的<a>标签,即链接

打开文件用于保存

with open('results.txt', 'w', encoding='utf-8') as file:

file.write(f"网页标题:{title}") # 保存标题到文件

遍历所有连接

for link in links:

获取链接的href属性,即URL; # 保存链接到文件

file.write("\n\nURL:")

file.write(link.get('href'))

使用方法

get_page('https://mail.163.com')

3、远行后,可在"results.txt"文件查看到网页标题及URL

特别注意python的格式要求较高

相关推荐
深蓝电商API1 天前
Selenium 截图与元素高亮定位技巧
爬虫·python·selenium
好好学习啊天天向上1 天前
C盘容量不够,python , pip,安装包的位置
linux·python·pip
时见先生1 天前
Python库和conda搭建虚拟环境
开发语言·人工智能·python·自然语言处理·conda
二十雨辰1 天前
[python]-循环语句
服务器·python
Yvonne爱编码1 天前
Java 四大内部类全解析:从设计本质到实战应用
java·开发语言·python
wqwqweee1 天前
Flutter for OpenHarmony 看书管理记录App实战:搜索功能实现
开发语言·javascript·python·flutter·harmonyos
-To be number.wan1 天前
Python数据分析:numpy数值计算基础
开发语言·python·数据分析
Loo国昌1 天前
深入理解 FastAPI:Python高性能API框架的完整指南
开发语言·人工智能·后端·python·langchain·fastapi
chinesegf1 天前
Ubuntu 安装 Python 虚拟环境:常见问题与解决指南
linux·python·ubuntu
醉舞经阁半卷书11 天前
Python机器学习常用库快速精通
人工智能·python·深度学习·机器学习·数据挖掘·数据分析·scikit-learn