Beautiful Soup爬取数据html xml

简介

Beautiful Soup是一个Python库,用于从HTML或XML文件中提取数据。

它提供了一种简单而灵活的方式来解析和遍历HTML或XML文档,并提供了一些有用的方法来提取所需的数据。

安装

python 复制代码
pip install beautifulsoup4

使用

  1. 导入库:在Python脚本的开头,导入Beautiful Soup库。
python 复制代码
from bs4 import BeautifulSoup
  1. 读取HTML或XML文档:使用适当的方法读取HTML或XML文档,并将其存储在一个变量中。您可以从文件中读取文档,也可以直接将文档内容作为字符串传递给Beautiful Soup。
python 复制代码
# 从文件中读取HTML文档
with open('example.html', 'r') as f:
    html_doc = f.read()

或者直接传递HTML字符串

python 复制代码
html_doc = '<html><body><h1>Hello, World!</h1></body></html>'
  1. 创建Beautiful Soup对象:使用Beautiful Soup库创建一个BeautifulSoup对象,将文档内容和解析器类型作为参数传递给它。
python 复制代码
soup = BeautifulSoup(html_doc, 'html.parser')
  1. 解析和提取数据:使用Beautiful Soup提供的方法和属性,解析和提取您需要的数据。您可以使用标签名、类名、属性等方式来定位和选择元素。
python 复制代码
# 通过标签名选择元素
title = soup.h1
print(title.text)  # 输出元素文本内容

# 通过类名选择元素
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)

# 通过属性选择元素
links = soup.find_all('a', href=<a href="http://example.com" class="underline" target="_blank">Click this URL</a>)
for link in links:
    print(link['href'])

举例

URL爬数据,弄两万用户左右,然后还需要follower和following的数量

https://www.personalitycafe.com/members/ .html

保存在csv中

  1. 导入所需的库:
python 复制代码
import requests
from bs4 import BeautifulSoup
import csv
  1. 发送HTTP请求并创建Beautiful Soup对象:
python 复制代码
url = <a href="https://www.personalitycafe.com/members/" class="underline" target="_blank">Click this URL</a>
response = requests.get(url)
html_doc = response.text
soup = BeautifulSoup(html_doc, 'html.parser')
  1. 解析用户列表并提取所需信息:
python 复制代码
user_list = soup.find_all('li', class_='member')

data = []
for user in user_list:
    username = user.find('a', class_='username').text
    follower_count = user.find('dd', class_='follow_count').text
    following_count = user.find('dd', class_='following_count').text
    data.append([username, follower_count, following_count])
  1. 将数据保存到CSV文件:
python 复制代码
filename = 'user_data.csv'

with open(filename, 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Username', 'Follower Count', 'Following Count'])
    writer.writerows(data)

print(f"数据已保存到 {filename} 文件中。")

这样,爬取到的用户数据将会保存在名为 "user_data.csv" 的CSV文件中,包括用户名、follower数量和following数量。

请注意,根据目标网站的结构和HTML标记,可能需要进一步的调整和修改代码以正确提取所需的数据。

要正确提取所需的数据,需要根据目标网站的结构和HTML标记进行进一步的调整和修改代码。

Beautiful Soup

一些常用的Beautiful Soup操作和技巧

  1. 使用标签名称提取元素:
python 复制代码
elements = soup.find_all('tag_name')
  1. 使用CSS选择器提取元素:
python 复制代码
elements = soup.select('css_selector')
  1. 提取元素的文本内容:
python 复制代码
text = element.get_text()
  1. 提取元素的属性值:
python 复制代码
attribute_value = element['attribute_name']
相关推荐
_.Switch39 分钟前
Python Web 应用中的 API 网关集成与优化
开发语言·前端·后端·python·架构·log4j
一个闪现必杀技1 小时前
Python入门--函数
开发语言·python·青少年编程·pycharm
赛男丨木子丿小喵1 小时前
visual studio2022添加新项中没有html和css
css·html·visual studio
小鹿( ﹡ˆoˆ﹡ )1 小时前
探索IP协议的神秘面纱:Python中的网络通信
python·tcp/ip·php
卷心菜小温2 小时前
【BUG】P-tuningv2微调ChatGLM2-6B时所踩的坑
python·深度学习·语言模型·nlp·bug
陈苏同学2 小时前
4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1
linux·服务器·ide·人工智能·python·深度学习·pycharm
唐家小妹2 小时前
介绍一款开源的 Modern GUI PySide6 / PyQt6的使用
python·pyqt
羊小猪~~3 小时前
深度学习项目----用LSTM模型预测股价(包含LSTM网络简介,代码数据均可下载)
pytorch·python·rnn·深度学习·机器学习·数据分析·lstm
Marst Code3 小时前
(Django)初步使用
后端·python·django
985小水博一枚呀3 小时前
【对于Python爬虫的理解】数据挖掘、信息聚合、价格监控、新闻爬取等,附代码。
爬虫·python·深度学习·数据挖掘