引言
在日常生活中,天气信息对我们至关重要。本文将通过实战方式,详细讲解如何使用Python爬取某天气网站的数据,并展示如何整理和存储这些数据。我们将使用requests库来获取网页数据,使用BeautifulSoup库来解析网页,并使用pandas库来存储数据。【完整代码在文末】
准备工作
安装必要的库:
python
pip install requests
pip install beautifulsoup4
pip install pandas
了解目标网页结构:
在编写爬虫之前,需要先分析目标网页的结构,可以使用浏览器的开发者工具来查看网页元素。
编写爬虫代码
导入库:
python
import requests
from bs4 import BeautifulSoup
import pandas as pd
定义获取网页内容的函数:
python
def get_html(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
r = requests.get(url, headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except Exception as e:
print(e)
return ""
解析网页内容:
python
def parse(html):
soup = BeautifulSoup(html, "html.parser")
weather_list = soup.find('div', class_='weather-list')
items = weather_list.find_all('div', class_='weather-item')
data = []
for item in items:
city = item.find('h2').get_text()
temp = item.find('p', class_='temp').get_text()
weather = item.find('p', class_='weather').get_text()
data.append({'City': city, 'Temperature': temp, 'Weather': weather})
return data
保存数据到CSV文件:
php
```python
def save_to_csv(data):
df = pd.DataFrame(data)
df.to_csv('weather_data.csv', index=False, encoding='utf-8-sig')
主函数:
python
def main():
url = "http://example.com/weather" # 假设这是目标天气网站的URL
html = get_html(url)
data = parse(html)
save_to_csv(data)
print("数据爬取完成,并已保存到CSV文件。")
if __name__ == "__main__":
main()
运行和测试
运行上述代码,如果一切正常,你将看到控制台输出"数据爬取完成,并已保存到CSV文件。",并且在你的代码目录下生成了一个名为weather_data.csv的文件,里面包含了爬取到的天气数据。
注意事项
遵守爬虫道德与法律: 爬取网站数据时,请确保遵守网站的robots.txt文件,不要对网站服务器造成过大压力。 反爬虫机制:
有些网站会有反爬虫机制,如IP封禁、动态加载数据等。遇到这类问题,可能需要使用更高级的爬虫技术,如Selenium。 数据准确性:
爬取的数据可能存在误差或更新不及时的情况,使用时请注意数据的准确性和时效性。
通过上述步骤,你可以实现一个简单的天气网站数据爬虫。希望这篇文章能为你提供一些帮助!
扫描下方二维码,免费获取本文章源码、 Python公开课和大佬打包整理的几百G的学习资料,内容包含但不限于Python电子书、教程、项目接单等等: