网络触手获取天气数据存入mysql 项目

首先这个案例不一定能直接拿来用，虽然我觉得可以但是里面肯定有一些我没考虑到的地方。

有问题评论或者私信我：这个案例适合我这种学生小白

获取天气数据网址： https://lishi.tianqi.com/xianyang/202201.html

网络触手获取天气数据代码直接就可以使用，我们只需要改动几个地方,我将改动的地方给大家注释出来：

首先在url中：

https://lishi.tianqi.com/xianyang/202201.html，你可以改成你们城市的名称比如西安：

https://lishi.tianqi.com/xian/202401.html

通过观察1月和2月的天气数据存在的网址中发现，https://lishi.tianqi.com/xianyang/202201.html

202201 表示2022年1月份，所以你可以推出2022年2月的网址在这块的变化应该是：202202，那十月份就应该是202210，这个地方体现在代码的

('0' + str(month) if month < 10 else str(month)) 这是一个三元表达式

首先从 if month < 10 开始，如果month 小于10，则执行 '0' + str(month)，这叫做字符串拼接，形成的是一个新的字符串，如果不满足也就是大于10则执行str(month)，将month强制转化为字符串。不论满不满足也就是month < 10 符不符合小于10，都会在执行一次字符串拼接，（'2022' + '0' + str(month) 或（'2022' + str(month)）

weather_time = '2022' + ('0' + str(month) if month < 10 else str(month))

这里是字符串格式化，还用到字符串拼接，

url = 'https://lishi.tianqi.com/xianyang/'**+****f'{weather_time}**.html'

网址的其他地方都一样：

其他地方都不用管你可以直接用，我知道代码可能对有的朋友不太友好，看不懂，没关系，你先试试看能不能用。看不懂你给我发私信，我看到第一时间给大家回复。

python 复制代码

# 开始请求时间
    start_time = time.time()

         #  global  requests_count, start_time
         #  # 请求完成结束时间
         #  current_time = time.time()
         #  elapsed_time_since_start = current_time - start_time
         #  minute_passed = int(elapsed_time_since_start/60)
         #  while requests_count >= minute_passed *max_reuqests_per:
         #
         #        print("请求过于频繁")
         # #
         # #
         #  requests_count +=1

    def    getWeather(url):

        weather_info = []
        headers = {
             'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
             'Cookie': 'lianjia_uuid=9d3277d3-58e4-440e-bade-5069cb5203a4; UM_distinctid=16ba37f7160390-05f17711c11c3e-454c0b2b-100200-16ba37f716618b; _smt_uid=5d176c66.5119839a; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22%24device_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; _ga=GA1.2.1772719071.1561816174; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1561822858; _jzqa=1.2532744094467475000.1561816167.1561822858.1561870561.3; CNZZDATA1253477573=987273979-1561811144-%7C1561865554; CNZZDATA1254525948=879163647-1561815364-%7C1561869382; CNZZDATA1255633284=1986996647-1561812900-%7C1561866923; CNZZDATA1255604082=891570058-1561813905-%7C1561866148; _qzja=1.1577983579.1561816168942.1561822857520.1561870561449.1561870561449.1561870847908.0.0.0.7.3; select_city=110000; lianjia_ssid=4e1fa281-1ebf-e1c1-ac56-32b3ec83f7ca; srcid=eyJ0Ijoie1wiZGF0YVwiOlwiMzQ2MDU5ZTQ0OWY4N2RiOTE4NjQ5YmQ0ZGRlMDAyZmFhODZmNjI1ZDQyNWU0OGQ3MjE3Yzk5NzFiYTY4ODM4ZThiZDNhZjliNGU4ODM4M2M3ODZhNDNiNjM1NzMzNjQ4ODY3MWVhMWFmNzFjMDVmMDY4NWMyMTM3MjIxYjBmYzhkYWE1MzIyNzFlOGMyOWFiYmQwZjBjYjcyNmIwOWEwYTNlMTY2MDI1NjkyOTBkNjQ1ZDkwNGM5ZDhkYTIyODU0ZmQzZjhjODhlNGQ1NGRkZTA0ZTBlZDFiNmIxOTE2YmU1NTIxNzhhMGQ3Yzk0ZjQ4NDBlZWI0YjlhYzFiYmJlZjJlNDQ5MDdlNzcxMzAwMmM1ODBlZDJkNmIwZmY0NDAwYmQxNjNjZDlhNmJkNDk3NGMzOTQxNTdkYjZlMjJkYjAxYjIzNjdmYzhiNzMxZDA1MGJlNjBmNzQxMTZjNDIzNFwiLFwia2V5X2lkXCI6XCIxXCIsXCJzaWduXCI6XCIzMGJlNDJiN1wifSIsInIiOiJodHRwczovL2JqLmxpYW5qaWEuY29tL3p1ZmFuZy9yY28zMS8iLCJvcyI6IndlYiIsInYiOiIwLjEifQ=='
             }
        reponse = requests.get(url=url, headers=headers)
        if reponse.status_code==200:
            reponse.encoding = reponse.apparent_encoding
            # 正则表达式获取需要标题
            pattern = r'<div class="th200">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>'
            matches = re.findall(pattern, reponse.text)
            # 将匹配的结果转换为字典列表
            for match in matches[1:]:
                # 这里有错误
                date_str = match[0]
                # 使用split分割字符串，取第一部分
                date_str = date_str.split(' ')[0]
                #第一个 %Y-%m-%d 在 strptime 函数中起到解析的作用，将字符串 date_only 按照这种格式解释为一个 datetime 对象
                #第二个 %Y-%m-%d 在 strftime 方法中起到格式化的作用，将前面解析得到的 datetime 对象转换回字符串
                #转换回字符串 不会影响存入mysql吗 因为刚才在写入MySQL的Connect_MySQL.py 文件中Date
                #将日期字符串转换回 YYYY-MM-DD 格式的字符串并不会影响其存入MySQL数据库，只要数据库表结构中的对应列是日期类型（如 DATE 或 DATETIME）
                formatted_date = datetime.strptime(date_str, '%Y-%m-%d').strftime('%Y-%m-%d')
                highest_temp = float(match[1].replace('℃', ''))
                lowest_temp = float(match[2].replace('℃', ''))
                weather_data = {'日期':formatted_date , '最高温': highest_temp,'最低温': lowest_temp,
                                '天气状况': match[3]}
                weather_info.append(weather_data)
        return weather_info
    # 创建一个空的DataFrame 且给上columns 名称
    weather_df = pd.DataFrame(columns=['日期', '最高温', '最低温', '天气状况'])
    for month in range(1,13):
       # 202302
        # 三元表达式  凑请求链接
       weather_time = '2022' + ('0' + str(month) if month < 10 else str(month))
       url = 'https://lishi.tianqi.com/xianyang/'+f'{weather_time}.html'
       # 调用函数并将结果添加到DataFrame中
       monthly_weather = getWeather(url)
       monthly_weather_df = pd.DataFrame(monthly_weather)
       weather_df = pd.concat([weather_df, monthly_weather_df])
       # response_time = time.time() - start_time
       # time.sleep(min(response_time, 5) + random.uniform(0.5, 1))
    print(weather_df)

存入数据库代码：

需要注意的是（都输入你的）：

python 复制代码

# 定义数据库连接参数
5 db_config = {
6    'host': 'your_host',  # 数据库地址
7    'port': your_port,      # 数据库端口
8    'user': 'your_username',  # 数据库用户名
9    'password': 'your_password',  # 数据库密码
10    'database': 'your_database',  # 数据库名称
11 }
12
13# 创建数据库引擎
engine = create_engine(f'mysql+pymysql://{db_config["user"]}:{db_config["password"]}@{db_config["host"]}:{db_config["port"]}/{db_config["database"]}')

还有必须 要手动在你的本地数据库中创建一个名为 "weather" 的数据库

如果忘记了没关系：

我告诉大家一个方法如何找到这些信息，前提是安装了一些操作数据库的可视化软件任何都行，我用的是sqlyong。

第一步：打开可视化工具

第二步：

如果出现连接失败，我只能解决密码忘记问题，其他问题其实应该可以我没遇到过，例如端口被占用，数据库地址不对，这在安装数据库的时候就要注意，怎么弄，也就是大家都怎么写你就怎么写，不要搞一些复杂的到时候就忘记了。

mysql 数据库密码忘记，重置密码网址：

http://t.csdnimg.cn/9m1ax 作者： csdn博主小达学加瓦

连接、测试、写入数据库代码：

（不知道没关系，这个代码包含了检测是否存在表，不存在创建表，数据是否写入成功不成功抛出错误），只要你把我刚说前面那些写对，就应该直接能用

python 复制代码

from sqlalchemy import create_engine, MetaData, Table, Column, Float, String, Date
from sqlalchemy.exc import OperationalError

from sqlalchemy import inspect

# 定义数据库连接参数
    db_config = {
        'host': '127.0.0.1',  # 数据库地址
        'port': 3307,      # 数据库端口
        'user': 'root',  # 数据库用户名
        'password': '123456',  # 数据库密码
        'database': 'weather',  # 数据库名称
    }

    # 创建数据库引擎
    engine = create_engine(f'mysql+pymysql://{db_config["user"]}:{db_config["password"]}@{db_config["host"]}:{db_config["port"]}/{db_config["database"]}')
    # 测试数据库连接是否成功
    try:
        connection = engine.connect()
        print("数据库连接成功！")
    except Exception as e:
        print(f"数据库连接失败：{str(e)}")

    # 创建表（如果不存在）
    metadata = MetaData()
    table_name = 'weather_data'
    table_columns = [
        Column('日期', Date),
        Column('最高温', Float),
        Column('最低温', Float),
        Column('天气状况', String(255)),
    ]
    weather_table = Table(table_name, metadata, *table_columns,  extend_existing=True)

    # 检查表是否存在，如果不存在则创建表
    inspector = inspect(engine)
    if not inspector.has_table(table_name):
        # 注意这里需要传递 engine 到 create_all 方法中
        metadata.create_all(bind=engine)
    # 检查表是否存在，如果不存在则创建表
    try:
        metadata.create_all(engine)
    except OperationalError as oe:
        if "already exists" in str(oe):  # 如果表已存在则忽略错误
            print("cunza")
        else:
            raise oe
    print("表 'weather_data' 已经检查并创建完毕（如有必要）")
    # 将数据写入数据库
    if weather_df is not None and not weather_df.empty:
        weather_df.to_sql(name=table_name, con=engine, if_exists='append', index=False, dtype={
            '日期': Date,
            '最高温': Float,
            '最低温': Float,
            '天气状况': String(255),
        })
        print("数据已成功写入 'weather_data' 表.")
    else:
        print("未找到待写入数据库的数据.")

主函数：运行这个大程序：

python 复制代码

from my_project.tianqi.tianqi import get_weather_data
from my_project.database.Connect_MySQL import save_to_database
def main():
    weather_df = get_weather_data()
    save_to_database(weather_df)

if __name__ == "__main__":
    main()

文件夹以文件架构：这是模块（包或文件夹的创建位置很重要）

完整程序代码：

python 复制代码

# 天气文件 使用前请先按照文件夹的架构层级创建文件夹和文件 ，以下三个python 都是一样的要求
#file--tianqi.py
import random
import time
import  re
import pandas as  pd
from datetime import datetime

import requests
from lxml import etree
def get_weather_data():
    # 设置每分钟允许的最大请求数量
    max_reuqests_per = 20
    requests_count = 0
    # 开始请求时间
    start_time = time.time()

         #  global  requests_count, start_time
         #  # 请求完成结束时间
         #  current_time = time.time()
         #  elapsed_time_since_start = current_time - start_time
         #  minute_passed = int(elapsed_time_since_start/60)
         #  while requests_count >= minute_passed *max_reuqests_per:
         #
         #        print("请求过于频繁")
         # #
         # #
         #  requests_count +=1

    def    getWeather(url):

        weather_info = []
        headers = {
             'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
             'Cookie': 'lianjia_uuid=9d3277d3-58e4-440e-bade-5069cb5203a4; UM_distinctid=16ba37f7160390-05f17711c11c3e-454c0b2b-100200-16ba37f716618b; _smt_uid=5d176c66.5119839a; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22%24device_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; _ga=GA1.2.1772719071.1561816174; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1561822858; _jzqa=1.2532744094467475000.1561816167.1561822858.1561870561.3; CNZZDATA1253477573=987273979-1561811144-%7C1561865554; CNZZDATA1254525948=879163647-1561815364-%7C1561869382; CNZZDATA1255633284=1986996647-1561812900-%7C1561866923; CNZZDATA1255604082=891570058-1561813905-%7C1561866148; _qzja=1.1577983579.1561816168942.1561822857520.1561870561449.1561870561449.1561870847908.0.0.0.7.3; select_city=110000; lianjia_ssid=4e1fa281-1ebf-e1c1-ac56-32b3ec83f7ca; srcid=eyJ0Ijoie1wiZGF0YVwiOlwiMzQ2MDU5ZTQ0OWY4N2RiOTE4NjQ5YmQ0ZGRlMDAyZmFhODZmNjI1ZDQyNWU0OGQ3MjE3Yzk5NzFiYTY4ODM4ZThiZDNhZjliNGU4ODM4M2M3ODZhNDNiNjM1NzMzNjQ4ODY3MWVhMWFmNzFjMDVmMDY4NWMyMTM3MjIxYjBmYzhkYWE1MzIyNzFlOGMyOWFiYmQwZjBjYjcyNmIwOWEwYTNlMTY2MDI1NjkyOTBkNjQ1ZDkwNGM5ZDhkYTIyODU0ZmQzZjhjODhlNGQ1NGRkZTA0ZTBlZDFiNmIxOTE2YmU1NTIxNzhhMGQ3Yzk0ZjQ4NDBlZWI0YjlhYzFiYmJlZjJlNDQ5MDdlNzcxMzAwMmM1ODBlZDJkNmIwZmY0NDAwYmQxNjNjZDlhNmJkNDk3NGMzOTQxNTdkYjZlMjJkYjAxYjIzNjdmYzhiNzMxZDA1MGJlNjBmNzQxMTZjNDIzNFwiLFwia2V5X2lkXCI6XCIxXCIsXCJzaWduXCI6XCIzMGJlNDJiN1wifSIsInIiOiJodHRwczovL2JqLmxpYW5qaWEuY29tL3p1ZmFuZy9yY28zMS8iLCJvcyI6IndlYiIsInYiOiIwLjEifQ=='
             }
        reponse = requests.get(url=url, headers=headers)
        if reponse.status_code==200:
            reponse.encoding = reponse.apparent_encoding
            # 正则表达式获取需要标题
            pattern = r'<div class="th200">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>'
            matches = re.findall(pattern, reponse.text)
            # 将匹配的结果转换为字典列表
            for match in matches[1:]:
                # 这里有错误
                date_str = match[0]
                # 使用split分割字符串，取第一部分
                date_str = date_str.split(' ')[0]
                #第一个 %Y-%m-%d 在 strptime 函数中起到解析的作用，将字符串 date_only 按照这种格式解释为一个 datetime 对象
                #第二个 %Y-%m-%d 在 strftime 方法中起到格式化的作用，将前面解析得到的 datetime 对象转换回字符串
                #转换回字符串 不会影响存入mysql吗 因为刚才在写入MySQL的Connect_MySQL.py 文件中Date
                #将日期字符串转换回 YYYY-MM-DD 格式的字符串并不会影响其存入MySQL数据库，只要数据库表结构中的对应列是日期类型（如 DATE 或 DATETIME）
                formatted_date = datetime.strptime(date_str, '%Y-%m-%d').strftime('%Y-%m-%d')
                highest_temp = float(match[1].replace('℃', ''))
                lowest_temp = float(match[2].replace('℃', ''))
                weather_data = {'日期':formatted_date , '最高温': highest_temp,'最低温': lowest_temp,
                                '天气状况': match[3]}
                weather_info.append(weather_data)
        return weather_info
    # 创建一个空的DataFrame 且给上columns 名称
    weather_df = pd.DataFrame(columns=['日期', '最高温', '最低温', '天气状况'])
    for month in range(1,13):
       # 202302
        # 三元表达式  凑请求链接
       weather_time = '2022' + ('0' + str(month) if month < 10 else str(month))
       url = 'https://lishi.tianqi.com/xianyang/'+f'{weather_time}.html'
       # 调用函数并将结果添加到DataFrame中
       monthly_weather = getWeather(url)
       monthly_weather_df = pd.DataFrame(monthly_weather)
       weather_df = pd.concat([weather_df, monthly_weather_df])
       # response_time = time.time() - start_time
       # time.sleep(min(response_time, 5) + random.uniform(0.5, 1))
    print(weather_df)
    return weather_df

get_weather_data()

数据库文件：

python 复制代码

# file--Coonect_MySQl
import pymysql
from sqlalchemy import create_engine, MetaData, Table, Column, Float, String, Date
from sqlalchemy.exc import OperationalError

from sqlalchemy import inspect
def save_to_database(weather_df):

    # 定义数据库连接参数
    db_config = {
        'host': '127.0.0.1',  # 数据库地址
        'port': 3307,      # 数据库端口
        'user': 'root',  # 数据库用户名
        'password': '123456',  # 数据库密码
        'database': 'weather',  # 数据库名称
    }

    # 创建数据库引擎
    engine = create_engine(f'mysql+pymysql://{db_config["user"]}:{db_config["password"]}@{db_config["host"]}:{db_config["port"]}/{db_config["database"]}')
    # 测试数据库连接是否成功
    try:
        connection = engine.connect()
        print("数据库连接成功！")
    except Exception as e:
        print(f"数据库连接失败：{str(e)}")

    # 创建表（如果不存在）
    metadata = MetaData()
    table_name = 'weather_data'
    table_columns = [
        Column('日期', Date),
        Column('最高温', Float),
        Column('最低温', Float),
        Column('天气状况', String(255)),
    ]
    weather_table = Table(table_name, metadata, *table_columns,  extend_existing=True)

    # 检查表是否存在，如果不存在则创建表
    inspector = inspect(engine)
    if not inspector.has_table(table_name):
        # 注意这里需要传递 engine 到 create_all 方法中
        metadata.create_all(bind=engine)
    # 检查表是否存在，如果不存在则创建表
    try:
        metadata.create_all(engine)
    except OperationalError as oe:
        if "already exists" in str(oe):  # 如果表已存在则忽略错误
            print("cunza")
        else:
            raise oe
    print("表 'weather_data' 已经检查并创建完毕（如有必要）")
    # 将数据写入数据库
    if weather_df is not None and not weather_df.empty:
        weather_df.to_sql(name=table_name, con=engine, if_exists='append', index=False, dtype={
            '日期': Date,
            '最高温': Float,
            '最低温': Float,
            '天气状况': String(255),
        })
        print("数据已成功写入 'weather_data' 表.")
    else:
        print("未找到待写入数据库的数据.")

主文件充当运行程序运行文件

python 复制代码

from my_project.tianqi.tianqi import get_weather_data
from my_project.database.Connect_MySQL import save_to_database
def main():
    weather_df = get_weather_data()
    save_to_database(weather_df)

if __name__ == "__main__":
    main()

这是效果：

这里的很多技术难点我都是问的大模型，他们很聪明，完全能应付一些简单日常的问题。

希望帮到大家，祝大家安康

网络触手获取天气数据存入mysql 项目

('0' + str(month) if month < 10 else str(month)) 这是一个三元表达式

这里是字符串格式化，还用到字符串拼接，