网络触手获取天气数据存入mysql 项目

首先这个案例不一定能直接拿来用,虽然我觉得可以但是里面肯定有一些我没考虑到的地方。

有问题评论或者私信我: 这个案例适合我这种学生小白

获取天气数据网址: https://lishi.tianqi.com/xianyang/202201.html

网络触手获取天气数据代码直接就可以使用,我们只需要改动几个地方,我将改动的地方给大家注释出来:

首先在url中:

https://lishi.tianqi.com/xianyang/202201.html,你可以改成你们城市的名称比如 西安:

https://lishi.tianqi.com/xian/202401.html

通过观察1月和2月的天气数据存在的网址中发现,https://lishi.tianqi.com/xianyang/202201.html

202201 表示2022年1月份,所以你可以推出2022年2月的网址在这块的变化应该是:202202,那十月份就应该是202210,这个地方体现在代码的

('0' + str(month) if month < 10 else str(month)) 这是一个三元表达式

首先从 if month < 10 开始,如果month 小于10,则执行 '0' + str(month),这叫做字符串拼接,形成的是一个新的字符串,如果不满足也就是 大于10则执行str(month),将month强制转化为字符串。不论满不满足也就是month < 10 符不符合小于10,都会在执行一次字符串拼接,('2022' + '0' + str(month) 或 ('2022' + str(month))

weather_time = '2022' + ('0' + str(month) if month < 10 else str(month))

这里是字符串格式化,还用到字符串拼接,

url = 'https://lishi.tianqi.com/xianyang/'**+****f'{weather_time}**.html'

网址的其他地方都一样:

其他地方都不用管你可以直接用,我知道代码可能对有的朋友不太友好,看不懂,没关系,你先试试看能不能用。看不懂你给我发私信,我看到第一时间给大家回复。

python 复制代码
# 开始请求时间
    start_time = time.time()

         #  global  requests_count, start_time
         #  # 请求完成结束时间
         #  current_time = time.time()
         #  elapsed_time_since_start = current_time - start_time
         #  minute_passed = int(elapsed_time_since_start/60)
         #  while requests_count >= minute_passed *max_reuqests_per:
         #
         #        print("请求过于频繁")
         # #
         # #
         #  requests_count +=1

    def    getWeather(url):

        weather_info = []
        headers = {
             'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
             'Cookie': 'lianjia_uuid=9d3277d3-58e4-440e-bade-5069cb5203a4; UM_distinctid=16ba37f7160390-05f17711c11c3e-454c0b2b-100200-16ba37f716618b; _smt_uid=5d176c66.5119839a; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22%24device_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; _ga=GA1.2.1772719071.1561816174; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1561822858; _jzqa=1.2532744094467475000.1561816167.1561822858.1561870561.3; CNZZDATA1253477573=987273979-1561811144-%7C1561865554; CNZZDATA1254525948=879163647-1561815364-%7C1561869382; CNZZDATA1255633284=1986996647-1561812900-%7C1561866923; CNZZDATA1255604082=891570058-1561813905-%7C1561866148; _qzja=1.1577983579.1561816168942.1561822857520.1561870561449.1561870561449.1561870847908.0.0.0.7.3; select_city=110000; lianjia_ssid=4e1fa281-1ebf-e1c1-ac56-32b3ec83f7ca; srcid=eyJ0Ijoie1wiZGF0YVwiOlwiMzQ2MDU5ZTQ0OWY4N2RiOTE4NjQ5YmQ0ZGRlMDAyZmFhODZmNjI1ZDQyNWU0OGQ3MjE3Yzk5NzFiYTY4ODM4ZThiZDNhZjliNGU4ODM4M2M3ODZhNDNiNjM1NzMzNjQ4ODY3MWVhMWFmNzFjMDVmMDY4NWMyMTM3MjIxYjBmYzhkYWE1MzIyNzFlOGMyOWFiYmQwZjBjYjcyNmIwOWEwYTNlMTY2MDI1NjkyOTBkNjQ1ZDkwNGM5ZDhkYTIyODU0ZmQzZjhjODhlNGQ1NGRkZTA0ZTBlZDFiNmIxOTE2YmU1NTIxNzhhMGQ3Yzk0ZjQ4NDBlZWI0YjlhYzFiYmJlZjJlNDQ5MDdlNzcxMzAwMmM1ODBlZDJkNmIwZmY0NDAwYmQxNjNjZDlhNmJkNDk3NGMzOTQxNTdkYjZlMjJkYjAxYjIzNjdmYzhiNzMxZDA1MGJlNjBmNzQxMTZjNDIzNFwiLFwia2V5X2lkXCI6XCIxXCIsXCJzaWduXCI6XCIzMGJlNDJiN1wifSIsInIiOiJodHRwczovL2JqLmxpYW5qaWEuY29tL3p1ZmFuZy9yY28zMS8iLCJvcyI6IndlYiIsInYiOiIwLjEifQ=='
             }
        reponse = requests.get(url=url, headers=headers)
        if reponse.status_code==200:
            reponse.encoding = reponse.apparent_encoding
            # 正则表达式获取需要标题
            pattern = r'<div class="th200">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>'
            matches = re.findall(pattern, reponse.text)
            # 将匹配的结果转换为字典列表
            for match in matches[1:]:
                # 这里有错误
                date_str = match[0]
                # 使用split分割字符串,取第一部分
                date_str = date_str.split(' ')[0]
                #第一个 %Y-%m-%d 在 strptime 函数中起到解析的作用,将字符串 date_only 按照这种格式解释为一个 datetime 对象
                #第二个 %Y-%m-%d 在 strftime 方法中起到格式化的作用,将前面解析得到的 datetime 对象转换回字符串
                #转换回字符串 不会影响存入mysql吗 因为刚才在写入MySQL的Connect_MySQL.py 文件中Date
                #将日期字符串转换回 YYYY-MM-DD 格式的字符串并不会影响其存入MySQL数据库,只要数据库表结构中的对应列是日期类型(如 DATE 或 DATETIME)
                formatted_date = datetime.strptime(date_str, '%Y-%m-%d').strftime('%Y-%m-%d')
                highest_temp = float(match[1].replace('℃', ''))
                lowest_temp = float(match[2].replace('℃', ''))
                weather_data = {'日期':formatted_date , '最高温': highest_temp,'最低温': lowest_temp,
                                '天气状况': match[3]}
                weather_info.append(weather_data)
        return weather_info
    # 创建一个空的DataFrame 且给上columns 名称
    weather_df = pd.DataFrame(columns=['日期', '最高温', '最低温', '天气状况'])
    for month in range(1,13):
       # 202302
        # 三元表达式  凑请求链接
       weather_time = '2022' + ('0' + str(month) if month < 10 else str(month))
       url = 'https://lishi.tianqi.com/xianyang/'+f'{weather_time}.html'
       # 调用函数并将结果添加到DataFrame中
       monthly_weather = getWeather(url)
       monthly_weather_df = pd.DataFrame(monthly_weather)
       weather_df = pd.concat([weather_df, monthly_weather_df])
       # response_time = time.time() - start_time
       # time.sleep(min(response_time, 5) + random.uniform(0.5, 1))
    print(weather_df)

存入数据库代码:

需要注意的是(都输入你的):

python 复制代码
# 定义数据库连接参数
5 db_config = {
6    'host': 'your_host',  # 数据库地址
7    'port': your_port,      # 数据库端口
8    'user': 'your_username',  # 数据库用户名
9    'password': 'your_password',  # 数据库密码
10    'database': 'your_database',  # 数据库名称
11 }
12
13# 创建数据库引擎
engine = create_engine(f'mysql+pymysql://{db_config["user"]}:{db_config["password"]}@{db_config["host"]}:{db_config["port"]}/{db_config["database"]}')

还有必须 要手动在你的本地数据库中创建一个名为 "weather" 的数据库

如果忘记了没关系:

我告诉大家一个方法如何找到这些信息,前提是安装了一些操作数据库的可视化软件任何都行,我用的是sqlyong。

第一步:打开可视化工具

第二步:

如果出现连接失败,我只能解决密码忘记问题,其他问题其实应该可以我没遇到过,例如端口被占用,数据库地址不对,这在安装数据库的时候就要注意,怎么弄,也就是大家都怎么写你就怎么写,不要搞一些复杂的到时候就忘记了。

mysql 数据库密码忘记,重置密码网址:

http://t.csdnimg.cn/9m1ax 作者: csdn博主 小达学加瓦

连接、测试、写入数据库代码:

(不知道没关系,这个代码包含了检测是否存在表,不存在创建表,数据是否写入成功不成功抛出错误),只要你把我刚说前面那些写对,就应该直接能用

python 复制代码
from sqlalchemy import create_engine, MetaData, Table, Column, Float, String, Date
from sqlalchemy.exc import OperationalError

from sqlalchemy import inspect

# 定义数据库连接参数
    db_config = {
        'host': '127.0.0.1',  # 数据库地址
        'port': 3307,      # 数据库端口
        'user': 'root',  # 数据库用户名
        'password': '123456',  # 数据库密码
        'database': 'weather',  # 数据库名称
    }

    # 创建数据库引擎
    engine = create_engine(f'mysql+pymysql://{db_config["user"]}:{db_config["password"]}@{db_config["host"]}:{db_config["port"]}/{db_config["database"]}')
    # 测试数据库连接是否成功
    try:
        connection = engine.connect()
        print("数据库连接成功!")
    except Exception as e:
        print(f"数据库连接失败:{str(e)}")

    # 创建表(如果不存在)
    metadata = MetaData()
    table_name = 'weather_data'
    table_columns = [
        Column('日期', Date),
        Column('最高温', Float),
        Column('最低温', Float),
        Column('天气状况', String(255)),
    ]
    weather_table = Table(table_name, metadata, *table_columns,  extend_existing=True)

    # 检查表是否存在,如果不存在则创建表
    inspector = inspect(engine)
    if not inspector.has_table(table_name):
        # 注意这里需要传递 engine 到 create_all 方法中
        metadata.create_all(bind=engine)
    # 检查表是否存在,如果不存在则创建表
    try:
        metadata.create_all(engine)
    except OperationalError as oe:
        if "already exists" in str(oe):  # 如果表已存在则忽略错误
            print("cunza")
        else:
            raise oe
    print("表 'weather_data' 已经检查并创建完毕(如有必要)")
    # 将数据写入数据库
    if weather_df is not None and not weather_df.empty:
        weather_df.to_sql(name=table_name, con=engine, if_exists='append', index=False, dtype={
            '日期': Date,
            '最高温': Float,
            '最低温': Float,
            '天气状况': String(255),
        })
        print("数据已成功写入 'weather_data' 表.")
    else:
        print("未找到待写入数据库的数据.")

主函数:运行这个大程序:

python 复制代码
from my_project.tianqi.tianqi import get_weather_data
from my_project.database.Connect_MySQL import save_to_database
def main():
    weather_df = get_weather_data()
    save_to_database(weather_df)

if __name__ == "__main__":
    main()

文件夹以文件架构:这是模块(包或文件夹的创建位置很重要)

完整程序代码:

python 复制代码
# 天气文件 使用前请先按照文件夹的架构层级创建文件夹和文件 ,以下三个python 都是一样的要求
#file--tianqi.py
import random
import time
import  re
import pandas as  pd
from datetime import datetime

import requests
from lxml import etree
def get_weather_data():
    # 设置每分钟允许的最大请求数量
    max_reuqests_per = 20
    requests_count = 0
    # 开始请求时间
    start_time = time.time()

         #  global  requests_count, start_time
         #  # 请求完成结束时间
         #  current_time = time.time()
         #  elapsed_time_since_start = current_time - start_time
         #  minute_passed = int(elapsed_time_since_start/60)
         #  while requests_count >= minute_passed *max_reuqests_per:
         #
         #        print("请求过于频繁")
         # #
         # #
         #  requests_count +=1

    def    getWeather(url):

        weather_info = []
        headers = {
             'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
             'Cookie': 'lianjia_uuid=9d3277d3-58e4-440e-bade-5069cb5203a4; UM_distinctid=16ba37f7160390-05f17711c11c3e-454c0b2b-100200-16ba37f716618b; _smt_uid=5d176c66.5119839a; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22%24device_id%22%3A%2216ba37f7a942a6-0671dfdde0398a-454c0b2b-1049088-16ba37f7a95409%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; _ga=GA1.2.1772719071.1561816174; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1561822858; _jzqa=1.2532744094467475000.1561816167.1561822858.1561870561.3; CNZZDATA1253477573=987273979-1561811144-%7C1561865554; CNZZDATA1254525948=879163647-1561815364-%7C1561869382; CNZZDATA1255633284=1986996647-1561812900-%7C1561866923; CNZZDATA1255604082=891570058-1561813905-%7C1561866148; _qzja=1.1577983579.1561816168942.1561822857520.1561870561449.1561870561449.1561870847908.0.0.0.7.3; select_city=110000; lianjia_ssid=4e1fa281-1ebf-e1c1-ac56-32b3ec83f7ca; srcid=eyJ0Ijoie1wiZGF0YVwiOlwiMzQ2MDU5ZTQ0OWY4N2RiOTE4NjQ5YmQ0ZGRlMDAyZmFhODZmNjI1ZDQyNWU0OGQ3MjE3Yzk5NzFiYTY4ODM4ZThiZDNhZjliNGU4ODM4M2M3ODZhNDNiNjM1NzMzNjQ4ODY3MWVhMWFmNzFjMDVmMDY4NWMyMTM3MjIxYjBmYzhkYWE1MzIyNzFlOGMyOWFiYmQwZjBjYjcyNmIwOWEwYTNlMTY2MDI1NjkyOTBkNjQ1ZDkwNGM5ZDhkYTIyODU0ZmQzZjhjODhlNGQ1NGRkZTA0ZTBlZDFiNmIxOTE2YmU1NTIxNzhhMGQ3Yzk0ZjQ4NDBlZWI0YjlhYzFiYmJlZjJlNDQ5MDdlNzcxMzAwMmM1ODBlZDJkNmIwZmY0NDAwYmQxNjNjZDlhNmJkNDk3NGMzOTQxNTdkYjZlMjJkYjAxYjIzNjdmYzhiNzMxZDA1MGJlNjBmNzQxMTZjNDIzNFwiLFwia2V5X2lkXCI6XCIxXCIsXCJzaWduXCI6XCIzMGJlNDJiN1wifSIsInIiOiJodHRwczovL2JqLmxpYW5qaWEuY29tL3p1ZmFuZy9yY28zMS8iLCJvcyI6IndlYiIsInYiOiIwLjEifQ=='
             }
        reponse = requests.get(url=url, headers=headers)
        if reponse.status_code==200:
            reponse.encoding = reponse.apparent_encoding
            # 正则表达式获取需要标题
            pattern = r'<div class="th200">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>\s*<div class="th140">(.*?)</div>'
            matches = re.findall(pattern, reponse.text)
            # 将匹配的结果转换为字典列表
            for match in matches[1:]:
                # 这里有错误
                date_str = match[0]
                # 使用split分割字符串,取第一部分
                date_str = date_str.split(' ')[0]
                #第一个 %Y-%m-%d 在 strptime 函数中起到解析的作用,将字符串 date_only 按照这种格式解释为一个 datetime 对象
                #第二个 %Y-%m-%d 在 strftime 方法中起到格式化的作用,将前面解析得到的 datetime 对象转换回字符串
                #转换回字符串 不会影响存入mysql吗 因为刚才在写入MySQL的Connect_MySQL.py 文件中Date
                #将日期字符串转换回 YYYY-MM-DD 格式的字符串并不会影响其存入MySQL数据库,只要数据库表结构中的对应列是日期类型(如 DATE 或 DATETIME)
                formatted_date = datetime.strptime(date_str, '%Y-%m-%d').strftime('%Y-%m-%d')
                highest_temp = float(match[1].replace('℃', ''))
                lowest_temp = float(match[2].replace('℃', ''))
                weather_data = {'日期':formatted_date , '最高温': highest_temp,'最低温': lowest_temp,
                                '天气状况': match[3]}
                weather_info.append(weather_data)
        return weather_info
    # 创建一个空的DataFrame 且给上columns 名称
    weather_df = pd.DataFrame(columns=['日期', '最高温', '最低温', '天气状况'])
    for month in range(1,13):
       # 202302
        # 三元表达式  凑请求链接
       weather_time = '2022' + ('0' + str(month) if month < 10 else str(month))
       url = 'https://lishi.tianqi.com/xianyang/'+f'{weather_time}.html'
       # 调用函数并将结果添加到DataFrame中
       monthly_weather = getWeather(url)
       monthly_weather_df = pd.DataFrame(monthly_weather)
       weather_df = pd.concat([weather_df, monthly_weather_df])
       # response_time = time.time() - start_time
       # time.sleep(min(response_time, 5) + random.uniform(0.5, 1))
    print(weather_df)
    return weather_df

get_weather_data()

数据库文件:

python 复制代码
# file--Coonect_MySQl
import pymysql
from sqlalchemy import create_engine, MetaData, Table, Column, Float, String, Date
from sqlalchemy.exc import OperationalError

from sqlalchemy import inspect
def save_to_database(weather_df):

    # 定义数据库连接参数
    db_config = {
        'host': '127.0.0.1',  # 数据库地址
        'port': 3307,      # 数据库端口
        'user': 'root',  # 数据库用户名
        'password': '123456',  # 数据库密码
        'database': 'weather',  # 数据库名称
    }

    # 创建数据库引擎
    engine = create_engine(f'mysql+pymysql://{db_config["user"]}:{db_config["password"]}@{db_config["host"]}:{db_config["port"]}/{db_config["database"]}')
    # 测试数据库连接是否成功
    try:
        connection = engine.connect()
        print("数据库连接成功!")
    except Exception as e:
        print(f"数据库连接失败:{str(e)}")

    # 创建表(如果不存在)
    metadata = MetaData()
    table_name = 'weather_data'
    table_columns = [
        Column('日期', Date),
        Column('最高温', Float),
        Column('最低温', Float),
        Column('天气状况', String(255)),
    ]
    weather_table = Table(table_name, metadata, *table_columns,  extend_existing=True)

    # 检查表是否存在,如果不存在则创建表
    inspector = inspect(engine)
    if not inspector.has_table(table_name):
        # 注意这里需要传递 engine 到 create_all 方法中
        metadata.create_all(bind=engine)
    # 检查表是否存在,如果不存在则创建表
    try:
        metadata.create_all(engine)
    except OperationalError as oe:
        if "already exists" in str(oe):  # 如果表已存在则忽略错误
            print("cunza")
        else:
            raise oe
    print("表 'weather_data' 已经检查并创建完毕(如有必要)")
    # 将数据写入数据库
    if weather_df is not None and not weather_df.empty:
        weather_df.to_sql(name=table_name, con=engine, if_exists='append', index=False, dtype={
            '日期': Date,
            '最高温': Float,
            '最低温': Float,
            '天气状况': String(255),
        })
        print("数据已成功写入 'weather_data' 表.")
    else:
        print("未找到待写入数据库的数据.")

主文件充当运行程序运行文件

python 复制代码
from my_project.tianqi.tianqi import get_weather_data
from my_project.database.Connect_MySQL import save_to_database
def main():
    weather_df = get_weather_data()
    save_to_database(weather_df)

if __name__ == "__main__":
    main()

这是效果:


这里的很多技术难点我都是问的大模型,他们很聪明,完全能应付一些简单日常的问题。

希望帮到大家,祝大家安康

相关推荐
猿小喵几秒前
DBA之路,始于足下
数据库·dba
tyler_download9 分钟前
golang 实现比特币内核:实现基于椭圆曲线的数字签名和验证
开发语言·数据库·golang
weixin_4493108435 分钟前
高效集成:聚水潭采购数据同步到MySQL
android·数据库·mysql
CodingBrother36 分钟前
MySQL 和 PostgreSQL 的使用案例
mysql·adb·postgresql
Cachel wood1 小时前
Github配置ssh key原理及操作步骤
运维·开发语言·数据库·windows·postgresql·ssh·github
standxy2 小时前
如何将钉钉新收款单数据高效集成到MySQL
数据库·mysql·钉钉
Narutolxy3 小时前
MySQL 权限困境:从权限丢失到权限重生的完整解决方案20241108
数据库·mysql
Venchill3 小时前
安装和卸载Mysql(压缩版)
数据库·mysql
Humbunklung3 小时前
一种EF(EntityFramework) MySQL修改表名去掉dbo前缀的方法
数据库·mysql·c#
PGCCC4 小时前
【PGCCC】postgresql 缓存池并发设计
数据库·缓存·postgresql