2024.4.17 Python爬虫复习day05 可视化

day05_数据可视化和程序日志

准备web服务器

注意: 记得把source资源到项目中

python 复制代码
# 1.导包
from fastapi import FastAPI
from fastapi import Response
import uvicorn

# 2.创建对象
app = FastAPI()


# 3.使用对象接收浏览器请求,并且使用对象给浏览器响应资源
# 注意: get中传入请求的资源路径
@app.get('/')
def func():
    # 自动跳转首页
    with open('source/html/index.html', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


@app.get('/{html_name}')
def func(html_name: str):
    # 自动跳转页面
    with open(f'source/html/{html_name}', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


@app.get('/images/{img_name}')
def func(img_name: str):
    with open(f'source/images/{img_name}', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


@app.get('/video/{vi_name}')
def func(vi_name: str):
    with open(f'source/video/{vi_name}', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


# 4.启动服务器(指定fastapi对象,主机地址,端口号)
uvicorn.run(app,host='127.0.0.1',port=9091)

数据可视化

1.爬取数据

python 复制代码
# 1.导包
import requests
import re

# 2.准备有效的url
url = 'http://127.0.0.1:9091/gdp.html'
# 3.发送url请求,获取web服务器返回的响应对象
response = requests.get(url)
# 4.从响应对象中提取页面数据,并转为字符串类型
html_str = response.content.decode()
# print(html_str)
# 5.使用正则表达式匹配自己想要的资源
gdp_data = re.findall('<a href=""><font>(.+?)</font>.*?¥(.+?)亿元', html_str, re.S)
print(gdp_data)
# 6.数据保存(目的:为了下一次直接使用)
with open('gdp.txt', 'w', encoding='utf8') as f:
    f.write(str(gdp_data))

2.读取数据

python 复制代码
# 需求: 根据之前爬取的数据进行数据可视化
# 从之前爬取数据存储文件中读出数据
with open('gdp.txt', 'r', encoding='utf8') as f:
    # 注意: 数据是字符串类型的
    data = f.read()

# 把data转为列表数据也就是'[(...),(...)]' 转变为 [(...),(...)]
# 注意: eval不能随便使用,只是去除两端的引号,让里面的数据变成本身所属类型
gdp_list = eval(data)
print(gdp_list)
print(type(gdp_list))

3.pyecharts制作饼图

properties 复制代码
echarts: 百度开源的一个数据可视化工具

pyecharts: python版本的echarts工具

使用pyecharts步骤
	1.安装: pip install pyecharts
	2.导包: import pyecharts
	3.使用: 可以制作饼图,折线图,地图等可视化页面
python 复制代码
# 0.定义函数获取要展示的数据
def get_gdp_list():
    # 从之前爬取数据存储文件中读出数据
    with open('gdp.txt', 'r', encoding='utf8') as f:
        # 注意: 数据是字符串类型的
        data = f.read()

    # 把data转为列表数据也就是'[(...),(...)]' 转变为 [(...),(...)]
    # 注意: eval不能随便使用,只是去除两端的引号,让里面的数据变成本身所属类型
    gdp_list = eval(data)
    return gdp_list


# 1.导包
from pyecharts.charts import Pie
import pyecharts.options as opts

# 2.创建饼图对象
pie = Pie(init_opts=opts.InitOpts(width='1500px', height='800px'))

# 3.给饼图对象添加数据
# 先获取数据
gdp_list = get_gdp_list()
# 添加数据
pie.add('gdp数据',
        gdp_list[:10],
        label_opts=opts.LabelOpts(formatter='{b}:{d}%')
)
# 4.给饼图设置标题
pie.set_global_opts(title_opts=opts.TitleOpts(title='2023_GDP数据',subtitle='斌子制作'))

# 5.渲染成页面
# 注意: 默认路径是当前路径下生成render.html页面
# 也可以像下面那样指定页面路径和文件名
pie.render('source/html/my_render.html')

程序日志

知识点:

properties 复制代码
python中日志模块: logging

日志作用:
	1.查看程序的运行情况
	2.方便开发人员查看bug
	3.方便分析用户的行为和喜好
	
日志等级: 
	DEBUG :(数字10代表)调试信息
	INFO: (数字20代表)正常运行信息
	WARNING: (数字30代表)警告信息(默认)
	ERROR: (数字40代表)错误信息
	CRITICAL: (数字50代表)危险信息
	
日志优先级:  DEBUG < INFO  < WARNING  < ERROR < CRITICAL

入门

python 复制代码
# 1.导包
import logging

# 2.使用
# 直接运行如下代码,观察结果: 只打印了从warning开始的三行日志信息
# 注意: 默认等级是WARNING: WARNING以及WARNING以上的信息会被打印
logging.debug('这是一个调试信息...')
logging.info('这是一个正常运行信息...')
logging.warning('这是一个警告信息...')
logging.error('这是一个错误信息...')
logging.critical('这是一个危险信息...')

格式化输出到控制台

python 复制代码
# 1.导包
import logging

# 2.使用
# 注意: 如果要修改配置,需要先修改再打印信息才会生效
# 修改日志等级
logging.basicConfig(
    level=logging.DEBUG,
    format='时间:%(asctime)s,程序名:%(filename)s,行号:%(lineno)d,%(levelname)s信息:%(message)s'
)
# 直接运行如下代码,观察结果: 只打印了从warning开始的三行日志信息
# 注意: 默认等级是WARNING: WARNING以及WARNING以上的信息会被打印
logging.debug('这是一个调试信息...')
logging.info('这是一个正常运行信息...')
logging.warning('这是一个警告信息...')
logging.error('这是一个错误信息...')
logging.critical('这是一个危险信息...')

格式化输出到文件

python 复制代码
# 1.导包
import logging

# 2.使用
# 注意: 如果要修改配置,需要先修改再打印信息才会生效
logging.basicConfig(
    level=logging.DEBUG,  # 修改日志等级
    format='时间:%(asctime)s,程序名:%(filename)s,行号:%(lineno)d,%(levelname)s信息:%(message)s',  # 格式化
    filename='my_log.txt',  # 指定要保存的文件名
    filemode='w'  # 默认模式是追加a
)
# 日志信息
logging.debug('这是一个调试信息...')
logging.info('这是一个正常运行信息...')
logging.warning('这是一个警告信息...')
logging.error('这是一个错误信息...')
logging.critical('这是一个危险信息...')

日志版本web服务器

python 复制代码
# 1.导包
from fastapi import FastAPI
from fastapi import Response
import uvicorn
import logging

# 2.创建对象
app = FastAPI()

# 5.修改日志等级和输出日志到文件
# 注意: 如果要修改配置,需要先修改再打印信息才会生效
logging.basicConfig(
    level=logging.DEBUG,  # 修改日志等级
    format='时间:%(asctime)s,程序名:%(filename)s,行号:%(lineno)d,%(levelname)s信息:%(message)s',  # 格式化
    filename='web_log.txt',  # 指定要保存的文件名
    filemode='w'  # 默认模式是追加a
)


# 3.使用对象接收浏览器请求,并且使用对象给浏览器响应资源
# 注意: get中传入请求的资源路径
@app.get('/')
def func():
    # 记录日志信息
    logging.info('用户访问了首页')
    # 自动跳转首页
    with open('source/html/index.html', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


@app.get('/{html_name}')
def func(html_name: str):
    # 记录日志信息
    logging.info(f'用户访问了{html_name}资源')
    # 自动跳转页面
    with open(f'source/html/{html_name}', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


@app.get('/images/{img_name}')
def func(img_name: str):
    # 记录日志信息
    logging.info(f'用户访问了{img_name}图片文件')
    # 自动跳转图片
    with open(f'source/images/{img_name}', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


@app.get('/video/{vi_name}')
def func(vi_name: str):
    # 记录日志信息
    logging.info(f'用户访问了{vi_name}视频文件')
    # 自动返回视频资源
    with open(f'source/video/{vi_name}', 'rb') as f:
        data = f.read()
    res = Response(data)
    return res


# 4.启动服务器(指定fastapi对象,主机地址,端口号)
uvicorn.run(app, host='127.0.0.1', port=9099)

# 客户端通过: http://127.0.0.1:9099/ 访问
相关推荐
oliveira-time14 分钟前
爬虫学习6
爬虫
凤枭香17 分钟前
Python OpenCV 傅里叶变换
开发语言·图像处理·python·opencv
测试杂货铺24 分钟前
外包干了2年,快要废了。。
自动化测试·软件测试·python·功能测试·测试工具·面试·职场和发展
艾派森29 分钟前
大数据分析案例-基于随机森林算法的智能手机价格预测模型
人工智能·python·随机森林·机器学习·数据挖掘
小码的头发丝、1 小时前
Django中ListView 和 DetailView类的区别
数据库·python·django
Chef_Chen2 小时前
从0开始机器学习--Day17--神经网络反向传播作业
python·神经网络·机器学习
千澜空2 小时前
celery在django项目中实现并发任务和定时任务
python·django·celery·定时任务·异步任务
斯凯利.瑞恩2 小时前
Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户附数据代码
python·决策树·随机森林
yannan201903132 小时前
【算法】(Python)动态规划
python·算法·动态规划
蒙娜丽宁3 小时前
《Python OpenCV从菜鸟到高手》——零基础进阶,开启图像处理与计算机视觉的大门!
python·opencv·计算机视觉