翻译: 使用 GPT-4 自动诊断Streamlit性能问题

GPT-4 提升Streamlit 应用系列

1. 从缓慢到快速,使用 GPT-4 来提高应用程序性能

Web 应用程序需要足够快。快速的网络应用程序可以让用户满意并回访更多。

加速 Streamlit 应用程序的最佳方法之一是利用缓存方法。简而言之,这些方法通过消除冗余的重新计算来优化性能。

Streamlit 提供两种缓存机制@st.cache_data@st.cache_resource

  • @st.cache_data 非常适合返回 DataFrame 和数组等数据类型的函数。它通过序列化解决突变和并发问题。
  • @st.cache_resource 专为缓存全局资源而定制,例如 ML 模型或数据库连接。

下面我创建了一个具有次优编码的应用程序,导致性能问题:

python 复制代码
import streamlit as st
import pandas as pd
import sqlalchemy as db
import requests
import tensorflow as tf

price = st.number_input("House Price", min_value=100000, max_value=10000000, step=100000)
def load_data():
    return pd.read_csv('large_dataset.csv')
data = load_data()
used_columns = ['Column1', 'Column2', 'Column3']
data = data[used_columns]
def download_model():
    url = "<https://example.com/large-model.h5>"
    response = requests.get(url)
    with open('large-model.h5', 'wb') as f:
        f.write(response.content)
download_model()
model = tf.keras.models.load_model('large-model.h5')
def load_efficient_data():
    return pd.read_parquet('efficient_data.parquet')
efficient_data = load_efficient_data()
database_uri = 'sqlite:///example.db'
engine = db.create_engine(database_uri)
query = "SELECT * FROM large_table WHERE condition = true"
db_data = pd.read_sql_query(query, con=engine)

如果您将此代码粘贴到 ChatGPT 并请求性能改进 --- GPT-4 可以在几秒钟内识别需要改进的领域!

prompt:

请一步一步分析下面代码的性能问题,并提供解决方案

2. 优化输出

提供的代码片段存在多个性能问题,可能会显著影响Streamlit应用程序的效率和响应能力。让我们逐步分析它们并提出解决方案:

2.1. 加载大型数据集

python 复制代码
def load_data():
    return pd.read_csv('large_dataset.csv')
data = load_data()

问题:每次运行脚本都直接使用pd.read_csv()加载大型数据集可能非常低效,特别是对于Streamlit应用程序,因为每次用户输入更改时都会重新运行脚本。

解决方案:使用Streamlit的@st.cache装饰器缓存数据加载函数,以防止在每次交互时重新加载来自CSV文件的数据。

2.2. 冗余数据加载

python 复制代码
used_columns = ['Column1', 'Column2', 'Column3']
data = data[used_columns]

问题:首先加载整个数据集,然后只使用特定列。如果数据集很大,只需要少数列,这是低效的。

解决方案:修改load_data函数,只加载所需的列。

2.3 在每次运行时下载模型

python 复制代码
def download_model():
    url = "<https://example.com/large-model.h5>"
    response = requests.get(url)
    with open('large-model.h5', 'wb') as f:
        f.write(response.content)
download_model()

问题:每次运行脚本时都会从URL下载模型。这是非常低效的,特别是对于大型模型来说。

解决方案:在下载之前检查模型文件是否已经存在。或者,可以使用 @st.cache 装饰器来优化模型下载函数。

2.4. 在每次运行时加载TensorFlow模型

python 复制代码
model = tf.keras.models.load_model('large-model.h5')

问题:加载大型TensorFlow模型可能会耗费时间,并且在每次运行时都要进行加载。

解决方案:使用@st.cache缓存模型加载。

2.5. 低效的数据格式

python 复制代码
def load_efficient_data():
    return pd.read_parquet('efficient_data.parquet')
efficient_data = load_efficient_data()

问题:虽然通常使用Parquet比CSV更高效,但每次加载大文件仍然可能很慢。

解决方案:使用@st.cache缓存Parquet文件的加载。

2.6 数据库查询

python 复制代码
database_uri = 'sqlite:///example.db'
engine = db.create_engine(database_uri)
query = "SELECT * FROM large_table WHERE condition = true"
db_data = pd.read_sql_query(query, con=engine)

问题:每次执行脚本时都会运行数据库查询。这可能会很慢,效率低下,特别是对于大型查询来说。

解决方案:使用 @st.cache 缓存查询结果。还要确保查询经过优化,只获取必要的数据。

3. 应用这些解决方案后,代码可能如下所示:

python 复制代码
import streamlit as st
import pandas as pd
import sqlalchemy as db
import requests
import tensorflow as tf
import os

@st.cache
def load_data():
    return pd.read_csv('large_dataset.csv', usecols=['Column1', 'Column2', 'Column3'])

@st.cache(allow_output_mutation=True)
def download_model(model_url, model_path):
    if not os.path.exists(model_path):
        response = requests.get(model_url)
        with open(model_path, 'wb') as f:
            f.write(response.content)

@st.cache(allow_output_mutation=True)
def load_model(model_path):
    return tf.keras.models.load_model(model_path)

@st.cache
def load_efficient_data():
    return pd.read_parquet('efficient_data.parquet')

@st.cache
def load_db_data(query, engine):
    return pd.read_sql_query(query, con=engine)

price = st.number_input("House Price", min_value=100000, max_value=10000000, step=100000)
data = load_data()

model_url = "<https://example.com/large-model.h5>"
model_path = 'large-model.h5'
download_model(model_url, model_path)
model = load_model(model_path)

efficient_data = load_efficient_data()

database_uri = 'sqlite:///example.db'
engine = db.create_engine(database_uri)
query = "SELECT * FROM large_table WHERE condition = true"
db_data = load_db_data(query, engine)

这个经过修订的代码效率更高,应该会显著提升应用程序的性能。

代码

https://github.com/zgpeace/pets-name-langchain/tree/develop

参考

https://blog.streamlit.io/take-your-streamlit-apps-to-the-next-level-with-gpt-4/

相关推荐
lizhihai_993 分钟前
股市学习心得—半导体12种核心材料
大数据·人工智能·学习
STLearner3 分钟前
SIGIR 2026 | LLM × Graph论文总结(图增强LLM,GraphRAG,Agent,多模态,知识图谱,搜索,推
人工智能·python·深度学习·神经网络·机器学习·数据挖掘·知识图谱
FreakStudio5 分钟前
MicroPython 内核开发者直接狂喜!这个 Claude 插件市场,把开发全流程做成了「对话式外挂」
python·单片机·嵌入式·面向对象·并行计算·电子diy
研究点啥好呢6 分钟前
快手产品经理面试题精选:10道高频考题+答案解析
人工智能·面试·产品经理
戋风12 分钟前
从源码到实战:LangChain4j 1.14 完整学习指南(14 课全解)
langchain
流年似水~14 分钟前
脚本策划:拍之前先想清楚要剪什么
人工智能·程序人生·语言模型·ai编程
郑寿昌17 分钟前
思维链三步法:让AI像人类一样推理
人工智能
圣殿骑士-Khtangc21 分钟前
AI Agent架构演进与三层安全防御体系深度解析
人工智能
ZGi.ai23 分钟前
智能客服系统设计:从工单分类到自动派单的工程实现
大数据·人工智能·分类
老陈说编程23 分钟前
12. LangChain 6大核心调用方法:invoke/stream/batch同步异步全解析,新手也能轻松学会
开发语言·人工智能·python·深度学习·机器学习·ai·langchain