『玩转Streamlit』--缓存机制

Streamlit 应用在运行时,每次用户交互都会触发整个脚本的重新执行。

这意味着一些耗时操作,如数据加载、复杂计算和模型训练等,可能会被重复执行,严重影响应用响应速度。

本文介绍的缓存机制 能够帮助我们解决这些问题,提高Streamlit 应用的性能。

Streamlit缓存机制 就像是给应用配备了一个**"记忆助手"**,它允许开发者将特定函数的计算结果保存下来,当下次相同输入再次调用该函数时,无需重新执行函数,直接返回缓存结果,极大地提高了应用运行效率,减少等待时间。

1. 为什么需要缓存

Streamlit的机制是每次用户交互或代码更改时都会重新运行脚本,这样就导致了:

  1. 重复计算:长时间运行的函数可能会被多次调用,导致应用响应变慢
  2. 资源浪费:频繁加载和处理大量数据会消耗大量内存和计算资源
  3. 用户体验差:应用加载时间过长,影响用户交互体验

为了解决这些问题,Streamlit提供了缓存机制。

缓存机制 就像是给应用配备了一个**"记忆助手"**,它允许开发者将特定函数的计算结果保存下来,当下次相同输入再次调用该函数时,无需重新执行函数,直接返回缓存结果。

通过缓存函数的输出结果,避免重复计算,能够显著提高应用的性能和响应速度。

2. 两种缓存装饰器

Streamlit提供了两种缓存装饰器:st.cache_datast.cache_resource,它们的主要区别在于缓存的对象类型和使用场景。

2.1. st.cache_data

st.cache_data是用于缓存数据的装饰器。

适用于缓存函数的输出结果,特别是那些返回可序列化数据对象的函数(如 Pandas DataFrameNumPy 数组、字符串、整数等)。

它的主要参数有:

  • ttl:缓存的生存时间(以秒为单位)。超过该时间后,缓存将失效并重新计算。
  • max_entries:缓存中允许的最大条目数。超出该数量时,最旧的缓存条目将被删除。
  • persist:是否将缓存持久化到磁盘上。默认为False
  • show_spinner:是否显示加载动画。默认为True
  • allow_output_mutation:是否允许返回值被修改。默认为False,建议谨慎使用。

2.2. st.cache_resource

st.cache_resource是用于缓存资源的装饰器。

适用于缓存那些需要初始化但不需要频繁重新计算的对象,如数据库连接、模型加载等。

它的主要参数有:

  • ttlmax_entries:与st.cache_data相同。
  • show_spinner:是否显示加载动画。默认为True
  • allow_output_mutation:是否允许返回值被修改。默认为False

2.3. 两者区别总结

st.cache_data st.cache_resource
使用场景 适用于缓存函数的输出结果,特别是那些返回可序列化数据对象的函数 适用于缓存那些需要初始化但不需要频繁重新计算的对象,如数据库连接、模型加载等
特点 缓存的是函数的输出结果,适合频繁调用且输出结果可能变化的场景 缓存的是资源对象本身,适合初始化耗时但不需要频繁更新的场景
缓存内容示例 从 API 获取数据、加载 CSV 文件、数据处理等 加载预训练模型、建立数据库连接等

3. 缓存使用示例

下面通过示例来演示这两种缓存装饰器的使用。

3.1. st.cache_data示例

假设我们有一个应用,需要从API获取数据并展示给用户。

由于数据加载可能需要较长时间,我们可以使用st.cache_data来缓存结果。

python 复制代码
import streamlit as st
import requests
import pandas as pd

# 使用 st.cache_data 缓存数据加载
@st.cache_data(ttl=3600)  # 缓存 1 小时
def fetch_data(api_url):
    response = requests.get(api_url)
    data = response.json()
    df = pd.DataFrame(data)
    return df

# 用户界面部分
st.title("使用 st.cache_data 缓存数据加载")
api_url = "https://jsonplaceholder.typicode.com/posts"
df = fetch_data(api_url)
st.write(df)

在这个例子中,fetch_data函数被@st.cache_data装饰器修饰。

第一次调用时,数据会被加载并缓存,后续调用时直接从缓存中读取,避免重复请求 API

直至1小时后,缓存失效之后才能重新请求。

3.2. st.cache_resource示例

假设我们有一个机器学习应用,需要加载一个预训练的模型。

由于模型加载可能需要较长时间,我们可以使用st.cache_resource来缓存模型对象。

python 复制代码
import streamlit as st
import joblib

# 使用 st.cache_resource 缓存模型加载
@st.cache_resource
def load_model(model_path):
    model = joblib.load(model_path)
    return model

# 用户界面部分
st.title("使用 st.cache_resource 缓存模型加载")
model_path = "path/to/your/model.pkl"
model = load_model(model_path)
st.write("模型已加载,可以进行预测!")

在这个例子中,load_model函数被@st.cache_resource装饰器修饰。

模型加载后会被缓存,后续调用时直接从缓存中读取,避免重复加载。

4. 总结

Streamlit的缓存机制通过st.cache_datast.cache_resource提供了强大的性能优化功能。

它们可以帮助开发者减少重复计算、节省资源,并显著提高应用的响应速度。

在实际开发中,开发者可以根据需求选择合适的缓存装饰器:

  • 如果需要缓存函数的输出结果,使用st.cache_data
  • 如果需要缓存初始化的资源对象,使用st.cache_resource

合理使用缓存机制,可以让 Streamlit 应用更加高效和流畅,提升用户体验。

相关推荐
wang_yb1 天前
manim边学边做--标准相机
databook·manim
wang_yb2 天前
manim边学边做--相机Camera简介
databook·manim
wang_yb3 天前
『Python底层原理』--Python整数为什么可以无限大
python·databook
wang_yb3 天前
『Python底层原理』--Python属性的工作原理
python·databook
wang_yb5 天前
『Python底层原理』--Python对象系统探秘
python·databook
wang_yb7 天前
『Python底层原理』--CPython的变量实现机制
python·databook
wang_yb8 天前
用 just 简化项目命令管理
databook
wang_yb16 天前
『玩转Streamlit』--会话状态管理
streamlit·databook
wang_yb16 天前
manim边学边做--通用变换
databook·manim