【排队论】Probabilistic Forecasts of Bike-Sharing Systems for Journey Planning

Probabilistic Forecasts of Bike-Sharing Systems forJourney Planning

abstract

我们研究了对共享单车系统(BSS)车站未来自行车可用性进行预测的问题。这是相关的,以便提出建议,保证用户能够进行旅行的概率足够高。为此,我们使用从BSS的排队理论时间非均匀模型中获得的概率预测。该模型已参数化,并使用巴黎市V'elib'BSS的历史数据成功验证。

我们对共享单车研究中常用的标准均方根误差(RMSE)进行了批判,将其作为预测准确性的指标,因为它没有考虑到真实系统中固有的随机性。相反,我们引入了一种基于评分规则的新指标。我们将模型的平均得分与文献中使用的经典预测因子进行比较。我们证明,在长达几个小时的预测范围内,我们的模型的表现优于这些模型。我们还讨论了,一般来说,测量当前可用自行车的数量仅适用于长达几个小时的预测范围。

一、要点

核心问题:如何预测共享单车站点未来自行车的可用性?

目标: 为用户提供高概率的行程可行性建议。

方法: 基于排队理论的时间非齐次模型。

数据验证:使用巴黎Vlib'系统的历史数据进行模型参数化和验证。

1.1 传统预测方法的局限性:RMSE的困局

传统方法采用RMSE(预测值和实际值的均方误差)进行评估,其在共享单车系统中具有局限性。忽略了系统的随机性(不可能完全准确,且永远不能为0),无法满足用户需求(无法表明用户是否借到车),RMSE具有下界。

  • 传统指标:均方根误差(RMSE)广泛用于评估预测精度,
  • 根本缺陷:RMSE未能充分考虑共享单车系统的固有随机性。这样导致预测误差不可避免。
  • 理想情况下的RMSE:即使拥有完美信息,RMSE也无法达到零。经过案例研究,不同参数设置下,最佳预测器的RMSE仍然较高。
  • 用户需求与RMSE脱节:用户更关心"能否成功骑行",而非精确的自行车数量。

1.2 概率预测的优势:超越点估计

  • 概率预测:预测未来自行车数量的概率分布,而非单一数值。
  • 用户价值:直接提供用户关心的信息,如"出发站有自行车的概率"
  • 系统优化:帮助运营商识别高风险站点,优化调度。
  • 更全面的信息:提供更丰富的决策依据,例如平均值、方差等。

预测某个站点在半个小时后有车的概率是85%,对 用户 来说告诉成功的可能性有多大,对于 运行商 来说可识别哪些站点更容易出现空战或者满战的情况,从而进行更精准的调度。

二、数学模型

具体模型设计待补充

三、排队论模型:共享单车站点的数学建模

3.1 模型特点

核心思想:将共享单车站点建模为一个排队论系统。站点的两个过程--取车和还车--不是匀速的且是随机的;用时间非齐次性泊松过程的数学模型来描述;到达过程、离去过程都服从泊松过程。

  • 时间非齐次性:充分考虑一天内不同时间段用户行为的差异(例如,早晚高峰到达和离开的速率肯定不一致)
  • 泊松过程假设:简化模型,便于参数估计和分析
  • 站点独立假设:简化分析,适用于大规模BSS网络(现实中站点之间会相互影响,但在站点数量足够多的情况下,这个假设盒里,且被一些理论和实证研究支持。)

模型的亮点在于抓住共享单车系统随机性的特点,还能预测出未来某个时间点站内的有多少车的概率是多少。

3.2 模型参数

例如,每15分钟一段,统计每段内多少车被取走,又有多少车被还回来。

  • 参数估计:使用Vlib'系统历史数据估计到达率和离开率。
  • 分段常数假设: 将一天划分为多个时间窗口,假设在每个窗口内速率恒定

3.3 模型验证

  • 模型验证:验证到达和离开过程是否符合泊松分布。
  • K-S检验:使用Kolmogorov-Smirnov检验评估数据与泊松分布的拟合程度。
    结果表明,大部分站点的数据确实比较接近泊松分布,验证了假设是靠谱的。

四、概率评分规则:评估概率预测的新标准

4.1 评分规则

传统方法采用RMSE(预测值和实际值的均方误差)进行评估,其在共享单车系统中具有局限性。忽略了系统的随机性(不可能完全准确,且永远不能为0),无法满足用户需求(无法表明用户是否借到车),RMSE具有下界。

即不去预测未来某一个确定的值,而去预测未来某个时间点,站点有X辆车的概率是多少。

衡量判断预测能否帮助用户判断是否成功借到车。

  • 评分规则:用于评估概率预测准确性的度量标准。
  • Proper Scoring Rule:鼓励预测者诚实报告真实概率分布。
  • 常用评分规则:Brier score, Spherical score, Logarithmic score.
  • 用户中心评分规则:设计新的评分规则,直接评估行程可行性预测。

4.2 新定义的规则:用户中心评分规则

  • 用户需求:用户更关心"是否有自行车可用",而非具体数量。
  • 阈值策略:用户根据预测概率p和阈值 p ∗ p^* p∗、决定是否前往站点。
  • 评分规则设计:基于用户效用函数(衡量用户满意度),设计新的评分规则,

用户有一个效用函数,用于衡量用户满意度。比如,成功借到车的效用高于没借到车的效用,用户会根据预测的概率p和一个自己设定的阈值 p ∗ p^* p∗来决定是否去站点。如果预测概率大于等于阈值,就去;否则不去。评分规则是根据用户最终的决策结果和实际发生的情况来打分。

理解:用户会预测去完站点i有车的概率为p=85%,若大于其阈值 p ∗ p^* p∗=80% ,执行Go.去了之后能不能借到车是一个新的效用函数。因为现实情况是可能借到车,也可能借不到。

用户因为预测做出了正确的决策,得分就高;反之,则低。

这样可以直接评估模型在帮助用户决策方面的表现。

五、实验结果:概率预测模型的优越性

使用巴黎Vib'的真实数据,比较了我们提出的排队模型(QMP),历史预测模型(HP)和最后值预测模型(LVP)三种方法在不同评分规则下的表现。

预测时长:5min-10h不等

主要发现:

  • QMP模型在中短预测(2-5h)中表现最佳
  • HP模型在长期预测中略有优势
  • LVP模型在所有预测时长中表现最差

六 错误决策概率分析:阈值策略下的模型表现

显然有不同的预测模型p以及不同的阈值p*,那么如何选择正确的模型和阈值是关键的。所以研究者分析了不同预测模型在不同的阈值下,导致错误决策的概率。结果发现,QMP模型表现更好,无论用户设定的阈值是高还是低,它导致错误决策的概率都相对较低。所以QMP模型不仅预测的准,而且能够更好的指导用户的实际决策。

七、结论和展望

结论

  1. 基于排队论的BSS站点可用性预测模型有效
  2. 概率预测和评分规则评估方法更贴合实际需求
  3. QMP模型在中短期预测中优于传统方法

展望

  1. 考虑站点间的相关影响,构建更精细的网络模型
  2. 验证模型在其他BSS数据上的泛化能力
  3. 探索更复杂的用户行为和环境因素对预测的影响。
相关推荐
神经网络与数学建模4 个月前
AHA-RF|人工蜂鸟-随机森林-回归-降维|多变量特征筛选降维-回归预测|Matlab
算法·随机森林·机器学习·matlab·回归·优化·预测
hongyanwin7 个月前
商业预测 初识R
r语言·预测
王小王-1238 个月前
基于大数据的电信诈骗行为可视化系统含预测研究【lightGBM,XGBoost,随机森林】
大数据·随机森林·信息可视化·xgboost·预测·电信诈骗行为预测·基于大数据电信诈骗
汤汤upup10 个月前
论文阅读--《FourierGNN:从纯图的角度重新思考多元时间序列预测》
论文阅读·pytorch·预测·多元时间序列
神经网络与数学建模10 个月前
SSA-CNN-LSTM多输入回归|樽海鞘算法-卷积-长短期神经网络|Matlab
深度学习·matlab·回归·cnn·lstm·预测·智能优化算法
deardao10 个月前
【分布预测】DistPred:回归与预测的无分布概率推理方法
人工智能·机器学习·回归·时间序列·预测·不确定性·不确定性量化
强盛机器学习10 个月前
无人用过!QRTCN-BiLSTM实现区间预测!区间预测全家桶再更新!
人工智能·深度学习·算法·机器学习·matlab·预测
电力程序小学童1 年前
【免费】融合正余弦和柯西变异的麻雀优化算法SCSSA-CNN-BiLSTM双向长短期记忆网络预测模型
matlab·麻雀优化算法·预测·长短期记忆·正余弦
ZShiJ1 年前
泰坦尼克号乘客生存情况预测分析2
分类·数据挖掘·预测