传统机器学习（如xgboost、随机森林等）和深度学习（如LSTM等）在时间序列预测各有什么优缺点？

传统机器学习方法（如XGBoost、随机森林）在时间序列预测中通常需要将时间序列数据转换为监督学习格式。这类方法的优势在于训练速度快、可解释性强，并且在中小规模数据集上往往表现稳健。此外，它们对超参数的敏感度相对较低，调参成本较小。然而，其缺点在于难以自动捕捉长期依赖关系和复杂的时序动态模式，特征工程的质量极大影响模型性能，且无法像深度学习那样端到端地学习时间结构。

相比之下，深度学习模型（如LSTM、GRU、Transformer等）能够直接处理原始时间序列，自动学习时间依赖性和非线性模式，尤其擅长捕捉长期记忆和复杂动态。LSTM等循环神经网络在理论上可以建模任意长度的历史信息，在大规模数据下通常优于传统方法。不过，深度学习模型通常需要大量数据才能发挥优势，训练过程计算成本高、耗时长，且模型可解释性差。此外，它们对超参数（如学习率、网络结构）较为敏感，调优难度较大。

维度	传统机器学习	深度学习
数据需求	对数据量要求较低，适用于中小规模数据集（几百至几万条样本）	通常需要大量数据（数万条以上）才能充分训练，避免过拟合
特征工程	依赖人工构造时序特征（如滞后项、滑动窗口统计量、差分、季节性指标等），特征质量直接影响性能	可端到端学习原始时间序列，自动提取时序特征，减少人工干预
建模能力	擅长捕捉非线性关系，但难以建模长期依赖和复杂动态模式；对周期性、趋势需显式编码	能有效建模长期依赖（尤其 LSTM/GRU）、非平稳性、多尺度模式；Transformer 还可捕获全局上下文
训练效率	训练速度快，资源消耗低，适合快速迭代和部署	训养时间长，计算资源需求高（尤其 GPU），调参和训练成本高
可解释性	高：可输出特征重要性、决策路径等，便于业务理解和调试	低：模型为"黑箱"，内部机制复杂，难以直观解释预测依据
超参数敏感性	相对稳健，调参空间较小（如树深度、学习率、子采样率等）	高度敏感，需精细调整（如层数、隐藏单元数、学习率调度、Dropout 等）
多步预测能力	通常采用递归策略（Recursive）或多输出回归，误差易累积	支持直接多步预测（Direct 或 Sequence-to-Sequence），部分架构（如 Transformer）天然适合序列生成
处理缺失值/噪声	随机森林等对缺失值和噪声具有一定鲁棒性	通常需预处理（插值、标准化等），对输入质量较敏感
典型使用场景	- 业务指标短期预测 - 数据量有限或标注成本高 - 需要模型可解释性 - 特征工程知识丰富	- 长期依赖明显的场景 - 大规模自动化预测系统
代表工具/库	scikit-learn, XGBoost, LightGBM, CatBoost	TensorFlow, PyTorch, Keras, Darts, GluonTS