工业领域的Hadoop架构学习~系列文章23：物流行业Hadoop应用实践 - 智能物流的数字化引擎

第23期：物流行业Hadoop应用实践 - 智能物流的数字化引擎

导言：物流行业是数据密集型行业，涵盖仓储、运输、配送、最后一公里等多个环节。本期深入讲解Hadoop在智能仓储、路径优化、需求预测、车辆调度等场景的应用，从数据采集到智能决策，完整呈现物流大数据的落地实践。

23.1 物流大数据平台架构

23.1.1 物流数据平台整体架构

复制代码

┌────────────────────────────────────────────────────────────────────────┐
│                      物流大数据平台架构                                  │
├────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  ┌──────────────────────────────────────────────────────────────────┐ │
│  │                       数据采集层                                    │ │
│  │  ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐        │ │
│  │  │ GPS   │ │ RFID   │ │ 摄像头 │ │ 电子秤 │ │ 手持设备│        │ │
│  │  └────────┘ └────────┘ └────────┘ └────────┘ └────────┘        │ │
│  └──────────────────────────────────────────────────────────────────┘ │
│                                                                         │
│  ┌──────────────────────────────────────────────────────────────────┐ │
│  │                       数据传输层                                    │ │
│  │  ┌────────────────────────────────────────────────────────────┐  │ │
│  │  │  MQTT │ CoAP │ HTTP │ WebSocket │ EDI │                  │  │ │
│  │  └────────────────────────────────────────────────────────────┘  │ │
│  └──────────────────────────────────────────────────────────────────┘ │
│                                                                         │
│  ┌──────────────────────────────────────────────────────────────────┐ │
│  │                       实时处理层                                    │ │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐          │ │
│  │  │  Kafka  │ │ Flink   │ │ 实时OLAP│ │ GeoHash │          │ │
│  │  └──────────┘ └──────────┘ └──────────┘ └──────────┘          │ │
│  └──────────────────────────────────────────────────────────────────┘ │
│                                                                         │
│  ┌──────────────────────────────────────────────────────────────────┐ │
│  │                       离线分析层                                    │ │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐          │ │
│  │  │  Spark  │ │  Hive   │ │  Presto │ │  MLlib  │          │ │
│  │  └──────────┘ └──────────┘ └──────────┘ └──────────┘          │ │
│  └──────────────────────────────────────────────────────────────────┘ │
│                                                                         │
│  ┌──────────────────────────────────────────────────────────────────┐ │
│  │                       应用服务层                                    │ │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐          │ │
│  │  │ 路径规划 │ │ 需求预测 │ │ 车辆调度 │ │ 仓储优化 │          │ │
│  │  └──────────┘ └──────────┘ └──────────┘ └──────────┘          │ │
│  └──────────────────────────────────────────────────────────────────┘ │
│                                                                         │
└────────────────────────────────────────────────────────────────────────┘

23.1.2 物流行业数据特征

sql 复制代码

-- logistics_data_model.sql

-- 1. 订单数据表
CREATE TABLE order_data (
    order_id STRING,
    customer_id STRING,
    order_time TIMESTAMP,
    pickup_location_id STRING,
    pickup_address STRING,
    pickup_lat DOUBLE,
    pickup_lon DOUBLE,
    delivery_location_id STRING,
    delivery_address STRING,
    delivery_lat DOUBLE,
    delivery_lon DOUBLE,
    weight_kg DOUBLE,
    volume_m3 DOUBLE,
    package_count INT,
    service_type STRING,         -- 标准件/加急/冷链
    priority INT,                 -- 优先级
    estimated_delivery_time TIMESTAMP,
    actual_delivery_time TIMESTAMP,
    order_status STRING,          -- pending/picked/packed/in_transit/delivered
    price DECIMAL(10,2),
    PRIMARY KEY (order_id)
) PARTITIONED BY (dt STRING)
CLUSTERED BY (pickup_location_id) INTO 100 BUCKETS;

-- 2. 车辆轨迹数据
CREATE TABLE vehicle_trajectory (
    vehicle_id STRING,
    timestamp TIMESTAMP,
    lat DOUBLE,
    lon DOUBLE,
    speed_kmh DOUBLE,
    heading_deg DOUBLE,
    altitude_m DOUBLE,
    battery_pct DOUBLE,           -- 新能源车电量
    fuel_pct DOUBLE,             -- 燃油车油量
    engine_status STRING,         -- 运行/怠速/熄火
    door_status STRING,          -- 开门/关门
    loading_weight_kg DOUBLE,     -- 当前载重
    geohash STRING,
    PRIMARY KEY (vehicle_id, timestamp)
) PARTITIONED BY (dt STRING);

-- 3. 仓储数据
CREATE TABLE warehouse_data (
    warehouse_id STRING,
    timestamp TIMESTAMP,
    zone_id STRING,
    shelf_id STRING,
    bin_id STRING,
    sku_id STRING,
    sku_name STRING,
    quantity INT,
    max_capacity INT,
    temperature_c DOUBLE,
    humidity_pct DOUBLE,
    last_pick_time TIMESTAMP,
    reorder_point INT,
    reorder_qty INT,
    PRIMARY KEY (warehouse_id, zone_id, shelf_id, bin_id, sku_id)
) PARTITIONED BY (dt STRING);

-- 4. 配送员数据
CREATE TABLE courier_data (
    courier_id STRING,
    timestamp TIMESTAMP,
    lat DOUBLE,
    lon DOUBLE,
    status STRING,               -- idle/in_delivery/break/offline
    current_order_id STRING,
    completed_orders_today INT,
    delivery_score DOUBLE,        -- 配送评分
    vehicle_type STRING,          -- 电动车/自行车/步行
    battery_pct DOUBLE,
    geohash STRING,
    PRIMARY KEY (courier_id, timestamp)
) PARTITIONED BY (dt STRING);

-- 5. 路线规划表
CREATE TABLE route_planning (
    route_id STRING,
    vehicle_id STRING,
    plan_time TIMESTAMP,
    stops ARRAY<STRUCT<
        stop_order INT,
        location_id STRING,
        lat DOUBLE,
        lon DOUBLE,
        order_id STRING,
        arrival_time TIMESTAMP,
        departure_time TIMESTAMP,
        service_time_seconds INT,
        status STRING
    >>,
    total_distance_km DOUBLE,
    total_duration_minutes INT,
    estimated_cost DOUBLE,
    actual_distance_km DOUBLE,
    actual_duration_minutes INT,
    optimization_algorithm STRING,  -- VRP/DPDP/ORTools
    PRIMARY KEY (route_id)
);

23.2 路径优化与车辆调度

23.2.1 车辆路径问题(VRP)建模

python 复制代码

# vrp_optimizer.py
from ortools.constraint_solver import routing_enums_pb2
from ortools.constraint_solver import pywrapcp
import numpy as np

class VehicleRoutingOptimizer:
    """车辆路径优化系统 (VRP)"""
    
    def __init__(self, distances: np.ndarray, demands: list, 
                 vehicle_capacities: list):
        """
        初始化VRP求解器
        
        Args:
            distances: 距离矩阵 (n x n)
            demands: 各点需求量
            vehicle_capacities: 每辆车的容量
        """
        self.distances = distances
        self.demands = demands
        self.vehicle_capacities = vehicle_capacities
        self.n_vehicles = len(vehicle_capacities)
        self.n_locations = len(distances)
        
    def solve_vrp(self, depot_idx: int = 0, 
                   time_limit_seconds: int = 30) -> dict:
        """
        求解CVRP (Capacitated VRP)
        """
        # 创建数据模型
        data_model = {
            'distance_matrix': self.distances.tolist(),
            'demands': self.demands,
            'vehicle_capacities': self.vehicle_capacities,
            'num_vehicles': self.n_vehicles,
            'depot': depot_idx
        }
        
        # 创建路由索引
        manager = pywrapcp.RoutingIndexManager(
            len(data_model['distance_matrix']),
            data_model['num_vehicles'],
            data_model['depot']
        )
        
        # 创建路由模型
        routing = pywrapcp.RoutingModel(manager)
        
        # 距离回调
        def distance_callback(from_index, to_index):
            from_node = manager.IndexToNode(from_index)
            to_node = manager.IndexToNode(to_index)
            return int(data_model['distance_matrix'][from_node][to_node])
        
        transit_callback_index = routing.RegisterTransitCallback(distance_callback)
        routing.SetArcCostEvaluatorOfAllVehicles(transit_callback_index)
        
        # 容量约束回调
        def demand_callback(from_index):
            from_node = manager.IndexToNode(from_index)
            return data_model['demands'][from_node]
        
        demand_callback_index = routing.RegisterUnaryTransitCallback(demand_callback)
        routing.AddDimensionWithVehicleCapacity(
            demand_callback_index,
            0,  # 无 slack
            data_model['vehicle_capacities'],
            True,  # start cumulative to zero
            'Capacity'
        )
        
        # 设置搜索参数
        search_parameters = pywrapcp.DefaultRoutingSearchParameters()
        search_parameters.first_solution_strategy = (
            routing_enums_pb2.FirstSolutionStrategy.PATH_CHEAPEST_ARC
        )
        search_parameters.local_search_metaheuristic = (
            routing_enums_pb2.LocalSearchMetaheuristic.GUIDED_LOCAL_SEARCH
        )
        search_parameters.time_limit.seconds = time_limit_seconds
        
        # 求解
        solution = routing.SolveWithParameters(search_parameters)
        
        if solution:
            return self._extract_solution(routing, manager, solution)
        else:
            return {"status": "NO_SOLUTION"}
    
    def _extract_solution(self, routing, manager, solution) -> dict:
        """提取解决方案"""
        routes = []
        total_distance = 0
        total_load = 0
        
        for vehicle_id in range(self.n_vehicles):
            index = routing.Start(vehicle_id)
            route = []
            route_distance = 0
            route_load = 0
            
            while not routing.IsEnd(index):
                node = manager.IndexToNode(index)
                route.append(node)
                route_load += self.demands[node]
                
                next_index = solution.Value(routing.NextVar(index))
                route_distance += routing.GetArcCostForVehicle(
                    index, next_index, vehicle_id
                )
                index = next_index
            
            route.append(manager.IndexToNode(index))  # 返回 depot
            
            if len(route) > 2:  # 有效路线
                routes.append({
                    "vehicle_id": vehicle_id,
                    "route": route,
                    "distance_km": route_distance / 1000,  # 转换为km
                    "load_kg": route_load
                })
                total_distance += route_distance
                total_load += route_load
        
        return {
            "status": "OPTIMAL" if routing.status() == 1 else "FEASIBLE",
            "routes": routes,
            "total_distance_km": total_distance / 1000,
            "total_load_kg": total_load,
            "vehicle_count": len(routes)
        }
    
    def solve_vrptw(self, time_windows: list, 
                    service_times: list) -> dict:
        """
        求解带时间窗的VRP (VRPTW)
        """
        data_model = {
            'distance_matrix': self.distances.tolist(),
            'demands': self.demands,
            'vehicle_capacities': self.vehicle_capacities,
            'time_windows': time_windows,
            'service_times': service_times,
            'num_vehicles': self.n_vehicles,
            'depot': 0
        }
        
        manager = pywrapcp.RoutingIndexManager(
            len(data_model['distance_matrix']),
            data_model['num_vehicles'],
            data_model['depot']
        )
        
        routing = pywrapcp.RoutingModel(manager)
        
        # 距离回调
        def distance_callback(from_index, to_index):
            from_node = manager.IndexToNode(from_index)
            to_node = manager.IndexToNode(to_index)
            return int(data_model['distance_matrix'][from_node][to_node])
        
        transit_callback_index = routing.RegisterTransitCallback(distance_callback)
        routing.SetArcCostEvaluatorOfAllVehicles(transit_callback_index)
        
        # 容量约束
        def demand_callback(from_index):
            from_node = manager.IndexToNode(from_index)
            return data_model['demands'][from_node]
        
        demand_callback_index = routing.RegisterUnaryTransitCallback(demand_callback)
        routing.AddDimensionWithVehicleCapacity(
            demand_callback_index, 0, data_model['vehicle_capacities'],
            True, 'Capacity'
        )
        
        # 时间窗约束
        def time_callback(from_index, to_index):
            from_node = manager.IndexToNode(from_index)
            to_node = manager.IndexToNode(to_index)
            return int(data_model['distance_matrix'][from_node][to_node] + 
                      data_model['service_times'][from_node])
        
        time_callback_index = routing.RegisterTransitCallback(time_callback)
        routing.AddDimension(
            time_callback_index,
            30 * 60,  # 允许 30 分钟的 slack
            data_model['time_windows'][-1][1] * 60,  # 最大时间
            False, 'Time'
        )
        
        time_dimension = routing.GetDimensionOrDie('Time')
        for location_idx, (start_min, end_min) in enumerate(time_windows):
            if location_idx == 0:  # depot
                continue
            index = manager.NodeToIndex(location_idx)
            time_dimension.CumulVar(index).SetRange(
                start_min * 60, end_min * 60
            )
        
        # 求解
        search_parameters = pywrapcp.DefaultRoutingSearchParameters()
        search_parameters.first_solution_strategy = (
            routing_enums_pb2.FirstSolutionStrategy.PARALLEL_CHEAPEST_INSERTION
        )
        search_parameters.local_search_metaheuristic = (
            routing_enums_pb2.LocalSearchMetaheuristic.GUIDED_LOCAL_SEARCH
        )
        
        solution = routing.SolveWithParameters(search_parameters)
        
        if solution:
            return self._extract_vrptw_solution(routing, manager, solution)
        return {"status": "NO_SOLUTION"}

23.2.2 实时车辆调度系统

python 复制代码

# real_time_dispatch.py
from pyspark.sql import functions as F
from datetime import datetime, timedelta

class RealTimeDispatchSystem:
    """实时车辆调度系统"""
    
    def __init__(self, spark):
        self.spark = spark
        
    def detect_delivery_anomaly(self, route_id: str):
        """
        检测配送异常
        """
        # 获取当前路线计划
        planned_route = self.spark.table("logistics.route_planning").filter(
            col("route_id") == route_id
        ).collect()[0]
        
        # 获取实际轨迹
        actual_trajectory = self.spark.table("logistics.vehicle_trajectory").filter(
            (col("vehicle_id") == planned_route.vehicle_id) &
            (col("timestamp") >= planned_route.plan_time) &
            (col("timestamp") <= current_timestamp())
        ).orderBy("timestamp")
        
        # 检测偏离路线
        deviations = []
        for stop in planned_route.stops:
            expected_arrival = stop.arrival_time
            actual_arrival = self._find_actual_arrival(
                actual_trajectory, stop.lat, stop.lon
            )
            
            if actual_arrival:
                delay_minutes = (actual_arrival - expected_arrival).total_seconds() / 60
                if delay_minutes > 10:
                    deviations.append({
                        "stop_order": stop.stop_order,
                        "expected_time": expected_arrival,
                        "actual_time": actual_arrival,
                        "delay_minutes": delay_minutes,
                        "severity": "HIGH" if delay_minutes > 30 else "MEDIUM"
                    })
        
        # 判断是否需要重新调度
        need_reschedule = len([d for d in deviations if d["severity"] == "HIGH"]) > 0
        
        return {
            "route_id": route_id,
            "deviations": deviations,
            "need_reschedule": need_reschedule,
            "reschedule_reason": self._get_reschedule_reason(deviations)
        }
    
    def dynamic_order_assignment(self, new_orders: list, 
                                 available_vehicles: list):
        """
        动态订单分配
        """
        assignment_results = []
        
        # 按距离和容量匹配
        for order in new_orders:
            best_vehicle = None
            best_score = float('inf')
            
            for vehicle in available_vehicles:
                distance = self._calculate_distance(
                    vehicle["lat"], vehicle["lon"],
                    order["pickup_lat"], order["pickup_lon"]
                )
                capacity_score = vehicle["remaining_capacity"] - order["weight_kg"]
                
                if capacity_score >= 0:
                    score = distance * 0.7 + capacity_score * 0.3
                    if score < best_score:
                        best_score = score
                        best_vehicle = vehicle
            
            if best_vehicle:
                assignment_results.append({
                    "order_id": order["order_id"],
                    "assigned_vehicle_id": best_vehicle["vehicle_id"],
                    "estimated_pickup_time": self._estimate_pickup_time(
                        best_vehicle, order
                    )
                })
                available_vehicles.remove(best_vehicle)
        
        return assignment_results
    
    def predict_delivery_time(self, order_id: str):
        """
        预测配送时间
        """
        order = self.spark.table("logistics.order_data").filter(
            col("order_id") == order_id
        ).collect()[0]
        
        # 获取历史类似订单的配送时间
        similar_orders = self.spark.sql(f"""
            SELECT 
                AVG(TIMESTAMPDIFF(SECOND, order_time, actual_delivery_time) / 3600) 
                    as avg_delivery_hours,
                COUNT(*) as order_count
            FROM logistics.order_data
            WHERE 
                pickup_district = '{order.pickup_location_id}'
                AND delivery_district = '{order.delivery_location_id}'
                AND service_type = '{order.service_type}'
                AND dt >= DATE_SUB(CURRENT_DATE, 30)
        """).collect()[0]
        
        # 考虑当前交通状况
        current_traffic = self._get_current_traffic(
            order.pickup_lat, order.pickup_lon,
            order.delivery_lat, order.delivery_lon
        )
        
        base_time = similar_orders.avg_delivery_hours or 2.0
        traffic_factor = 1.0 + (current_traffic - 0.5) * 0.5  # 0.5为基准
        
        predicted_time_hours = base_time * traffic_factor
        
        return {
            "order_id": order_id,
            "predicted_delivery_hours": predicted_time_hours,
            "estimated_delivery_time": datetime.now() + timedelta(hours=predicted_time_hours),
            "confidence": min(0.95, similar_orders.order_count / 100)
        }

23.3 仓储优化

23.3.1 智能仓储布局优化

python 复制代码

# warehouse_optimization.py
import numpy as np
from scipy.optimize import minimize

class WarehouseOptimizationSystem:
    """仓储优化系统"""
    
    def __init__(self, spark):
        self.spark = spark
        
    def optimize_sku_placement(self, warehouse_id: str):
        """
        优化SKU摆放位置
        基于ABC分类 + 拣选频率
        """
        # 获取SKU分析数据
        sku_analysis = self.spark.table("logistics.sku_analysis").filter(
            col("warehouse_id") == warehouse_id
        ).collect()
        
        # ABC分类
        # A类: 销售额前20%, 订单覆盖80%
        # B类: 销售额中间30%, 订单覆盖15%  
        # C类: 销售额后50%, 订单覆盖5%
        
        sorted_skus = sorted(sku_analysis, key=lambda x: x.sales_volume, reverse=True)
        total_sales = sum(s.sales_volume for s in sku_analysis)
        
        placements = []
        cumulative_sales = 0
        
        for i, sku in enumerate(sorted_skus):
            cumulative_sales += sku.sales_volume
            ratio = cumulative_sales / total_sales
            
            # 根据累计销售确定分区
            if ratio <= 0.8:
                zone = "A"
                distance_to_pick = 10  # 米
            elif ratio <= 0.95:
                zone = "B"
                distance_to_pick = 30
            else:
                zone = "C"
                distance_to_pick = 50
            
            # 拣选频率高的放在靠近出入口
            pick_score = sku.pick_frequency / max(s.pick_frequency for s in sku_analysis)
            optimal_position = int((1 - pick_score) * distance_to_pick) + 10
            
            placements.append({
                "sku_id": sku.sku_id,
                "sku_name": sku.sku_name,
                "abc_class": zone,
                "optimal_distance_m": optimal_position,
                "recommended_shelf_height": "middle" if zone == "A" else "high"
            })
        
        return placements
    
    def predict_inventory_demand(self, warehouse_id: str, 
                                 sku_id: str, horizon_days: int = 30):
        """
        预测库存需求
        """
        # 获取历史销售数据
        sales_history = self.spark.table("logistics.order_data").filter(
            (col("warehouse_id") == warehouse_id) &
            (col("sku_id") == sku_id) &
            (col("dt") >= DATE_SUB(CURRENT_DATE, 90))
        ).groupBy("dt").agg(
            sum("quantity").alias("daily_sales")
        ).orderBy("dt")
        
        # 使用指数平滑预测
        sales_list = [row.daily_sales for row in sales_history.collect()]
        
        if len(sales_list) < 7:
            return {"error": "insufficient data"}
        
        # Holt-Winters 指数平滑
        alpha = 0.3
        beta = 0.1
        
        level = np.mean(sales_list[-7:])
        trend = (np.mean(sales_list[-7:]) - np.mean(sales_list[-14:-7])) / 7
        
        forecasts = []
        for day in range(horizon_days):
            forecast = level + (day + 1) * trend
            forecasts.append(max(0, forecast))
        
        # 安全库存计算
        demand_std = np.std(sales_list)
        service_level = 0.95
        z_score = 1.65  # 95% service level
        
        safety_stock = z_score * demand_std * np.sqrt(horizon_days)
        
        # 建议订货量
        current_inventory = self.spark.table("logistics.warehouse_data").filter(
            (col("warehouse_id") == warehouse_id) &
            (col("sku_id") == sku_id)
        ).agg(sum("quantity")).collect()[0][0] or 0
        
        total_demand = sum(forecasts)
        reorder_point = total_demand + safety_stock
        
        return {
            "warehouse_id": warehouse_id,
            "sku_id": sku_id,
            "current_inventory": current_inventory,
            "forecast": forecasts,
            "total_forecast_30d": total_demand,
            "safety_stock": safety_stock,
            "reorder_point": reorder_point,
            "recommended_order_qty": max(0, reorder_point - current_inventory)
        }
    
    def optimize_replenishment_route(self, warehouse_id: str):
        """
        优化补货路径
        """
        # 获取需要补货的货架
        low_stock = self.spark.table("logistics.warehouse_data").filter(
            (col("warehouse_id") == warehouse_id) &
            (col("quantity") < col("reorder_point"))
        ).collect()
        
        if not low_stock:
            return {"message": "No replenishment needed"}
        
        # 构建TSP问题
        locations = [(s.shelf_id, s.bin_id) for s in low_stock]
        
        # 简化的最近邻算法
        route = []
        current = ("RECEIVING", 0, 0)  # 起始点
        remaining = locations.copy()
        
        while remaining:
            nearest = min(remaining, 
                         key=lambda x: self._manhattan_distance(
                             current, x
                         ))
            route.append(nearest)
            remaining.remove(nearest)
            current = nearest
        
        # 返回路径
        return {
            "warehouse_id": warehouse_id,
            "replenishment_items": [
                {
                    "shelf_id": s.shelf_id,
                    "bin_id": s.bin_id,
                    "sku_id": s.sku_id,
                    "current_qty": s.quantity,
                    "target_qty": s.reorder_point,
                    "replenish_qty": s.reorder_point - s.quantity
                }
                for s in low_stock
            ],
            "optimal_route": route,
            "estimated_time_minutes": len(route) * 2 + 15
        }

23.4 需求预测与网络规划

23.4.1 物流需求预测

python 复制代码

# demand_forecasting.py
from pyspark.ml.regression import GBTRegressor
from pyspark.ml.feature import VectorAssembler

class LogisticsDemandForecasting:
    """物流需求预测系统"""
    
    def __init__(self, spark):
        self.spark = spark
        
    def predict_route_demand(self, origin: str, destination: str, 
                           forecast_date: datetime):
        """
        预测路线需求
        """
        # 获取历史数据
        history = self.spark.table("logistics.route_demand").filter(
            (col("origin") == origin) &
            (col("destination") == destination) &
            (col("dt") >= DATE_SUB(forecast_date, 365))
        ).collect()
        
        # 特征提取
        features = self._extract_features(history, forecast_date)
        
        # 预测
        demand_forecast = self._forecast_with_features(features)
        
        return {
            "origin": origin,
            "destination": destination,
            "forecast_date": forecast_date,
            "predicted_demand": demand_forecast,
            "confidence_interval": [
                demand_forecast * 0.85,
                demand_forecast * 1.15
            ]
        }
    
    def _extract_features(self, history, target_date):
        """提取预测特征"""
        features = {}
        
        # 历史同期数据
        same_day_last_year = [h for h in history 
                             if h.date.timetuple().tm_yday == target_date.timetuple().tm_yday]
        features["demand_last_year"] = np.mean([h.demand for h in same_day_last_year]) if same_day_last_year else 0
        
        # 最近7天均值
        recent_7d = history[-7:]
        features["demand_7d_avg"] = np.mean([h.demand for h in recent_7d])
        
        # 最近30天均值
        recent_30d = history[-30:]
        features["demand_30d_avg"] = np.mean([h.demand for h in recent_30d])
        
        # 时间特征
        features["day_of_week"] = target_date.weekday()
        features["is_weekend"] = 1 if target_date.weekday() >= 5 else 0
        features["month"] = target_date.month
        features["quarter"] = (target_date.month - 1) // 3 + 1
        
        # 节假日
        features["is_holiday"] = 1 if self._is_holiday(target_date) else 0
        features["days_to_holiday"] = self._days_to_holiday(target_date)
        
        # 经济指标
        features["gdp_index"] = self._get_gdp_index(target_date)
        
        return features
    
    def _forecast_with_features(self, features):
        """使用特征进行预测"""
        # 简化的时间序列预测
        base_demand = features.get("demand_30d_avg", 100)
        trend_factor = features.get("demand_7d_avg", base_demand) / base_demand if base_demand > 0 else 1
        
        seasonal_factor = self._get_seasonal_factor(features["month"])
        holiday_factor = 1.2 if features.get("is_holiday") else 1.0
        
        return base_demand * trend_factor * seasonal_factor * holiday_factor
    
    def _get_seasonal_factor(self, month):
        """获取季节因子"""
        seasonal_factors = {
            1: 0.8, 2: 0.85, 3: 1.0, 4: 1.1,
            5: 1.2, 6: 1.15, 7: 1.0, 8: 0.95,
            9: 1.1, 10: 1.2, 11: 1.3, 12: 1.1
        }
        return seasonal_factors.get(month, 1.0)

23.5 知识体系总结

#mermaid-svg-NbGlEvmKSppL3qXC{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-NbGlEvmKSppL3qXC .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-NbGlEvmKSppL3qXC .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-NbGlEvmKSppL3qXC .error-icon{fill:#552222;}#mermaid-svg-NbGlEvmKSppL3qXC .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-NbGlEvmKSppL3qXC .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-NbGlEvmKSppL3qXC .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-NbGlEvmKSppL3qXC .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-NbGlEvmKSppL3qXC .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-NbGlEvmKSppL3qXC .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-NbGlEvmKSppL3qXC .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-NbGlEvmKSppL3qXC .marker{fill:#333333;stroke:#333333;}#mermaid-svg-NbGlEvmKSppL3qXC .marker.cross{stroke:#333333;}#mermaid-svg-NbGlEvmKSppL3qXC svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-NbGlEvmKSppL3qXC p{margin:0;}#mermaid-svg-NbGlEvmKSppL3qXC .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-NbGlEvmKSppL3qXC .cluster-label text{fill:#333;}#mermaid-svg-NbGlEvmKSppL3qXC .cluster-label span{color:#333;}#mermaid-svg-NbGlEvmKSppL3qXC .cluster-label span p{background-color:transparent;}#mermaid-svg-NbGlEvmKSppL3qXC .label text,#mermaid-svg-NbGlEvmKSppL3qXC span{fill:#333;color:#333;}#mermaid-svg-NbGlEvmKSppL3qXC .node rect,#mermaid-svg-NbGlEvmKSppL3qXC .node circle,#mermaid-svg-NbGlEvmKSppL3qXC .node ellipse,#mermaid-svg-NbGlEvmKSppL3qXC .node polygon,#mermaid-svg-NbGlEvmKSppL3qXC .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-NbGlEvmKSppL3qXC .rough-node .label text,#mermaid-svg-NbGlEvmKSppL3qXC .node .label text,#mermaid-svg-NbGlEvmKSppL3qXC .image-shape .label,#mermaid-svg-NbGlEvmKSppL3qXC .icon-shape .label{text-anchor:middle;}#mermaid-svg-NbGlEvmKSppL3qXC .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-NbGlEvmKSppL3qXC .rough-node .label,#mermaid-svg-NbGlEvmKSppL3qXC .node .label,#mermaid-svg-NbGlEvmKSppL3qXC .image-shape .label,#mermaid-svg-NbGlEvmKSppL3qXC .icon-shape .label{text-align:center;}#mermaid-svg-NbGlEvmKSppL3qXC .node.clickable{cursor:pointer;}#mermaid-svg-NbGlEvmKSppL3qXC .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-NbGlEvmKSppL3qXC .arrowheadPath{fill:#333333;}#mermaid-svg-NbGlEvmKSppL3qXC .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-NbGlEvmKSppL3qXC .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-NbGlEvmKSppL3qXC .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-NbGlEvmKSppL3qXC .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-NbGlEvmKSppL3qXC .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-NbGlEvmKSppL3qXC .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-NbGlEvmKSppL3qXC .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-NbGlEvmKSppL3qXC .cluster text{fill:#333;}#mermaid-svg-NbGlEvmKSppL3qXC .cluster span{color:#333;}#mermaid-svg-NbGlEvmKSppL3qXC div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-NbGlEvmKSppL3qXC .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-NbGlEvmKSppL3qXC rect.text{fill:none;stroke-width:0;}#mermaid-svg-NbGlEvmKSppL3qXC .icon-shape,#mermaid-svg-NbGlEvmKSppL3qXC .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-NbGlEvmKSppL3qXC .icon-shape p,#mermaid-svg-NbGlEvmKSppL3qXC .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-NbGlEvmKSppL3qXC .icon-shape .label rect,#mermaid-svg-NbGlEvmKSppL3qXC .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-NbGlEvmKSppL3qXC .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-NbGlEvmKSppL3qXC .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-NbGlEvmKSppL3qXC :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 物流行业应用
仓储优化
路径规划
需求预测
智能调度
SKU摆放
库存预测
补货路径
VRP求解
实时导航
路线需求
网络规划
动态分配
异常检测

物流场景	核心算法	业务价值
路径优化	VRP/ORTools	降低里程15%
仓储优化	ABC分类	提升效率20%
需求预测	时序预测	降低库存10%
动态调度	实时匹配	提升满载率25%

下期预告

第24期作为专栏最后一期，我们将对《工业领域的Hadoop架构学习》进行系统性总结，回顾核心技术要点，展望未来发展方向，为读者提供完整的技术路线图。敬请期待！

作者：高炉炼铁智能化技术研究者，专注钢铁冶金与人工智能交叉领域。

👍 如果觉得有帮助，请点赞、收藏、转发！

版权归作者所有，未经许可请勿抄袭，套用，商用(或其它具有利益性行为) 。

🔔 关注专栏，不错过后续精彩内容！