排期预测技术如何优化客运排班系统并解决乘客高峰期出行难的问题

引言：客运排班面临的挑战与机遇

在现代城市交通体系中，客运排班系统扮演着至关重要的角色。然而，传统的排班方式往往依赖于固定的时间表和历史经验，难以应对动态变化的出行需求。特别是在乘客高峰期，如早晚上下班高峰、节假日或特殊活动期间，系统常常面临运力不足、乘客等待时间过长、车辆满载率过高等问题。

排期预测技术的引入为这些挑战带来了革命性的解决方案。通过结合历史数据、实时信息和先进的机器学习算法，排期预测技术能够精准预测未来客流，从而实现动态、智能的排班优化。这不仅能显著提升乘客出行体验，还能帮助运营方降低运营成本，提高资源利用率。

本文将详细探讨排期预测技术如何优化客运排班系统，包括核心技术原理、实施步骤、实际应用案例以及未来发展趋势。我们将通过具体的代码示例和详细的数据分析，帮助读者全面理解这一技术的运作机制和应用价值。

排期预测技术的核心原理

数据驱动的预测模型

排期预测技术的基础是数据。系统需要收集和分析多维度的数据源，包括：

历史客流数据：过去几年的每日、每周、每月客流统计
时间特征：日期类型（工作日/周末/节假日）、季节、时间段
外部因素：天气状况、特殊事件、城市活动、经济指标
实时数据：当前客流、车辆位置、交通状况

这些数据通过预处理和特征工程，被输入到预测模型中。现代预测技术主要采用机器学习方法，如时间序列分析、随机森林、梯度提升树（XGBoost）和深度学习模型（LSTM、Transformer）。

预测模型的架构

一个典型的排期预测系统通常包含以下组件：

数据采集层：负责从各种数据源收集原始数据
数据处理层：清洗、转换和特征工程
模型训练层：使用历史数据训练预测模型
预测服务层：提供实时预测能力
优化决策层：根据预测结果生成排班方案

技术实现：从数据到预测

数据准备与特征工程

在实施排期预测之前，必须对数据进行充分的准备。以下是一个Python示例，展示如何准备客运数据：

import pandas as pd
import numpy as np
from datetime import datetime
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

# 加载历史客流数据
def load_passenger_data(file_path):
    """
    加载并预处理历史客流数据
    数据格式：日期, 时间段, 线路ID, 天气, 事件, 客流量
    """
    df = pd.read_csv(file_path)
    df['日期'] = pd.to_datetime(df['日期'])
    
    # 提取时间特征
    df['年份'] = df['日期'].dt.year
    df['月份'] = df['日期'].dt.month
    df['日'] = df['日期'].dt.day
    df['星期几'] = df['日期'].dt.dayofweek
    df['是否周末'] = df['星期几'].isin([5, 6]).astype(int)
    df['是否节假日'] = df['是否节假日'].astype(int)  # 0:工作日, 1:节假日
    
    # 处理时间段（假设时间段为0-23小时）
    df['时间段'] = df['时间段'].astype(int)
    
    # 天气编码（0:晴, 1:雨, 2:雪, 3:雾）
    weather_mapping = {'晴': 0, '雨': 1, '雪': 2, '雾': 3}
    df['天气编码'] = df['天气'].map(weather_mapping)
    
    # 事件编码（0:无事件, 1:有事件）
    df['事件编码'] = df['事件'].astype(int)
    
    return df

# 特征工程
def create_features(df):
    """
    创建更多高级特征
    """
    # 滞后特征：前一天的客流量
    df['前一天客流量'] = df.groupby(['线路ID', '时间段'])['客流量'].shift(1)
    
    # 移动平均：过去7天的平均客流量
    df['7天移动平均'] = df.groupby(['线路ID', '时间段'])['客流量'].transform(
        lambda x: x.rolling(window=7, min_periods=1).mean()
    )
    
    # 周期性特征：使用正弦/余弦编码时间周期
    df['小时_sin'] = np.sin(2 * np.pi * df['时间段'] / 24)
    df['小时_cos'] = np.cos(2 * np.pi * df['时间段'] / 24)
    df['月份_sin'] = np.sin(2 * np.pi * df['月份'] / 12)
    df['月份_cos'] = np.cos(2 * np.pi * df['月份'] / 12)
    
    # 填充缺失值
    df.fillna(method='bfill', inplace=True)
    
    return df

# 示例数据加载和处理
if __name__ == "__main__":
    # 模拟数据创建
    dates = pd.date_range(start='2022-01-01', end='2023-12-31', freq='D')
    data = []
    
    for date in dates:
        for hour in range(6, 23):  # 只考虑运营时间段
            for line_id in ['L1', 'L2', 'L3']:
                # 模拟客流数据（考虑高峰模式）
                base_flow = 100
                if hour in [7, 8, 9, 17, 18, 19]:  # 早晚高峰
                    base_flow += 500
                if date.weekday() >= 5:  # 周末
                    base_flow -= 100
                
                # 添加随机波动
                flow = base_flow + np.random.randint(-50, 50)
                
                # 天气和事件
                weather = np.random.choice(['晴', '雨', '雪', '雾'], p=[0.7, 0.2, 0.05, 0.05])
                event = 1 if np.random.random() < 0.05 else 0  # 5%概率有事件
                
                data.append({
                    '日期': date,
                    '时间段': hour,
                    '线路ID': line_id,
                    '天气': weather,
                    '事件': event,
                    '是否节假日': 1 if date in pd.to_datetime(['2023-01-01', '2023-05-01', '2023-10-01']) else 0,
                    '客流量': flow
                })
    
    df = pd.DataFrame(data)
    df = create_features(df)
    
    print("数据预览:")
    print(df.head())
    print(f"\n数据形状: {df.shape}")

模型训练与优化

接下来，我们使用随机森林回归模型进行训练。随机森林在处理结构化数据时表现优异，能够捕捉复杂的非线性关系。

def train_prediction_model(df):
    """
    训练客流预测模型
    """
    # 定义特征和目标变量
    feature_columns = [
        '年份', '月份', '日', '星期几', '是否周末', '是否节假日',
        '时间段', '天气编码', '事件编码', '前一天客流量', '7天移动平均',
        '小时_sin', '小时_cos', '月份_sin', '月份_cos'
    ]
    
    target_column = '客流量'
    
    # 准备数据
    X = df[feature_columns]
    y = df[target_column]
    
    # 时间序列分割（避免数据泄露）
    split_date = '2023-10-01'
    X_train = X[df['日期'] < split_date]
    y_train = y[df['日期'] < split_date]
    X_test = X[df['日期'] >= split_date]
    y_test = y[df['日期'] >= split_date]
    
    print(f"训练集大小: {X_train.shape}, 测试集大小: {X_test.shape}")
    
    # 初始化模型
    model = RandomForestRegressor(
        n_estimators=200,        # 树的数量
        max_depth=15,            # 最大深度
        min_samples_split=5,     # 分裂所需最小样本数
        min_samples_leaf=2,      # 叶节点最小样本数
        random_state=42,
        n_jobs=-1                # 并行训练
    )
    
    # 训练模型
    print("开始训练模型...")
    model.fit(X_train, y_train)
    
    # 预测
    y_pred = model.predict(X_test)
    
    # 评估
    mae = mean_absolute_error(y_test, y_pred)
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    
    print(f"\n模型评估结果:")
    print(f"平均绝对误差 (MAE): {mae:.2f}")
    print(f"均方根误差 (RMSE): {rmse:.2f}")
    
    # 特征重要性分析
    feature_importance = pd.DataFrame({
        '特征': feature_columns,
        '重要性': model.feature_importances_
    }).sort_values('重要性', ascending=False)
    
    print("\n特征重要性排序:")
    print(feature_importance.head(10))
    
    return model, feature_importance

# 模型保存与加载
import joblib

def save_model(model, model_path='passenger_forecast_model.pkl'):
    """保存模型"""
    joblib.dump(model, model_path)
    print(f"模型已保存到 {model_path}")

def load_model(model_path='passenger_forecast_model.pkl'):
    """加载模型"""
    return joblib.load(model_path)

预测服务实现

训练好的模型可以部署为预测服务，实时预测未来客流：

class PassengerForecastService:
    """
    客流预测服务类
    """
    def __init__(self, model_path='passenger_forecast_model.pkl'):
        self.model = load_model(model_path)
        self.feature_columns = [
            '年份', '月份', '日', '星期几', '是否周末', '是否节假日',
            '时间段', '天气编码', '事件编码', '前一天客流量', '7天移动平均',
            '小时_sin', '小时_cos', '月份_sin', '月份_cos'
        ]
    
    def predict_single(self, date, hour, line_id, weather, event, is_holiday, 
                      prev_day_flow=None, moving_avg=None):
        """
        预测单个时间点的客流
        """
        # 构建特征向量
        date_obj = pd.to_datetime(date)
        
        features = {
            '年份': date_obj.year,
            '月份': date_obj.month,
            '日': date_obj.day,
            '星期几': date_obj.weekday(),
            '是否周末': 1 if date_obj.weekday() in [5, 6] else 0,
            '是否节假日': 1 if is_holiday else 0,
            '时间段': hour,
            '天气编码': {'晴': 0, '雨': 1, '雪': 2, '雾': 3}.get(weather, 0),
            '事件编码': 1 if event else 0,
            '前一天客流量': prev_day_flow if prev_day_flow else 0,
            '7天移动平均': moving_avg if moving_avg else 0,
            '小时_sin': np.sin(2 * np.pi * hour / 24),
            '小时_cos': np.cos(2 * np.pi * hour / 24),
            '月份_sin': np.sin(2 * np.pi * date_obj.month / 12),
            '月份_cos': np.cos(2 * np.pi * date_obj.month / 12)
        }
        
        # 转换为DataFrame
        input_df = pd.DataFrame([features])
        
        # 预测
        prediction = self.model.predict(input_df[self.feature_columns])[0]
        
        return max(0, prediction)  # 确保非负
    
    def predict_batch(self, date_range, hour_range, line_id, weather_forecast, event_schedule):
        """
        批量预测多个时间点的客流
        """
        predictions = []
        
        for date in pd.date_range(start=date_range[0], end=date_range[1]):
            for hour in hour_range:
                # 获取天气预报
                weather = weather_forecast.get(date, '晴')
                # 检查事件
                event = event_schedule.get(date, False)
                # 检查节假日
                is_holiday = date in pd.to_datetime(['2023-01-01', '2023-05-01', '2023-10-01'])
                
                # 获取历史数据用于特征（实际应用中从数据库查询）
                prev_day_flow = 200  # 示例值
                moving_avg = 180     # 示例值
                
                pred = self.predict_single(
                    date, hour, line_id, weather, event, is_holiday,
                    prev_day_flow, moving_avg
                )
                
                predictions.append({
                    '日期': date,
                    '时间段': hour,
                    '预测客流': pred
                })
        
        return pd.DataFrame(predictions)

# 使用示例
if __name__ == "__main__":
    # 假设模型已训练并保存
    # service = PassengerForecastService()
    
    # 预测示例：2024年1月8日（周一）早上8点，天气晴，无事件
    # predicted_flow = service.predict_single(
    #     date='2024-01-08',
    #     hour=8,
    #     line_id='L1',
    #     weather='晴',
    #     event=False,
    #     is_holiday=False,
    #     prev_day_flow=250,
    #     moving_avg=200
    # )
    # print(f"预测客流: {predicted_flow:.0f} 人")
    
    print("\n预测服务类已定义，可用于实时预测。")

排班优化：从预测到决策

排班优化算法

预测只是第一步，真正的价值在于如何利用预测结果优化排班。排班优化是一个复杂的运筹学问题，需要在满足乘客需求的同时，最小化运营成本。

import pulp  # 线性规划库

class SchedulingOptimizer:
    """
    排班优化器
    """
    def __init__(self, vehicle_capacity=80, min_interval=5, max_interval=30):
        self.vehicle_capacity = vehicle_capacity  # 车辆容量
        self.min_interval = min_interval          # 最小发车间隔（分钟）
        self.max_interval = max_interval          # 最大发车间隔（分钟）
    
    def optimize_schedule(self, forecast_df, line_id, cost_per_vehicle=100):
        """
        基于客流预测优化排班
        """
        # 创建问题实例
        prob = pulp.LpProblem("Bus_Scheduling", pulp.LpMinimize)
        
        # 提取预测数据
        time_slots = forecast_df['时间段'].unique()
        predicted_passengers = dict(zip(forecast_df['时间段'], forecast_df['预测客流']))
        
        # 决策变量：每个时间段的发车数量
        # 假设每小时最多6班车（每10分钟一班）
        bus_count = pulp.LpVariable.dicts(
            "BusCount", 
            time_slots, 
            lowBound=0, 
            upBound=6, 
            cat='Integer'
        )
        
        # 目标函数：最小化总成本（车辆成本 + 乘客等待成本）
        # 车辆成本：每辆车cost_per_vehicle
        # 乘客等待成本：假设每乘客等待成本为1（简化）
        vehicle_cost = pulp.lpSum([bus_count[t] * cost_per_vehicle for t in time_slots])
        
        # 乘客等待成本：如果发车不足，乘客等待时间增加
        # 简化模型：假设未满足的需求会产生惩罚
        unserved_penalty = pulp.lpSum([
            (predicted_passengers[t] - bus_count[t] * self.vehicle_capacity) * 10
            for t in time_slots
            if predicted_passengers[t] > bus_count[t] * self.vehicle_capacity
        ])
        
        prob += vehicle_cost + unserved_penalty
        
        # 约束条件
        for t in time_slots:
            # 1. 满足需求：发车总容量 >= 预测客流
            prob += bus_count[t] * self.vehicle_capacity >= predicted_passengers[t], f"Demand_Satisfaction_{t}"
            
            # 2. 发车间隔约束（相邻时间段）
            if t > min(time_slots):
                prev_t = max([x for x in time_slots if x < t])
                # 相邻时间段发车数量差异不能太大（保证平稳性）
                prob += pulp.lpAbs(bus_count[t] - bus_count[prev_t]) <= 2, f"Smoothness_{t}"
        
        # 求解
        prob.solve(pulp.PULP_CBC_CMD(msg=False))
        
        # 提取结果
        schedule = {}
        for t in time_slots:
            schedule[t] = int(bus_count[t].value())
        
        return schedule, pulp.value(prob.objective)

# 使用示例
if __name__ == "__main__":
    # 模拟预测结果
    forecast_data = {
        '时间段': [7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
        '预测客流': [450, 680, 520, 200, 180, 250, 220, 200, 220, 350, 600, 720, 480, 200]
    }
    forecast_df = pd.DataFrame(forecast_data)
    
    optimizer = SchedulingOptimizer(vehicle_capacity=80)
    optimal_schedule, total_cost = optimizer.optimize_schedule(forecast_df, 'L1')
    
    print("\n优化后的排班方案:")
    print("时间段 | 发车数量 | 说明")
    print("-" * 40)
    for hour, buses in sorted(optimal_schedule.items()):
        print(f"{hour:2d}:00 | {buses:8d} | {buses*80}个座位")
    
    print(f"\n总成本: {total_cost:.2f}")

实际应用案例分析

案例1：城市公交系统高峰期优化

背景：某大城市公交系统在工作日早晚高峰面临严重拥挤，乘客平均等待时间超过15分钟，而平峰期车辆空载率高。

解决方案：

数据收集：整合了3年的刷卡数据、GPS数据和天气数据
模型构建：使用XGBoost模型，预测精度达到MAE=12.5人/小时
动态排班：在高峰时段（7-9点，17-19点）将发车间隔从10分钟缩短至5分钟
结果：
- 乘客平均等待时间减少45%
- 车辆满载率从95%降至75%
- 运营成本仅增加8%，但乘客满意度提升32%

案例2：城际铁路节假日调度

背景：某城际铁路在节假日经常出现票务紧张，而平时运力过剩。

解决方案：

多步预测：首先预测节假日出行指数，再预测具体线路客流
灵活编组：根据预测结果动态调整列车编组数量
票价联动：高峰时段适度提价，平峰时段折扣，引导错峰出行
结果：
- 节假日运力提升40%，基本满足需求
- 平峰期运力降低20%，节省成本
- 整体收入提升15%

高级技术：深度学习与实时优化

LSTM时间序列预测

对于更复杂的时序模式，LSTM（长短期记忆网络）能够捕捉长期依赖关系：

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

class PassengerLSTM(nn.Module):
    """
    LSTM客流预测模型
    """
    def __init__(self, input_size=10, hidden_size=64, num_layers=2, output_size=1):
        super(PassengerLSTM, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        self.lstm = nn.LSTM(
            input_size, 
            hidden_size, 
            num_layers, 
            batch_first=True,
            dropout=0.2
        )
        
        self.fc = nn.Sequential(
            nn.Linear(hidden_size, 32),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(32, output_size)
        )
    
    def forward(self, x):
        # x shape: (batch, seq_len, input_size)
        lstm_out, _ = self.lstm(x)
        # 取最后一个时间步的输出
        last_output = lstm_out[:, -1, :]
        prediction = self.fc(last_output)
        return prediction

class PassengerDataset(Dataset):
    """
    自定义数据集类
    """
    def __init__(self, data, seq_length=24):
        self.data = data
        self.seq_length = seq_length
    
    def __len__(self):
        return len(self.data) - self.seq_length
    
    def __getitem__(self, idx):
        # 输入：过去seq_length个时间步的特征
        # 输出：下一个时间步的客流量
        sequence = self.data[idx:idx+self.seq_length]
        target = self.data[idx+self.seq_length, 0]  # 第一列是客流量
        
        return torch.FloatTensor(sequence), torch.FloatTensor([target])

def train_lstm_model():
    """
    训练LSTM模型示例
    """
    # 准备数据（假设df是预处理后的DataFrame）
    # 这里使用模拟数据
    seq_length = 24  # 24小时序列
    
    # 创建模拟序列数据
    time_steps = 1000
    features = 5  # 客流量, 小时, 星期几, 天气, 事件
    
    # 生成模拟数据
    np.random.seed(42)
    sequences = []
    for i in range(time_steps - seq_length):
        seq = []
        for j in range(seq_length):
            # 特征：客流量（带趋势和周期性）, 时间特征等
            hour = (i + j) % 24
            base_flow = 200 + 100 * np.sin(2 * np.pi * hour / 24)
            if hour in [7, 8, 17, 18]:
                base_flow += 300
            flow = base_flow + np.random.normal(0, 20)
            
            seq.append([
                flow,
                hour / 23.0,  # 归一化
                (i + j) % 7 / 6.0,  # 星期几归一化
                np.random.choice([0, 1, 2, 3]),  # 天气
                1 if np.random.random() < 0.05 else 0  # 事件
            ])
        sequences.append(seq)
    
    sequences = np.array(sequences)
    
    # 划分训练测试
    train_size = int(0.8 * len(sequences))
    train_data = sequences[:train_size]
    test_data = sequences[train_size:]
    
    # 创建数据加载器
    train_dataset = PassengerDataset(train_data, seq_length)
    test_dataset = PassengerDataset(test_data, seq_length)
    
    train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
    test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)
    
    # 初始化模型
    model = PassengerLSTM(input_size=features, hidden_size=64, num_layers=2)
    criterion = nn.MSELoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
    
    # 训练循环
    num_epochs = 20
    print("开始训练LSTM模型...")
    
    for epoch in range(num_epochs):
        model.train()
        total_loss = 0
        
        for batch_seq, batch_target in train_loader:
            optimizer.zero_grad()
            output = model(batch_seq)
            loss = criterion(output, batch_target)
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        
        # 验证
        model.eval()
        val_loss = 0
        with torch.no_grad():
            for batch_seq, batch_target in test_loader:
                output = model(batch_seq)
                val_loss += criterion(output, batch_target).item()
        
        if (epoch + 1) % 5 == 0:
            print(f"Epoch {epoch+1}/{num_epochs}, "
                  f"Train Loss: {total_loss/len(train_loader):.4f}, "
                  f"Val Loss: {val_loss/len(test_loader):.4f}")
    
    return model

# 运行LSTM训练示例
if __name__ == "__main__":
    print("\nLSTM模型训练示例:")
    # model = train_lstm_model()
    print("LSTM模型训练完成（示例）")

实时动态调整系统

现代系统需要能够实时响应变化：

import threading
import time
from collections import deque

class RealTimeScheduler:
    """
    实时动态排班系统
    """
    def __init__(self, forecast_service, optimizer):
        self.forecast_service = forecast_service
        self.optimizer = optimizer
        self.current_schedule = {}
        self.passenger_flow_buffer = deque(maxlen=24)  # 存储最近24小时数据
        self.running = False
        self.update_interval = 300  # 5分钟更新一次
    
    def start(self):
        """启动实时调度"""
        self.running = True
        self.thread = threading.Thread(target=self._update_loop)
        self.thread.daemon = True
        self.thread.start()
        print("实时调度系统已启动")
    
    def stop(self):
        """停止调度"""
        self.running = False
        if self.thread:
            self.thread.join()
        print("实时调度系统已停止")
    
    def _update_loop(self):
        """更新循环"""
        while self.running:
            try:
                # 1. 获取实时客流数据（模拟）
                current_flow = self._get_realtime_flow()
                
                # 2. 更新缓冲区
                self.passenger_flow_buffer.append(current_flow)
                
                # 3. 重新预测未来2小时客流
                now = datetime.now()
                forecast_results = []
                
                for hour_offset in range(1, 3):
                    future_hour = (now.hour + hour_offset) % 24
                    future_date = now.date()
                    
                    # 使用预测服务
                    predicted = self.forecast_service.predict_single(
                        date=future_date,
                        hour=future_hour,
                        line_id='L1',
                        weather='晴',  # 实际应从天气API获取
                        event=False,
                        is_holiday=False,
                        prev_day_flow=200,
                        moving_avg=180
                    )
                    forecast_results.append({
                        '时间段': future_hour,
                        '预测客流': predicted
                    })
                
                # 4. 重新优化排班
                if forecast_results:
                    forecast_df = pd.DataFrame(forecast_results)
                    new_schedule, cost = self.optimizer.optimize_schedule(forecast_df, 'L1')
                    
                    # 5. 比较变化，决定是否调整
                    if self._schedule_changed_significantly(new_schedule):
                        self.current_schedule = new_schedule
                        self._apply_schedule(new_schedule)
                        print(f"排班已更新: {new_schedule}")
                
                # 等待下一次更新
                time.sleep(self.update_interval)
                
            except Exception as e:
                print(f"更新出错: {e}")
                time.sleep(60)
    
    def _get_realtime_flow(self):
        """模拟获取实时客流"""
        # 实际应用中从传感器或API获取
        base = 300
        hour = datetime.now().hour
        if hour in [7, 8, 17, 18]:
            base += 200
        return base + np.random.randint(-50, 50)
    
    def _schedule_changed_significantly(self, new_schedule, threshold=1):
        """判断排班变化是否显著"""
        if not self.current_schedule:
            return True
        
        changes = 0
        for hour, buses in new_schedule.items():
            if abs(buses - self.current_schedule.get(hour, 0)) > threshold:
                changes += 1
        
        # 如果超过30%的时间段有显著变化，则更新
        return changes > len(new_schedule) * 0.3
    
    def _apply_schedule(self, schedule):
        """应用新排班（模拟）"""
        # 实际应用中会连接调度系统API
        print(f"应用新排班: {schedule}")
        # 这里可以添加发送指令到车辆调度系统的代码

# 使用示例
if __name__ == "__main__":
    print("\n实时动态调度系统示例:")
    # service = PassengerForecastService()
    # optimizer = SchedulingOptimizer()
    # scheduler = RealTimeScheduler(service, optimizer)
    # scheduler.start()
    # # 运行一段时间后
    # # scheduler.stop()
    print("实时系统已准备就绪")

实施挑战与解决方案

数据质量与完整性

挑战：数据缺失、异常值、不一致 解决方案：

建立数据质量监控体系
使用插值和机器学习填补缺失值
设置数据校验规则

def data_quality_check(df):
    """数据质量检查与修复"""
    report = {}
    
    # 1. 缺失值检查
    missing = df.isnull().sum()
    report['缺失值'] = missing[missing > 0].to_dict()
    
    # 2. 异常值检测（使用IQR方法）
    for col in ['客流量']:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        outliers = df[(df[col] < Q1 - 1.5*IQR) | (df[col] > Q3 + 1.5*IQR)]
        report[f'{col}_异常值'] = len(outliers)
        
        # 修复：用中位数替换
        df.loc[(df[col] < Q1 - 1.5*IQR) | (df[col] > Q3 + 1.5*IQR), col] = df[col].median()
    
    # 3. 逻辑检查
    invalid_flows = df[df['客流量'] < 0]
    report['负客流'] = len(invalid_flows)
    df.loc[df['客流量'] < 0, '客流量'] = 0
    
    print("数据质量报告:")
    for k, v in report.items():
        print(f"  {k}: {v}")
    
    return df, report

模型漂移与持续学习

挑战：模型性能随时间下降 解决方案：

定期重新训练模型
实施在线学习
监控预测误差

class ModelMonitor:
    """
    模型性能监控器
    """
    def __init__(self, model, forecast_service):
        self.model = model
        self.forecast_service = forecast_service
        self.prediction_history = []
        self.actual_history = []
        self.mae_history = []
    
    def log_prediction(self, date, hour, predicted, actual):
        """记录预测和实际值"""
        self.prediction_history.append({
            '日期': date,
            '时间段': hour,
            '预测': predicted,
            '实际': actual
        })
        self.actual_history.append(actual)
        
        # 计算最近误差
        if len(self.prediction_history) >= 30:
            recent = self.prediction_history[-30:]
            errors = [abs(p['预测'] - p['实际']) for p in recent]
            mae = np.mean(errors)
            self.mae_history.append(mae)
            print(f"最近30次预测MAE: {mae:.2f}")
            
            # 如果MAE持续恶化，触发重训练
            if len(self.mae_history) >= 3 and all(self.mae_history[-3:] > 50):
                self.trigger_retraining()
    
    def trigger_retraining(self):
        """触发模型重训练"""
        print("警告：模型性能下降，建议重新训练！")
        # 这里可以集成自动重训练逻辑

未来发展趋势

1. 人工智能与强化学习

强化学习（RL）可以直接学习最优排班策略，无需显式建模：

# 伪代码：强化学习排班框架
class SchedulingEnv:
    """排班环境"""
    def __init__(self):
        self.state = None  # 当前客流、时间、车辆位置等
        self.action_space = [1, 2, 3, 4, 5, 6]  # 发车数量
    
    def step(self, action):
        """执行动作，返回奖励"""
        # 模拟执行发车动作
        # 计算奖励：乘客满意度 - 成本
        reward = self._calculate_reward(action)
        next_state = self._get_next_state()
        done = False
        return next_state, reward, done
    
    def _calculate_reward(self, action):
        """奖励函数"""
        # 高奖励：满足需求、低成本
        # 低惩罚：乘客等待时间长、车辆空载
        pass

# 训练RL代理（使用Q-Learning或DQN）
# 代理学习在不同状态下选择最优发车数量

2. 多模态数据融合

结合社交媒体、手机信令、共享单车等数据，提升预测精度：

def multi_source_data_fusion():
    """
    多源数据融合示例
    """
    sources = {
        'bus刷卡数据': 'path/to/bus_data.csv',
        '地铁数据': 'path/to/subway_data.csv',
        '手机信令': 'path/to/mobile_data.csv',
        '共享单车': 'path/to/bike_data.csv',
        '社交媒体': 'path/to/social_data.csv'
    }
    
    # 统一时间粒度和空间范围
    # 使用图神经网络（GNN）建模站点间关系
    # 使用Transformer融合多序列
    
    print("多源数据融合可提升预测精度10-15%")

3. 边缘计算与5G

在车辆和站点部署边缘计算节点，实现毫秒级响应：

车辆端：实时感知客流，自动调整发车
站点端：动态显示等待时间，引导乘客
云端：全局优化和协调

总结

排期预测技术通过数据驱动的方法，从根本上改变了客运排班系统的运作方式。从数据准备、模型训练到排班优化，每一步都体现了现代技术与传统行业的深度融合。

关键要点：

数据是基础：高质量、多维度的数据是预测准确的前提
模型是核心：选择合适的预测模型（随机森林、XGBoost、LSTM）至关重要
优化是目标：预测服务于排班，最终目标是提升效率和体验
实时性是趋势：动态调整能力是现代系统的标配
持续改进：监控、反馈和重训练是长期成功的保障

通过实施排期预测技术，客运系统能够：

提升乘客体验：减少等待时间，提高准点率
降低运营成本：避免运力浪费，优化资源配置
增强应急能力：快速响应突发事件和客流变化
支持可持续发展：减少碳排放，促进绿色出行

随着技术的不断进步，未来的客运排班系统将更加智能、更加个性化，为乘客提供前所未有的出行体验。