当前位置：首页 > news >正文

银行客户流失预测：Keras全连接网络实战与业务建模方法论

news 2026/6/1 10:46:01

银行客户流失预测是一个在金融风控与客户关系管理中极为实际、高频且高价值的建模任务。我从2015年起就在某全国性股份制银行的数据科学团队做模型开发，后来也带过几家城商行和消费金融公司的建模项目，经手过的客户流失（Churn）模型不下三十个——有逻辑回归打底的轻量级监控模型，也有集成树+时序特征的生产级XGBoost方案，还有几个跑在Spark MLlib上的实时评分服务。但真正让我在业务侧站稳脚跟、被分行行长主动约着开复盘会的，反而是2019年用Keras搭的一个结构清晰、可解释性强、上线后AUC稳定在0.83以上的全连接神经网络模型。它不追求SOTA，不堆叠Attention或Transformer，就用最朴素的Dense层+Dropout+BatchNorm，配合一套扎实的特征工程和业务对齐的标签定义，在当时替代了原有逻辑回归模型，将高价值客户预警提前期平均拉长了11天，挽留成功率提升27%。这篇文章要讲的，就是这个“不炫技但能打仗”的神经网络建模全过程：不是教你怎么调参，而是告诉你——为什么在银行场景下，一个中等规模的MLP比LSTM更稳；为什么客户行为窗口必须设为90天而非180天；为什么“近3个月转账频次下降率”比“账户余额均值”对流失判别力强3.2倍；以及，当模型在测试集上AUC达到0.86却在线上首周KS跌到0.41时，问题到底出在哪一层。所有内容都基于真实生产环境复盘，代码全部适配Google Colab免费运行环境（无需GPU），数据结构完全模拟国内主流银行核心系统输出格式（含脱敏字段命名、缺失值分布、时间戳精度），连样本权重计算公式我都给你推导清楚。如果你是刚转行的数据分析师，正在准备银行类岗位面试；或是中小金融机构的风控建模岗，手头只有Excel+Python+有限算力；又或者你已经用过XGBoost但想理解“神经网络到底在学什么”，那这篇就是为你写的——它不讲抽象理论，只讲银行柜台旁、客户经理手机里、运营日报表上，真正起作用的那一套东西。

1. 项目整体设计与思路拆解

1.1 银行客户流失的本质不是“离开”，而是“沉默的撤退”

很多初学者一上来就盯着“是否销户”这个终极标签，这是典型的技术思维陷阱。在真实银行业务中，客户极少突然销户。他们往往经历一个长达数周甚至数月的“行为退潮期”：先是停止使用手机银行App，接着减少登录频次，然后暂停理财申购，再之后是活期账户资金逐步转出，最后才可能去网点办理销户。这个过程不是离散事件，而是一条连续衰减曲线。因此，我们建模的目标从来不是预测“会不会销户”，而是识别“当前是否已进入不可逆的流失通道”。

我参与过的一家城商行曾做过回溯分析：在最终销户的客户中，有83.6%的人在销户前60天内，手机银行日均启动次数已低于0.3次（即平均每3天启动1次）；71.2%的人在销户前45天内，单月跨行转账笔数下降幅度超过65%；而账户余额均值在销户前30天内的波动，与正常客户无显著差异（p=0.42）。这说明，余额是结果，行为是动因；余额滞后于行为，行为滞后于意图。所以我们的标签定义必须前置——不能以销户为终点，而应以“关键行为断崖点”为锚点。

我们最终采用的标签定义是：若客户在T日之前连续90天内，出现以下任一组合，则标记为正样本（churn=1）：

手机银行App日均启动次数 ≤ 0.2次，且持续≥15天；
单月理财申购金额同比下降 ≥ 80%，且该月无新增定存/大额存单操作；
活期账户月均余额较前3个月均值下降 ≥ 70%，且当月无工资入账或社保代发记录。

这个定义不是拍脑袋定的。我们用历史数据做了敏感性测试：当窗口从60天拉长到120天时，正样本召回率从68.3%升至79.1%，但精确率从72.5%暴跌至51.6%——意味着引入大量“假警报”，客户经理根本无法跟进。而90天窗口下，召回率75.4%，精确率69.8%，F1得分最高（72.5%），且业务部门反馈“预警节奏刚好匹配客户经理每周两次外呼+一次面访的工作节律”。这就是所谓“模型要嵌入工作流”，而不是让工作流去迁就模型。

1.2 为什么选Keras全连接网络，而不是XGBoost或LSTM？

这个问题我被问过至少二十次。答案很实在：不是因为神经网络更先进，而是因为它在三个关键约束下表现最均衡。

第一，特征交互的显式可控性。XGBoost虽然自动学习特征组合，但它把“近3个月转账频次下降率 × 是否持有信用卡”这种业务强逻辑，和“年龄 × 教育程度”这种统计相关性混在一起优化，导致重要业务规则被稀释。而Keras MLP中，我们可以手动构造这类交叉特征作为输入，并在第一层Dense中赋予更高初始权重（通过kernel_initializer='he_normal' + 自定义bias），让网络优先拟合这些已知强信号。我在某消费金融公司做的AB测试显示：加入3个业务定义的交叉特征后，XGBoost的AUC仅提升0.008，而MLP提升0.023，且KS稳定性提高15%。

第二，时序信息的降维适配性。LSTM理论上更适合处理行为序列，但银行数据存在严重“采样失真”：手机银行日志每小时聚合一次，ATM交易按笔记录但缺失非交易行为，柜面系统只保留成功交易。强行喂LSTM会导致大量填充（padding）和掩码（masking），反而引入噪声。我们试过用LSTM建模90天行为序列（每天12维），在验证集AUC达0.84，但线上推理延迟从12ms飙升到89ms（Colab T4 GPU），且特征重要性完全不可解释——业务方拒绝上线。而MLP把90天压缩成30个统计特征（如“第1-30天转账频次标准差”、“第31-60天App停留时长均值”、“第61-90天理财申购金额斜率”），既保留趋势信息，又满足低延迟要求。

第三，部署与迭代成本。XGBoost模型文件约8MB，需配套Scikit-learn环境；LSTM依赖TensorFlow完整栈；而Keras MLP导出为HDF5后仅1.2MB，用tf.keras.models.load_model()一行加载，Colab免费版内存完全够用。更重要的是，当业务方下周突然要求“把‘是否开通养老金账户’加进模型”，MLP只需在输入层增加1维、微调最后两层，2小时内完成重训上线；XGBoost则需全量重训+特征重要性重排+SHAP重计算，通常要半天。

所以选择MLP，本质是选择了可解释性、可控性和可维护性的三角平衡，而不是技术先进性。

1.3 Google Colab环境的取舍：免费≠将就，而是精准卡位

很多人看到“Google Colab”就默认是学生作业环境，其实它在银行建模中有独特优势。我们不用它跑千万级样本，而是把它当作标准化沙箱——所有特征工程、模型训练、评估脚本都在Colab统一执行，确保从开发到交付的环境一致性。某农商行曾因本地Anaconda版本与生产服务器不一致，导致一个日期解析bug在线上静默运行三个月，损失200+潜在挽留客户。

Colab的免费T4 GPU对MLP来说绰绰有余。我们实测：10万样本、128维特征、4层Dense（512→256→128→1）、batch_size=1024的模型，单epoch耗时1.8秒，100epoch总训练时间3分钟。关键在于规避Colab的三大陷阱：

内存泄漏陷阱：Colab默认启用tf.data.AUTOTUNE，但在小数据集上反而引发内存缓存堆积。我们强制设为tf.data.experimental.AUTOTUNE并添加.cache().prefetch()显式控制；
随机种子陷阱：Colab每次重启内核，np.random.seed()和tf.random.set_seed()必须同步设置，否则相同代码跑出不同结果。我们封装成set_all_seeds(42)函数，内部调用os.environ['PYTHONHASHSEED'] = '0'；
路径陷阱：Colab的/content目录重启即清空。所有原始数据必须用gdown从Google Drive下载，中间文件存/tmp，模型保存用files.download()导出——这套流程我们已固化为colab_setup.py模板，新项目直接!wget https://xxx/colab_setup.py && python colab_setup.py。

这不是妥协，而是把有限资源用在刀刃上：用Colab管住环境变量，用本地IDE写代码逻辑，用Git做版本控制。真正的生产力，从来不在硬件参数里，而在工作流设计中。

2. 核心细节解析与实操要点

2.1 数据结构还原：模拟真实银行核心系统输出

银行数据从不长成Kaggle那种规整CSV。我们用的模拟数据集（已脱敏）包含4张表，结构完全复刻某股份制银行2022年客户行为数据湖：

customer_base.csv：客户主表（12.7万行），字段包括cust_id（字符串）、age（int）、education_level（1-5编码）、employment_status（0-3编码）、has_credit_card（0/1）、is_salary_account（0/1）；
app_behavior_90d.csv：手机银行行为表（320万行），每行代表客户某天的聚合行为，字段含cust_id、date（YYYY-MM-DD）、app_launch_count（当日启动次数）、avg_stay_seconds（平均停留秒数）、transfer_out_count（跨行转账笔数）、wealth_purchase_amt（理财申购金额）；
account_balance_90d.csv：账户余额快照表（180万行），每日凌晨2点抓取，字段含cust_id、date、balance_cny（人民币余额）、salary_in_flag（当日是否有工资入账，0/1）；
transaction_log_90d.csv：交易明细表（890万行），字段含cust_id、trans_date、trans_type（'ATM','POS','TRANSFER','WEALTH'）、amount_cny、counterparty_type（'INTERNAL','EXTERNAL'）。

重点来了：这些表不是等频采样。app_behavior_90d中，32%的客户在90天内有完整90条记录（每天1条），但41%的客户缺失≥15天数据（因未开启行为采集权限）；account_balance_90d中，余额为0的记录占27.3%，但这其中68%是真实零余额，32%是系统未抓取到的空值（需与salary_in_flag=1交叉验证）；transaction_log_90d的时间戳精度为秒级，但app_behavior_90d只有日期级——这意味着你不能简单用merge关联，必须用asof或窗口聚合。

我们处理缺失值的策略是：不插补，而标注。对app_launch_count缺失，新增特征app_data_missing_days（90天内缺失天数）；对balance_cny=0，新增balance_zero_reason（0=真实归零，1=未采集，2=系统异常），其取值逻辑为：

# 基于多源交叉验证生成 df_bal['balance_zero_reason'] = 0 df_bal.loc[(df_bal['balance_cny']==0) & (df_bal['salary_in_flag']==1), 'balance_zero_reason'] = 2 # 系统异常：有工资入账却余额为0 df_bal.loc[(df_bal['balance_cny']==0) & (df_bal['salary_in_flag']==0) & (df_app['app_launch_count'].isna().sum() > 30), 'balance_zero_reason'] = 1 # 未采集：APP长期未用，余额采集可能失效

这个设计让模型自己学习“缺失模式”的业务含义——balance_zero_reason==1的客户，流失概率比==0高2.3倍，比==2高4.7倍。这才是真实数据的智慧。

2.2 特征工程：不做“全自动”，而做“业务驱动型手工特征”

我见过太多人把FeatureTools或tsfresh一键跑完，扔给模型就完事。结果模型学到的全是“年龄×余额”的虚假相关，漏掉了“退休前12个月理财赎回激增”这种真信号。我们的特征工程分三步走：先业务归因，再统计压缩，最后交叉强化。

第一步，业务归因：针对每个原始字段，问三个问题：

这个行为变化，是否对应某个明确业务节点？（如：理财赎回激增 → 可能为购房首付准备）
这个指标停滞，是否预示服务接触中断？（如：App启动为0且柜面交易为0 → 客户已转向他行）
这个数值异常，是否暴露风险偏好转变？（如：活期余额骤降但定期未增 → 资金可能转投P2P或虚拟货币）

第二步，统计压缩：把90天序列压成30个稳健统计量。不只算均值/标准差，更关注分段趋势和断点检测。例如：

transfer_out_slope_30d：用RANSAC拟合前30天转账笔数线性趋势，返回斜率（robust避免异常值干扰）；
app_launch_downtrend_days：统计90天内，连续下降≥3天的段数（反映行为退潮节奏）；
wealth_purchase_kurtosis_60d：后60天理财申购金额的峰度，>3表示资金集中赎回（尖峰），<-1表示持续小额赎回（平缓退场）。

第三步，交叉强化：只构造3个业务强交叉特征，而非穷举：

retirement_risk_score=(age >= 58) * (wealth_purchase_amt_30d / (balance_cny_30d + 1))：58岁以上客户，近期理财赎回/余额比值越高，退休资金筹备越急迫；
multi_channel_dropout=(app_launch_count_90d == 0) * (transaction_log_90d.shape[0] == 0) * (not has_credit_card)：全渠道失联+无信用卡，属于高危沉默客户；
salary_disruption_ratio=salary_in_days_30d / 30：近30天有工资入账的天数占比，<0.3视为收入不稳定。

我们做过特征重要性对比：XGBoost中，这三个交叉特征排在第7、12、19位；而在MLP中，它们在第一层Dense的梯度更新幅度是其他特征的2.8倍——说明网络在早期就锁定了这些业务锚点。这就是“手工特征+神经网络”的威力：人工注入先验，网络负责精调。

2.3 标签构建的魔鬼细节：为什么“90天窗口”必须搭配“滚动预测”

很多教程把标签做成静态列：churn_label = 1 if cust_id in churn_list else 0。这在学术场景OK，但在银行实战中会致命。因为客户流失是动态过程，今天标记为“未流失”的客户，下周可能就触发预警。我们必须支持滚动预测能力——即给定任意T日，模型能输出该客户在未来30天内流失的概率。

因此，我们的标签不是静态列，而是时间切片函数：

def generate_churn_labels(df_app, df_bal, df_trans, window_days=90, pred_horizon=30): """ 生成滚动标签：对每个客户，计算其T日的流失概率标签（基于T-90到T-1的行为） 返回DataFrame，index为(cust_id, date)，columns为['churn_prob', 'churn_flag'] """ # 步骤1：按cust_id+date聚合各行为指标 df_agg = aggregate_behavior_features(df_app, df_bal, df_trans, window_days) # 步骤2：对每个(cust_id, date)计算流失信号强度（0~1连续值） df_agg['churn_score'] = ( (df_agg['app_launch_count_90d'] < 0.2).astype(int) * 0.4 + (df_agg['wealth_purchase_amt_30d_yoy'] < -0.8).astype(int) * 0.35 + (df_agg['balance_cny_30d_drop_rate'] > 0.7).astype(int) * 0.25 ) # 步骤3：将连续score映射为二分类flag（业务阈值） df_agg['churn_flag'] = (df_agg['churn_score'] >= 0.8).astype(int) return df_agg[['churn_prob', 'churn_flag']]

注意churn_prob是连续值，用于后续计算样本权重；churn_flag是二分类标签。这样，当业务方说“我们要预测未来15天流失”，只需把pred_horizon从30改成15，重新跑函数即可。模型本身不变，变的只是标签生成逻辑——这才是可持续迭代的基础。

3. 实操过程与核心环节实现

3.1 Colab环境初始化与数据加载（完整可运行代码）

以下是我们在Colab中实际运行的初始化脚本，已通过20+次环境重置验证：

# === Colab环境初始化 === import os import numpy as np import pandas as pd import tensorflow as tf from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler, LabelEncoder import matplotlib.pyplot as plt import seaborn as sns # 设置全局随机种子（Colab关键！） def set_all_seeds(seed=42): os.environ['PYTHONHASHSEED'] = str(seed) np.random.seed(seed) tf.random.set_seed(seed) set_all_seeds(42) # 安装必要库（Colab默认不带gdown） !pip install -q gdown # 从Google Drive下载数据（需提前分享链接） !gdown --id "1AbCdeFghIjKlMnOpQrStUvWxYz" --output data.zip !unzip -q data.zip -d /content/data/ # 加载四张表 df_cust = pd.read_csv('/content/data/customer_base.csv') df_app = pd.read_csv('/content/data/app_behavior_90d.csv') df_bal = pd.read_csv('/content/data/account_balance_90d.csv') df_trans = pd.read_csv('/content/data/transaction_log_90d.csv') # 数据类型优化（节省Colab内存） df_cust['cust_id'] = df_cust['cust_id'].astype('category') df_app['date'] = pd.to_datetime(df_app['date']) df_bal['date'] = pd.to_datetime(df_bal['date']) df_trans['trans_date'] = pd.to_datetime(df_trans['trans_date']) print(f"客户主表: {df_cust.shape}") print(f"App行为表: {df_app.shape}") print(f"余额表: {df_bal.shape}") print(f"交易明细表: {df_trans.shape}")

这段代码看似简单，但每行都有深意：

os.environ['PYTHONHASHSEED']解决Python字典哈希随机化问题，保证pd.merge顺序一致；
astype('category')将cust_id转为类别型，内存占用从120MB降至8MB；
pd.to_datetime()强制统一时间格式，避免Colab默认object类型导致groupby失败；
!unzip -q的-q参数禁用输出，防止Colab日志刷屏。

运行后，你会看到：

客户主表: (127000, 6) App行为表: (3200000, 6) 余额表: (1800000, 4) 交易明细表: (8900000, 5)

这正是真实银行数据的体量感——不是几千行玩具数据，而是百万级行为记录。

3.2 特征矩阵构建：从原始表到模型输入的完整流水线

特征构建函数build_feature_matrix()是我们整个项目的中枢，它把四张表揉合成一个(n_samples, n_features)矩阵。这里展示核心逻辑（完整版含127行代码，此处精简关键段）：

def build_feature_matrix(df_cust, df_app, df_bal, df_trans, window_days=90): # 步骤1：客户主表基础特征 X = df_cust.copy() # 步骤2：App行为聚合（90天窗口） df_app_agg = df_app.groupby('cust_id').apply( lambda x: pd.Series({ 'app_launch_count_90d': x['app_launch_count'].sum(), 'app_launch_mean_90d': x['app_launch_count'].mean(), 'app_launch_std_90d': x['app_launch_count'].std(ddof=0), 'app_launch_downtrend_days': count_downtrend_days(x['app_launch_count']), 'avg_stay_seconds_90d': x['avg_stay_seconds'].mean(), }) ).reset_index() X = X.merge(df_app_agg, on='cust_id', how='left') # 步骤3：余额表聚合（重点处理零余额） df_bal['balance_zero_reason'] = 0 df_bal.loc[(df_bal['balance_cny']==0) & (df_bal['salary_in_flag']==1), 'balance_zero_reason'] = 2 df_bal.loc[(df_bal['balance_cny']==0) & (df_bal['salary_in_flag']==0), 'balance_zero_reason'] = 1 df_bal_agg = df_bal.groupby('cust_id').apply( lambda x: pd.Series({ 'balance_cny_mean_90d': x['balance_cny'].mean(), 'balance_cny_std_90d': x['balance_cny'].std(ddof=0), 'balance_zero_ratio': (x['balance_zero_reason']==1).mean(), 'salary_in_days_30d': (x['salary_in_flag']==1).sum(), }) ).reset_index() X = X.merge(df_bal_agg, on='cust_id', how='left') # 步骤4：构造业务交叉特征 X['retirement_risk_score'] = ((X['age'] >= 58) * (X['wealth_purchase_amt_30d'] / (X['balance_cny_mean_90d'] + 1))) X['multi_channel_dropout'] = ((X['app_launch_count_90d'] == 0) * (X['transaction_log_count_90d'] == 0) * (1 - X['has_credit_card'])) X['salary_disruption_ratio'] = X['salary_in_days_30d'] / 30 # 步骤5：缺失值填充（用业务合理值，非均值） X['app_launch_mean_90d'] = X['app_launch_mean_90d'].fillna(0) # 未启动即为0 X['balance_cny_mean_90d'] = X['balance_cny_mean_90d'].fillna(X['balance_cny_mean_90d'].median()) # 余额用中位数 X['retirement_risk_score'] = X['retirement_risk_score'].fillna(0) # 步骤6：筛选有效特征列（共32维） feature_cols = [ 'age', 'education_level', 'employment_status', 'has_credit_card', 'is_salary_account', 'app_launch_count_90d', 'app_launch_mean_90d', 'app_launch_std_90d', 'app_launch_downtrend_days', 'avg_stay_seconds_90d', 'balance_cny_mean_90d', 'balance_cny_std_90d', 'balance_zero_ratio', 'salary_in_days_30d', 'retirement_risk_score', 'multi_channel_dropout', 'salary_disruption_ratio' ] # ...（其余15列略，含转账、理财、交易等统计特征） return X[feature_cols].values, X['cust_id'].values # 执行构建 X, cust_ids = build_feature_matrix(df_cust, df_app, df_bal, df_trans) print(f"特征矩阵形状: {X.shape}")

输出：

特征矩阵形状: (127000, 32)

这32维特征中，有18维来自原始统计，14维是业务构造。关键点在于：

app_launch_downtrend_days用自定义函数count_downtrend_days()计算，不是简单diff().lt(0).sum()，而是识别“连续3天以上逐日下降”的段数；
balance_cny_mean_90d用中位数填充，因为余额分布右偏严重（少数高净值客户拉高均值），中位数更能代表典型客户；
所有交叉特征都经过fillna(0)，避免NaN传播到后续层。

3.3 Keras模型搭建：4层Dense的每一层都承担明确业务角色

我们的模型不是黑箱，而是分层承担业务职责的精密仪器：

from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout, BatchNormalization from tensorflow.keras.optimizers import Adam from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau def create_churn_model(input_dim): model = Sequential([ # 第一层：特征初筛与非线性激活（业务锚点层） Dense(512, activation='relu', input_shape=(input_dim,), kernel_initializer='he_normal', name='dense_1'), BatchNormalization(), Dropout(0.3), # 第二层：交互强化（捕捉业务交叉效应） Dense(256, activation='relu', kernel_initializer='he_normal', name='dense_2'), BatchNormalization(), Dropout(0.25), # 第三层：风险聚焦（放大高危信号） Dense(128, activation='relu', kernel_initializer='he_normal', name='dense_3'), BatchNormalization(), Dropout(0.2), # 第四层：概率校准（输出0~1连续概率） Dense(1, activation='sigmoid', name='output') ]) # 编译：用binary_crossentropy + class_weight平衡正负样本 model.compile( optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy', 'auc'] ) return model # 创建模型 model = create_churn_model(X.shape[1]) model.summary()

模型摘要显示：

Model: "sequential" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= dense_1 (Dense) (None, 512) 16896 batch_normalization (BatchNo (None, 512) 2048 rmalization) dropout (Dropout) (None, 512) 0 dense_2 (Dense) (None, 256) 131328 batch_normalization_1 (Batc (None, 256) 1024 hNormalization) dropout_1 (Dropout) (None, 256) 0 dense_3 (Dense) (None, 128) 32896 batch_normalization_2 (Batc (None, 128) 512 hNormalization) dropout_2 (Dropout) (None, 128) 0 output (Dense) (None, 1) 129 ================================================================= Total params: 185,241 Trainable params: 183,713 Non-trainable params: 1,528

各层设计逻辑：

Dense_1（512维）：宽输入层，让网络充分“看”到所有特征，he_normal初始化适配ReLU，Dropout=0.3防过拟合；
Dense_2（256维）：开始压缩，BatchNorm稳定训练，此层梯度分析显示retirement_risk_score和multi_channel_dropout的权重更新最剧烈；
Dense_3（128维）：风险聚焦层，Dropout=0.2降低，让高危信号更稳定输出；
Output层：单神经元Sigmoid，输出流失概率。

提示：不要迷信“更深更好”。我们试过6层模型（1024→512→256→128→64→1），验证集AUC仅提升0.002，但训练时间翻倍，且在上线后KS稳定性下降8%。4层是精度、速度、稳定性的最佳交点。

3.4 训练策略与样本加权：用业务逻辑修正数据偏差

银行数据天然存在严重不平衡：流失客户仅占2.3%（127000×0.023≈2921人）。如果直接用class_weight='balanced'，模型会过度关注少数正样本，导致对高价值客户的误判率飙升。我们的解决方案是：业务加权法——不是按样本数量倒置，而是按客户价值倒置。

我们定义样本权重sample_weight为：

weight_i = 1 + (customer_value_i / median_customer_value) × churn_risk_coefficient

其中customer_value_i是客户过去12个月AUM（资产管理规模）均值，churn_risk_coefficient=3.0（经AB测试确定）。这样，一个AUM 500万的客户，其流失权重是AUM 50万客户的10倍（1 + (500/50)×3 = 10），符合“保大客户”业务原则。

完整训练代码：

# 计算客户价值（模拟AUM） df_cust['aum_12m'] = ( df_bal.groupby('cust_id')['balance_cny'].mean() * 0.6 + # 活期贡献60% df_app.groupby('cust_id')['wealth_purchase_amt'].sum() * 0.4 # 理财贡献40% ) # 计算样本权重 median_aum = df_cust['aum_12m'].median() df_cust['sample_weight'] = 1 + (df_cust['aum_12m'] / median_aum) * 3.0 # 构建标签（调用前面的generate_churn_labels） y = generate_churn_labels(df_app, df_bal, df_trans)['churn_flag'].values # 划分训练/验证集（分层抽样，保持正样本比例） X_train, X_val, y_train, y_val, sw_train, sw_val = train_test_split( X, y, df_cust['sample_weight'].values, test_size=0.2, stratify=y, random_state=42 ) # 标准化（仅对数值特征，类别特征已编码） scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_val_scaled = scaler.transform(X_val) # 定义回调函数 early_stopping = EarlyStopping( monitor='val_auc', patience=15, restore_best_weights=True, mode='max' ) reduce_lr = ReduceLROnPlateau( monitor='val_loss', factor=0.5, patience=5, min_lr=1e-7, mode='min' ) # 训练 history = model.fit( X_train_scaled, y_train, sample_weight=sw_train, # 关键：传入业务加权 validation_data=(X_val_scaled, y_val, sw_val), epochs=100, batch_size=1024, callbacks=[early_stopping, reduce_lr], verbose=1 )

训练完成后，我们得到：

训练集AUC：0.862
验证集AUC：0.847
验证集KS：0.523（远高于逻辑回归的0.412）

注意：validation_data中第三个参数sw_val是验证集样本权重，Keras原生支持，但文档极少提及。这确保验证指标也按业务价值加权，避免“好看但无用”的过拟合。

4. 常见问题与排查技巧实录

4.1 AUC很高但线上KS暴跌？检查这3个隐藏陷阱

我经历过最痛的一次：模型在Colab验证集AUC=0.852，KS=0.531，信心满满上线。结果首周线上KS跌到0.41，客户经理抱怨“预警全是老客户，新流失客户一个没抓到”。排查三天，发现是三个隐蔽问题：

陷阱1：时间穿越（Time Travel）
我们在特征工程中用了df_app.groupby('cust_id')['app_launch_count'].sum()，但app_behavior_90d.csv里有一批测试数据，date字段是2023-12-01到2024-02-28，而标签生成用的是T-90到T-1。当模型在2024-03-01预测时，它

查看全文

http://www.cnnetsun.cn/news/2507896.html