当前位置：首页 > news >正文

航空客户流失预测全流程实战包：清洗数据+决策树建模+可视化报告

news 2026/6/9 7:45:02

本文还有配套的精品资源，点击获取

简介：直接上手就能跑的航空业客户流失预测教学资源，包含原始数据air_data.csv和多阶段处理结果：data_cleaned.csv（已清洗）、data_standard.csv（标准化后）、data_explored.csv（含基础探索分析）、data_changed.csv与data_changed2.csv（用于不同变换验证）。代码部分覆盖完整建模链路：untitled2.py做数据预处理，untitled3.py构建决策树模型，untitled4.py输出混淆矩阵并调用cm_plot.py绘图，tree.pdf为最终生成的可读决策树结构图。配套报告.docx详细说明特征工程逻辑、模型评估指标（准确率、召回率、F1值）及可落地的业务建议。所有脚本基于Python编写，依赖库列在requirements.txt中，适配主流环境，开箱即用，特别适合高校数据挖掘课程实验或初学者快速掌握客户流失建模全流程。

1. 项目概述：为什么航空公司的客户流失预测不能只靠“感觉”？

你有没有坐过某家航空公司的航班，之后半年内再没收到过它的促销短信？或者明明常飞京沪线，却突然发现积分兑换的舱位越来越少、升舱通知越来越迟？这不是偶然——这是客户正在无声流失的信号。在航空业，一个高价值常旅客的终身价值（LTV）可能高达数十万元，而获取一个新客户的成本，是维系老客户的5倍以上。所以，客户流失预测不是锦上添花的数据游戏，而是航空公司营收防线的第一道闸门。我带过三届数据挖掘课，每年都有学生拿着“准确率92%”的模型来交作业，结果一问业务场景就卡壳：“这个模型说张三会流失，那地服人员该给他发什么券？什么时候发？发多少？”——这恰恰暴露了当前教学中最大的断层：模型跑得通，但离真实业务闭环还差三步：懂数据从哪来、懂特征为什么这么选、懂结果怎么变成动作。

这个资源包，就是我用三年时间打磨出来的“闭环教学切片”。它不讲抽象算法推导，也不堆砌Scikit-learn参数文档，而是把一次真实的航司客户流失分析，拆解成你能亲手触摸的每一步：从打开air_data.csv看到第一行乱码字段开始，到清洗出结构清晰的data_cleaned.csv；从发现“飞行频次”和“平均票价”存在强共线性，到手动构造“价格敏感度比值”这一关键衍生特征；从决策树深度调参时观察过拟合拐点，到最终生成tree.pdf里那棵能被市场部总监一眼看懂的决策树——比如“若近6个月无飞行记录且会员等级≤银卡且历史投诉次数≥2，则流失概率87%”。配套的.docx报告不是模板套话，里面每一条业务建议都标注了执行部门（如“客户服务部应在检测到‘投诉后30天未复购’信号时，触发专属关怀电话流程”），甚至列出了所需IT系统接口字段。所有Python脚本（untitled2.py到untitled4.py）都加了中文注释断点，你可以随时在data_changed2.csv里改一行数据，立刻看到模型输出如何变化。这不是玩具数据集，原始air_data.csv里藏着真实航司脱敏后的12万条客户行为记录：包含非结构化字段如“最后一次服务接触渠道”（文本）、时间序列字段如“近12个月各季度飞行次数”（需展开为4列）、以及典型的业务陷阱字段如“总里程”（含作废里程、未入账里程等需清洗）。关键词里的“航空数据清洗”之所以排在第一位，正是因为——没有干净的数据，再深的树也长不出果实；而清洗的逻辑，恰恰是理解航空业务最硬的敲门砖。

2. 数据全流程解析：从原始CSV到可建模结构的七道工序

2.1 原始数据`air_data.csv`的“暗礁地图”

刚打开air_data.csv时，别急着写pd.read_csv()。先用文本编辑器看前10行，你会立刻踩到第一个坑：编码混乱。文件实际是GBK编码，但默认读取会报错UnicodeDecodeError。这不是bug，是航司历史系统遗留问题——当年订座系统用的是Windows-936字符集。我试过直接encoding='gbk'，结果发现部分字段（如客户备注）仍有乱码，最终方案是：先用chardet库探测，再用iconv命令行工具批量转码（iconv -f gbk -t utf-8 air_data.csv > air_data_utf8.csv）。这一步看似琐碎，但决定了后续所有清洗的根基。第二个暗礁是缺失值的业务含义差异：FREQ_POINTS（累计积分）字段为空，可能是新注册用户（真缺失），也可能是积分已清零的老用户（逻辑零值）；而LAST_FLIGHT_DATE（最后飞行日期）为空，则大概率是从未飞行过的“僵尸账户”，必须与活跃用户区分处理。第三个致命陷阱是字段类型误判：MEMBER_LEVEL（会员等级）被读成数字型，但实际是文本（“金卡”“白金卡”），直接做数值计算会出错；FLIGHT_COUNT_6M（近6个月飞行次数）有负值——查日志发现是系统错误将退票记录记为-1次，需统一置0。这些细节在requirements.txt里没写，但untitled2.py第47行专门写了# 【业务注释】退票异常值修正：负值统一归零，依据2023年Q2运维日志ID#A7821。

2.2 清洗核心：七步构建`data_cleaned.csv`

清洗不是删除脏数据，而是给数据赋予业务语义。我按优先级拆解为七步，每步都对应untitled2.py中的独立函数：

空值语义化填充：对LAST_FLIGHT_DATE为空的记录，新增IS_NEVER_FLY布尔字段（True=从未飞行）；对FREQ_POINTS为空，按会员等级分组填充中位数（金卡组填12500，银卡组填3200），而非简单填0——因为积分清零用户仍有消费潜力。
异常值业务校准：FLIGHT_COUNT_6M负值归零后，对>100的极端值（占0.3%）不做删除，而是创建IS_FREQUENT_FLYER_OUTLIER标志字段。为什么？因为航司VIP部明确要求识别“超高频旅客”，这类人虽少但贡献35%营收。
文本字段结构化：SERVICE_CHANNEL_LAST（最后服务渠道）含“APP”“微信”“柜台”“电话”等12种值，但原始数据有拼写错误（如“微 Xin”“APP_”）。用fuzzywuzzy库做模糊匹配归类，再映射为有序变量（APP=3，微信=2，柜台=1，电话=0），便于后续模型理解渠道效率梯度。
时间字段工程化：LAST_FLIGHT_DATE转为DAYS_SINCE_LAST_FLIGHT（距今天数），并衍生IS_RECENT_ACTIVE（<30天为True）。关键点：用pd.to_datetime()时指定errors='coerce'，将无法解析的日期（如“2023-13-01”）转为NaT，再统一归入“日期异常”类别。
冗余字段剔除：删除CUSTOMER_ID_HASH（加密ID，无分析价值）和RAW_XML_LOG（原始日志文本，体积大且未解析）。但保留CREATION_DATE（注册日期），用于计算ACCOUNT_AGE_DAYS（账户年龄）。
关键衍生特征构造：这是航空业特有逻辑。例如PRICE_SENSITIVITY_RATIO = AVG_TICKET_PRICE / (TOTAL_MILEAGE / FLIGHT_COUNT_TOTAL)，分子是均价，分母是“每里程花费”，比值越高说明客户越愿为服务溢价买单。该指标在data_explored.csv的皮尔逊相关性矩阵中，与流失标签的相关系数达-0.63（负相关），是TOP3强特征。
样本平衡处理：原始流失率仅8.2%，直接建模会导致模型偏向多数类。untitled2.py第121行采用SMOTE过采样，但仅对少数类（流失客户）的KNN邻域内插值，避免生成不合理的“飞行0次却流失”的虚假样本——这是我在某航司POC中踩过的坑，后来加了业务约束：新生成样本的FLIGHT_COUNT_6M必须≥1。

最终生成的data_cleaned.csv共42个字段，其中17个为原始字段清洗后保留，25个为业务衍生特征。所有字段名均采用蛇形命名（如days_since_last_flight），并在data_explored.csv的首行添加中文注释（用;分隔），方便非技术同事查阅。

2.3 标准化与探索性分析：`data_standard.csv`与`data_explored.csv`的实战价值

标准化不是为了“看起来更规范”，而是解决航空数据特有的量纲灾难。比如TOTAL_MILEAGE（总里程）范围是0~200万，而COMPLAINT_COUNT（投诉次数）是0~15，若直接输入决策树，前者会因数值大而被错误赋予更高权重。untitled2.py中采用RobustScaler而非StandardScaler，因为后者对异常值敏感，而航空数据中“黑金卡”客户里程常达百万级，属于合理异常值。RobustScaler用四分位距（IQR）缩放，公式为(X - Q1) / (Q3 - Q1)，对FLIGHT_COUNT_6M等右偏分布更鲁棒。

data_explored.csv的价值远超基础统计。它包含三个核心层：
-单变量分布层：每个数值字段附带直方图+箱线图，特别标注业务阈值线（如DAYS_SINCE_LAST_FLIGHT的30天、90天、180天运营警戒线）；
-双变量关系层：用散点图矩阵（sns.pairplot）展示PRICE_SENSITIVITY_RATIO与MEMBER_LEVEL_NUM（会员等级数值化）的关系，发现白金卡客户中该比值呈双峰分布——一峰是高价公务客（比值>1.8），一峰是低价家庭客（比值<0.9），这对分群营销至关重要；
-目标变量关联层：流失标签与各字段的卡方检验p值、信息增益（IG）值，直接指导特征筛选。例如SERVICE_CHANNEL_LAST_ENCODED（渠道编码）的IG=0.18，高于GENDER（性别）的0.02，证明渠道选择比性别更能预示流失。

这些分析结果不是静态快照。untitled2.py第205行调用explore_data()函数时，会自动生成HTML交互式报告（用pandas-profiling），点击任意字段即可下钻查看分组流失率——比如点击MEMBER_LEVEL，立刻显示“金卡流失率12.3%，白金卡流失率5.7%，黑金卡流失率3.1%”，这才是业务部门真正需要的洞察。

3. 决策树建模与可视化：从代码到可解释业务逻辑的树图

3.1 模型设计哲学：为什么选决策树而非XGBoost？

课程实验常陷入一个误区：追求模型指标的“天花板”。我曾让学生用XGBoost把准确率刷到94.2%，但当要求解释“为什么李四被判定为高流失风险”时，没人能说清。而航空业风控的核心诉求是可解释性驱动行动。决策树天然具备三点优势：第一，tree.pdf里的每个节点都是“如果…那么…”的业务规则，市场部可直接转化为SOP；第二，特征重要性排序（feature_importances_）直观显示哪些因素真正驱动流失，比如在本例中DAYS_SINCE_LAST_FLIGHT重要性0.31，远超AGE的0.07；第三，剪枝后的树深度可控，避免过拟合的同时保持业务可读性。当然，我们没放弃提升效果——untitled3.py中采用Bagging集成策略：训练10棵决策树，每棵树用Bootstrap抽样，最终预测取众数。这既保留了解释性（可查看任一棵树），又将F1值从单棵树的0.72提升至0.79。

3.2 关键参数调优：深度、最小样本分裂与不纯度的业务权衡

决策树不是调参游戏，每个参数背后都是业务成本考量。untitled3.py中核心参数设置如下：

max_depth=5：深度超过5层后，叶子节点样本量常<50，规则过于细分（如“金卡且APP渠道且投诉1次且飞行频次3.2”），失去泛化能力。实测深度5时，测试集召回率（识别流失客户能力）达81.3%，足够支撑预警。
min_samples_split=100：要求内部节点分裂前至少100个样本。设太小（如20）会导致树为少数异常样本过度分裂；设太大（如500）则欠拟合。100是基于航司历史预警工单量设定的——单次人工干预成本约200元，需保证每个预警信号覆盖至少100人以摊薄成本。
criterion='entropy'：选用信息熵而非基尼不纯度。熵对小概率事件更敏感，而流失本身是低概率事件（8.2%），用熵能更好捕捉流失客户的细微特征差异。验证时对比两者：熵的召回率高3.2个百分点。

调参过程不是网格搜索，而是业务导向的阶梯测试。untitled3.py第88行起的test_depth_impact()函数，会循环测试max_depth从3到8，每次输出三组数据：测试集准确率、流失类别的召回率、以及生成树的节点总数。我们发现深度5时，召回率81.3%→81.5%（+0.2%），但节点数从127→203（+59%），意味着规则复杂度陡增，而业务收益微乎其微，故果断截断。

3.3 混淆矩阵可视化：`cm_plot.py`如何让评估指标“开口说话”

untitled4.py调用cm_plot.py生成的混淆矩阵图，不是简单的四格表。它做了三层增强：

绝对数值与相对比例双标注：每个格子同时显示数字（如“TN: 8923”）和百分比（“89.2%”），避免因样本不均衡产生的误导。比如若只看数字，FP（误报）87可能显得多，但占比仅0.9%，说明预警精准度高。
业务影响色阶：用暖色（红→橙）突出FN（漏报流失客户），因为漏报直接导致收入损失；用冷色（蓝→青）标注FP（误报），因为误报仅增加少量客服成本。颜色深浅与数值对数成正比，一眼识别最大风险点。
指标卡片嵌入：图右上角直接显示计算出的四大指标：准确率（Accuracy）=91.4%，精确率（Precision）=76.3%（预警客户中真流失的比例），召回率（Recall）=81.3%（所有流失客户中被预警的比例），F1值=78.7%。特别标注“业务关注重点：召回率>80%达标”，呼应航司KPI。

这张图的价值在于：当市场部质疑“为什么预警了1000人，只挽回了763人？”时，你可以指着图说：“我们漏掉了187个流失客户（FN），但避免了8923个正常客户被打扰（TN）。若强行提升召回率到90%，FP会激增至1200人，客服热线将瘫痪。”——数据可视化成了业务对话的通用语言。

3.4`tree.pdf`：一棵能被业务部门读懂的决策树

untitled3.py第156行调用export_graphviz生成DOT文件，再用Graphviz转PDF。但这棵树经过精心修剪：
-节点精简：删除所有样本量<50的叶子节点，合并为父节点的“其他”分支；
-标签优化：将DAYS_SINCE_LAST_FLIGHT <= 90.0改为“距今飞行≤90天”，MEMBER_LEVEL_NUM >= 3.0改为“会员等级≥金卡”；
-关键路径高亮：用粗边框标出最高流失概率路径（概率>85%的叶子），本例中是：DAYS_SINCE_LAST_FLIGHT > 180 → COMPLAINT_COUNT >= 2 → SERVICE_CHANNEL_LAST_ENCODED <= 1，即“180天未飞行且投诉≥2次且最后渠道为柜台/电话”，这条路径覆盖12.3%的流失客户，成为地服部重点回访清单。

我曾把tree.pdf打印出来贴在航司客户中心墙上，一线员工指着“投诉≥2次”节点说：“原来我们上次没跟进第二次投诉，就丢了这个客户！”——这才是模型落地的真实瞬间。

4. 全流程实操指南：从环境配置到报告交付的逐行拆解

4.1 环境搭建：避开Python依赖的“经典三坑”

requirements.txt列了12个库，但实际运行常卡在三个地方：

Graphviz安装陷阱：pip install graphviz只装Python绑定，不装底层引擎。必须单独下载Graphviz二进制包（官网graphviz.org），安装后将bin目录加入系统PATH。Windows用户尤其注意：安装时勾选“Add Graphviz to the system PATH for all users”，否则tree.pdf生成会报ExecutableNotFound。
pandas-profiling弃用问题：新版已更名为ydata-profiling。untitled2.py第198行from pandas_profiling import ProfileReport需改为from ydata_profiling import ProfileReport，且初始化参数ProfileReport(df, minimal=True)中minimal=True必须显式声明，否则启动极慢。
中文显示乱码：cm_plot.py中plt.title()若含中文，需在plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS']后加plt.rcParams['axes.unicode_minus'] = False，否则负号显示为方块。

我的建议是：直接用conda环境。environment.yml文件（虽未提供，但可快速创建）内容如下：

name: airline-churn channels: - conda-forge dependencies: - python=3.9 - pandas=1.5.3 - scikit-learn=1.2.2 - matplotlib=3.7.1 - seaborn=0.12.2 - ydata-profiling=4.6.6 - graphviz=0.20.1 - pip - pip: - pydot==1.4.2

运行conda env create -f environment.yml一键解决90%依赖问题。

4.2 脚本执行链：四步完成端到端流程

整个流程严格遵循untitled2.py → untitled3.py → untitled4.py顺序，不可跳步：

数据清洗（untitled2.py）：
运行前检查data/目录下是否存在air_data.csv，若无则报错退出。脚本会自动创建data_cleaned.csv、data_standard.csv等中间文件，并在控制台输出清洗摘要：
✅ 成功清洗124,872条记录 | 🗑️ 删除无效记录3,211条 | ➕ 新增衍生特征25个 | 📊 探索性分析报告已保存至data_explored.html
关键提示：若修改了清洗逻辑（如调整min_samples_split），必须重新运行此脚本，否则后续模型基于脏数据。
模型训练（untitled3.py）：
加载data_standard.csv，自动分离特征矩阵X与目标向量y。训练完成后，除保存model.pkl外，还会生成feature_importance.csv（按重要性降序排列的42个特征）和tree.dot（决策树源文件）。此时可手动执行dot -Tpdf tree.dot -o tree.pdf验证图形生成。
评估与可视化（untitled4.py）：
加载训练好的模型，对测试集（data_standard.csv的20%）进行预测，调用cm_plot.py生成混淆矩阵图confusion_matrix.png，并打印详细评估报告：
【模型评估摘要】准确率: 91.4% | 精确率: 76.3% | 召回率: 81.3% | F1值: 78.7% ▶️ 高风险预警：1,024人（其中827人确认流失） ▶️ 漏报客户：187人（需回溯原因）
报告整合（报告.docx）：
此文件不是静态文档。我预留了“动态插入区”：将feature_importance.csv的TOP10特征、confusion_matrix.png、tree.pdf的缩略图，按固定格式粘贴到Word对应位置。文末“业务建议”章节，每条都标注了执行部门和时效要求（如“客户服务部：在检测到‘投诉后30天未复购’信号后，72小时内触发关怀电话”）。

4.3 常见问题排查：那些让你抓狂的“幽灵错误”

根据三届学生的调试记录，整理高频问题及根因：

问题现象	根本原因	解决方案	实操心得
`ValueError: Input contains NaN`	`untitled3.py`加载了未清洗的`air_data.csv`，而非`data_standard.csv`	检查`untitled3.py`第22行`pd.read_csv('data/data_standard.csv')`路径是否正确；用`df.isnull().sum()`确认无缺失值	永远不要信任文件名！在`untitled3.py`开头加`assert not df.isnull().values.any(), "检测到缺失值，请先运行untitled2.py"`
`tree.pdf`为空白或报错`SyntaxError in line 1 of file`	Graphviz未安装或PATH未配置；或`tree.dot`中含中文字符（Graphviz旧版不支持）	升级Graphviz至2.49+；在`export_graphviz`中添加`encoding='utf-8'`参数	中文标签用拼音缩写（如`last_flight_days`），在图例中用中文注释，兼顾兼容性与可读性
混淆矩阵图中FN格子为0，但业务反馈漏报严重	测试集划分方式错误：`train_test_split`未设置`stratify=y`，导致测试集中流失客户极少	在`untitled4.py`中`train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)`必须加`stratify=y`	分层抽样是分类任务的生命线，尤其对不平衡数据，漏掉这行等于重跑全部实验
`PRICE_SENSITIVITY_RATIO`计算结果全为inf	`FLIGHT_COUNT_TOTAL`存在0值，导致除零	在`untitled2.py`衍生特征构造处，添加`df['FLIGHT_COUNT_TOTAL'] = df['FLIGHT_COUNT_TOTAL'].replace(0, 1)`	航空数据中“0飞行次数”客户占12%，他们不是异常值，而是真实群体（如积分兑换者），需业务定义替代值

5. 业务落地延伸：从课堂实验到航司真实系统的三步跃迁

5.1 教学到生产的鸿沟：为什么`tree.pdf`不能直接上线？

学生常问：“这个模型能不能直接部署到航司系统？”答案是：能，但必须重构。tree.pdf是教学简化版，真实生产需三重升级：

实时性改造：当前模型基于静态快照（data_standard.csv），而航司需要流式计算。需将决策树逻辑封装为API服务（Flask/FastAPI），输入为实时客户ID，服务从Redis缓存中拉取最新行为数据（如“最近1小时APP登录次数”），计算DAYS_SINCE_LAST_FLIGHT等指标后返回流失概率。untitled3.py中的predict_proba()方法正是为此预留的接口。
监控体系嵌入：上线后必须监控数据漂移。例如若某月DAYS_SINCE_LAST_FLIGHT的分布右移（更多客户长时间未飞行），说明模型失效。可在untitled4.py中扩展monitor_drift()函数，定期计算KS检验值，超阈值（0.2）则告警。
AB测试框架：不能全量推送预警。应将客户随机分为A组（接收预警干预）、B组（不干预），对比两组30天后复购率差异。report.docx中“业务建议”章节已预留AB测试方案模板。

5.2 特征工程的进阶方向：超越`untitled2.py`的五个实战技巧

untitled2.py是入门基石，真实项目还需深化：

时间序列特征：当前FLIGHT_COUNT_6M是标量，可升级为滑动窗口特征——用pandas.DataFrame.rolling(6).mean()计算近6个月飞行频次的移动平均，捕捉趋势变化。
图神经网络（GNN）应用：客户间存在社交关系（同行预订），可用GNN建模“朋友流失”对个体的影响。虽超出本包范围，但data/目录下social_network.csv（模拟数据）已预留接口。
文本挖掘强化：SERVICE_NOTES（服务备注）字段含大量投诉原因，可用BERT微调提取“服务态度差”“航班延误”等主题，作为新特征。
外部数据融合：接入天气API（航班延误主因）、经济指数（影响商务出行），提升模型宏观解释力。
可解释性增强：用SHAP值替代特征重要性，为每个客户生成个性化解释（如“张三流失概率87%，主要因180天未飞行（贡献+42%）和投诉2次（贡献+31%）”）。

5.3 给教师与学生的实操建议：如何最大化这个资源包的价值

给教师：不要让学生直接运行脚本。第一课布置“阅读untitled2.py，找出3处业务逻辑判断，并说明若航司政策变更（如取消银卡），哪些代码需修改”。这迫使学生穿透代码看业务。
给学生：运行完标准流程后，务必做“破坏性实验”：将data_cleaned.csv中DAYS_SINCE_LAST_FLIGHT列全部加100，再跑模型，观察tree.pdf中根节点分裂阈值如何变化。这种逆向操作，比背100遍公式更能理解模型本质。
给自学者：重点关注report.docx的“特征选择依据”章节。那里列出了每个TOP10特征的业务定义、计算逻辑、与流失的相关性方向（正/负），这是理解航空业客户行为的密码本。

最后分享一个小技巧：在untitled4.py的评估环节，我额外计算了业务成本矩阵。假设漏报一个流失客户损失5000元（LTV），误报一个客户增加200元客服成本，则最优阈值不是0.5，而是使总成本最小的点。运行find_optimal_threshold()函数，得到阈值0.43，此时F1值略降为0.77，但预期成本降低23%。这才是数据科学该有的样子——用数学优化业务结果，而非追逐虚幻的指标峰值。

本文还有配套的精品资源，点击获取

查看全文

http://www.cnnetsun.cn/news/2839869.html