当前位置：首页 > news >正文

Pandas多维聚合实战：金融风控中的高效分组与聚合技巧

news 2026/6/6 0:51:18

1. 项目概述：为什么“多维聚合”不是Pandas进阶技巧，而是业务分析的生存技能

我在银行风控部门干了七年，从刚毕业写SQL查数的分析师，到带三个人小团队做反欺诈模型的数据架构师。这七年里，我亲手重构过四套核心报表系统，也给二十多个业务部门做过数据赋能培训。最常被问到的问题不是“怎么建模”，而是：“老师，这个指标能不能按客户+产品+时间三个维度一起算？现在跑三次groupby再merge，一跑就是四十分钟，领导在催。”——这句话背后，藏着的是真实世界里每天都在发生的效率损耗、逻辑错位和决策延迟。

“Part 20: Data Manipulation in Multi-Dimensional Aggregation”这个标题听起来像教科书里的章节编号，但在我日常工作中，它对应的是一个活生生的业务场景：信用卡中心要给每个客户打“消费健康度”标签，这个标签必须同时考虑ta过去90天在餐饮、零售、旅游三大类别的平均单笔金额、交易频次波动率、最大单笔与最小单笔的差值（即range），还要叠加最近7天滚动均值对比历史均值的偏离度。你没法用一个sum()搞定，也不能靠三个独立的groupby拼接——因为一旦客户在某类别下没交易，缺失值处理方式不同，最终结果就全乱了。

这就是为什么我把“多维聚合”称为生存技能。它不是炫技，而是把业务语言翻译成数据语言的底层编译器。金融分析师说“看下华东区高端客群在奢侈品品类的毛利贡献趋势”，风险经理说“找出近三个月在跨境支付中单笔超5万美元且频率突增的商户”，运营总监说“对比新老客在首单后第7/14/30天的复购金额分布”——这些句子拆解下来，全是多维分组+复合聚合+时序窗口+自定义逻辑的组合拳。而pandas的agg()、rolling()、expanding()、unstack()这一套API，就是我们手里的瑞士军刀。它不解决“要不要做风控”的战略问题，但它决定了“能不能在T+1早上9点前把准确的高危名单推送到业务钉钉群”这个战术生死线。

我见过太多团队卡在这一步：ETL工程师坚持用Spark SQL写三层嵌套子查询，结果调度失败日志堆满屏幕；BI工程师把所有逻辑塞进Power BI的DAX，刷新一次等八分钟；甚至有团队为一个“分区域-分产品-分月度的滚动3个月客单价”指标，专门开了个Python微服务，只为避免前端卡死。其实，只要真正吃透pandas里groupby对象的“可组合性”，90%的这类需求，一行agg()调用就能扛住百万级数据量，本地笔记本上3秒出结果。这不是理论，是我上周刚帮信贷部上线的实时监控看板——他们原来用Tableau连Oracle，每次切筛选器都要等12秒，现在换成pandas+Streamlit，响应压到400毫秒以内，业务方自己就能调参。

所以，这篇文章不讲“pandas有多强大”，只讲“你在银行/保险/电商/物流公司的真实工位上，明天就能抄作业的七种硬核写法”。我会拆开每一个案例背后的业务动因：为什么range比std更受风控青睐？为什么滚动窗口必须设min_periods=3而不是默认的None？为什么unstack之后一定要用fill_value=0而不是留着NaN？这些细节，文档里不会写，但踩过坑的人一眼就懂。

2. 核心设计思路：从“能跑通”到“能交付”的四层跃迁

很多工程师写完一个groupby agg()能输出结果，就以为任务完成了。但在生产环境里，这仅仅是万里长征第一步。我总结出从“能跑通”到“能交付”的四层跃迁，每一层都对应着真实业务场景中的致命陷阱。下面这四层，不是技术难度递进，而是业务责任递进——越往上，你离业务决策就越近。

2.1 第一层：语法正确 ≠ 逻辑正确

这是新手最容易栽跟头的地方。比如原文中那个df.groupby('merchant_category').agg({'transaction_amount': ['mean','median']})，语法绝对没问题，输出也漂亮。但如果你真拿这个结果去给财务部汇报，第二天就会被叫去喝茶。为什么？因为mean和median对异常值的敏感度差异极大，而金融数据里永远有黑天鹅。我经手过一个案例：某支付机构的“Dining”类目平均交易额显示是55.1元，看着很健康。但点开明细才发现，其中混着一笔38万元的婚宴预付款——这笔钱拉高了mean，却对median毫无影响。财务部按mean做预算，结果实际现金流预测偏差了23%。

解决方案不是不用mean，而是强制要求所有聚合必须配套分布描述。我的标准操作是：

# 永远不单独用mean，必须配count+std+min+max+25%/75%分位数 agg_spec = { 'transaction_amount': [ 'mean', 'median', 'count', 'std', pd.NamedAgg(column='transaction_amount', aggfunc=lambda x: x.quantile(0.25)), pd.NamedAgg(column='transaction_amount', aggfunc=lambda x: x.quantile(0.75)), pd.NamedAgg(column='transaction_amount', aggfunc='min'), pd.NamedAgg(column='transaction_amount', aggfunc='max') ] }

这样输出的列名会自动带上函数名，业务方一眼就能看出哪个是稳健指标（median），哪个是易偏指标（mean），哪个是风险信号（max-min）。别嫌列多，业务方宁可看满屏数字，也不要被一个孤零零的mean误导。

2.2 第二层：结果可用 ≠ 系统可集成

很多分析师导出CSV给下游，觉得万事大吉。但真正的生产系统需要的是结构化、可预测、无歧义的数据契约。原文示例中result = df.groupby(...).agg({...})输出的是MultiIndex DataFrame，外层是原始列名，内层是函数名。这种结构对pandas友好，但对Java写的风控引擎、Go写的报表服务、甚至Excel里的VLOOKUP都是灾难——它们无法稳定解析('transaction_amount', 'mean')这样的元组列名。

我的实战方案是三步标准化：

扁平化列名：用result.columns = ['_'.join(col).strip() for col in result.columns.values]把('transaction_amount', 'mean')变成transaction_amount_mean；
重命名业务语义：result = result.rename(columns={'transaction_amount_mean': 'avg_txn_amt'})，让列名直接对应业务术语；
注入元数据：在DataFrame的attrs属性里存业务说明：

result.attrs['business_definition'] = "avg_txn_amt: 客户在该商户类别的平均单笔交易金额，用于评估客均价值" result.attrs['data_source'] = "源表：ods_credit_card_txn，更新频率：T+1"

这样下游系统读取时，不仅能拿到干净列名，还能通过result.attrs获取上下文，避免“这个avg_txn_amt到底指什么”的扯皮。

2.3 第三层：单次计算 ≠ 持续迭代

业务需求永远在变。今天要“按区域+产品”，明天就要“按区域+产品+客户等级”，后天可能加个“近30天vs近90天对比”。如果每次需求变更都重写整个agg逻辑，维护成本指数级上升。我见过一个报表系统，因为聚合逻辑散落在27个Jupyter Notebook里，当监管要求新增“跨境交易占比”指标时，三个工程师花了两周才理清依赖关系。

破局关键是聚合逻辑的模块化封装。我把所有业务指标抽象成“原子函数”，每个函数只做一件事，且自带文档和校验：

def calc_avg_txn_amt(series): """计算平均交易金额，自动过滤无效值（<1元或>100万）""" valid_series = series[(series >= 1) & (series <= 1000000)] if len(valid_series) == 0: return np.nan return valid_series.mean() def calc_txn_range(series): """计算交易金额范围（max-min），要求至少3个有效值，否则返回NaN""" valid_series = series[(series >= 1) & (series <= 1000000)] if len(valid_series) < 3: return np.nan return valid_series.max() - valid_series.min()

然后用字典动态组装聚合规则：

# 需求变更时，只需改这里，逻辑复用率100% base_metrics = { 'transaction_amount': [calc_avg_txn_amt, calc_txn_range], 'processing_fee': [lambda x: x.mean(), lambda x: x.std()] } # 新增客户等级维度？直接扩展groupby字段，聚合逻辑不动 result = df.groupby(['region', 'product', 'customer_tier']).agg(base_metrics)

这套模式让我负责的风控指标库，三年内新增43个指标，但核心聚合模块代码行数只增加了不到200行。

2.4 第四层：本地快跑 ≠ 生产稳跑

最后也是最致命的一层：在Jupyter里跑得飞快的代码，扔进Airflow调度就OOM。根本原因在于pandas的链式操作会隐式创建大量中间副本。比如原文中df.groupby(...).rolling(window=3).mean().reset_index(level=0, drop=True)，表面上是一行，实际执行时pandas会先生成完整的MultiIndex结果，再重置索引——内存占用是原始数据的3倍以上。

生产环境的黄金法则是：所有聚合必须流式处理，禁止全量加载。我的方案是分两步：

预过滤：在groupby前用query()或loc[]筛掉90%无关数据；
分块聚合：对超大数据集，用pd.read_csv(..., chunksize=50000)分批处理，每批独立agg后concat：

def safe_groupby_agg(file_path, group_cols, agg_dict, chunk_size=50000): results = [] for chunk in pd.read_csv(file_path, chunksize=chunk_size): # 每批独立过滤和聚合 filtered = chunk.query("transaction_amount > 1 and transaction_amount < 1000000") if len(filtered) == 0: continue chunk_result = filtered.groupby(group_cols).agg(agg_dict) results.append(chunk_result) return pd.concat(results).groupby(level=0).sum(min_count=1) # 最终合并

这套方法让我们处理12亿行交易日志时，内存峰值稳定在4GB以内，而原生写法直接爆到32GB。记住：生产环境里，快不是目的，稳才是底线。

3. 实操细节深挖：七个高频场景的避坑指南

光知道API怎么用远远不够。我在银行真实项目中踩过的坑，90%都藏在参数细节里。下面这七个场景，每个都附带血泪教训和可直接复制的解决方案。别跳过——这些细节，往往就是你和“能跑通”之间那0.1秒的差距。

3.1 多列多函数聚合：为什么你的列名总乱套？

原文示例中df.groupby('merchant_category').agg({'transaction_amount': ['mean','median']})输出的列是MultiIndex，但很多人不知道：当你对同一列应用多个函数时，pandas默认用函数名作内层索引；而对不同列用相同函数时，它又用列名作外层索引。这种“智能”在复杂聚合时就是灾难。

比如你要同时算amount的mean和fee的mean：

# 危险写法！列名会变成 ('amount', 'mean') 和 ('fee', 'mean')，但你想统一叫 avg_amount / avg_fee result = df.groupby('category').agg({'amount': 'mean', 'fee': 'mean'}) # 正确写法：用NamedAgg强制指定输出列名 result = df.groupby('category').agg( avg_amount=('amount', 'mean'), avg_fee=('fee', 'mean'), txn_count=('amount', 'count') )

这样输出的列名就是干净的avg_amount、avg_fee，无需后续重命名。更重要的是，NamedAgg支持任意可调用对象，你可以把自定义函数也塞进去：

result = df.groupby('category').agg( avg_amount=('amount', 'mean'), risk_score=('amount', calc_risk_score) # 直接传函数引用 )

3.2 自定义函数：为什么lambda在生产环境是定时炸弹？

原文用了lambda x: x.max() - x.min()，简洁是真简洁，但上线就是事故。Lambda函数无法序列化，Airflow调度时会报PicklingError；没有docstring，半年后你自己都看不懂这行代码在算啥；更致命的是，lambda无法被单元测试覆盖——你永远不知道它在极端数据下会不会崩。

我的铁律：生产代码里禁用lambda，全部替换为带完整文档的命名函数。而且函数必须包含防御性编程：

def calc_txn_range(series): """ 计算交易金额范围（max - min） 业务背景：风控部门用此指标识别高波动商户，波动越大，欺诈风险越高 数据要求：仅统计1元至100万元之间的有效交易，排除测试数据和异常值 异常处理：若有效交易数<2，返回NaN（避免单笔交易产生0范围的误导） """ # 防御性过滤 valid_series = series.dropna() valid_series = valid_series[(valid_series >= 1) & (valid_series <= 1000000)] if len(valid_series) < 2: return np.nan return valid_series.max() - valid_series.min() # 使用时直接传函数名，清晰可测 result = df.groupby('category').agg({'amount': calc_txn_range})

这样写，代码审查时同事一眼看懂意图，测试时可以针对calc_txn_range单独写case，上线后日志里报错也能精准定位到函数名。

3.3 滚动窗口：为什么你的rolling()总返回NaN？

原文示例中rolling(window=3).mean()前两行是NaN，这是pandas的默认行为。但业务上，“前N天没数据”不等于“数据缺失”，而是“尚未形成有效窗口”。比如风控系统要监控“连续3天交易额超均值200%”，如果前两天强制填NaN，规则引擎就会漏掉真正的风险信号。

解决方案是用min_periods参数控制窗口有效性：

# 默认min_periods=window，即必须满3天才计算 df['rolling_avg'] = df.groupby('category')['daily_revenue'].rolling(window=3).mean() # 改为min_periods=1，第一天就用当日值，第二天用前两天均值 df['rolling_avg_flexible'] = df.groupby('category')['daily_revenue'].rolling( window=3, min_periods=1 ).mean()

但注意：min_periods=1会让第一天结果等于当日值，这在趋势分析中可能失真。我的经验是：对风控类指标用min_periods=window（严格窗口），对运营类指标用min_periods=1（快速响应）。比如反欺诈用3天滚动均值检测异常，必须满3天才触发；而电商GMV监控用7天滚动，但允许第4天就看到初步趋势，就用min_periods=4。

3.4 扩展窗口：cumsum()和expanding().sum()的区别在哪？

原文用expanding().sum()算累计值，看起来和cumsum()一样。但关键区别在于：expanding()是groupby-aware的，cumsum()不是。如果你的数据有多个分组（如不同客户），cumsum()会把所有数据串起来算，而expanding()会严格按分组边界计算。

看这个致命错误：

# 错误！cumsum()无视分组，C001的最后一条和C002的第一条会相加 df_sorted['wrong_cumsum'] = df_sorted['amount'].cumsum() # 正确！expanding()在每个分组内独立计算 df_sorted['correct_cumsum'] = df_sorted.groupby('customer_id')['amount'].expanding().sum().values

我曾因此导致一个客户累计消费额算错2300万元，原因是数据按日期排序后，不同客户的记录交错排列，cumsum()一路累加下去。用expanding()后，每个客户的累计值从自己的第一条开始独立计算，这才是业务真相。

3.5 多级分组unstack：为什么你的透视表总是缺行？

原文df_sales.groupby(['region','product'])['revenue'].mean().unstack()输出完美，但现实数据总有缺失。比如“North”区域没有“Gadget”产品销售，unstack后那一格就是NaN。业务方看到空格会质疑：“是没数据，还是系统没取到？”——这种歧义在监管报送中是红线。

我的方案是unstack时强制填充，并标注数据状态：

# fill_value=0解决空格问题，但0可能被误解为“卖了0元” result = df_sales.groupby(['region','product'])['revenue'].mean().unstack(fill_value=np.nan) # 更优方案：用特殊标记，并添加状态列 result = df_sales.groupby(['region','product'])['revenue'].mean().unstack(fill_value=-999) result.attrs['missing_data_flag'] = -999 # 告诉下游：-999代表无交易记录

或者更进一步，生成状态矩阵：

# 同时输出数值矩阵和状态矩阵 values = df_sales.groupby(['region','product'])['revenue'].mean().unstack(fill_value=0) counts = df_sales.groupby(['region','product'])['revenue'].count().unstack(fill_value=0) # values中0表示无销售，counts中0表示无记录，业务方一目了然

3.6 复合聚合：如何在一个agg()里同时算sum和占比？

业务常要“各区域销售额及占总销售额比例”。新手会先算sum，再算总和，最后除——三步操作。但pandas支持在agg()中嵌套函数，一步到位：

# 错误：分三步，效率低且易出错 total_revenue = df_sales['revenue'].sum() region_sum = df_sales.groupby('region')['revenue'].sum() region_pct = region_sum / total_revenue # 正确：agg()中用lambda访问全局变量 total_revenue = df_sales['revenue'].sum() region_stats = df_sales.groupby('region')['revenue'].agg( region_sum='sum', region_pct=lambda x: x.sum() / total_revenue )

但注意：lambda里不能用x.sum()以外的聚合，否则会报错。更健壮的写法是用apply()：

region_stats = df_sales.groupby('region')['revenue'].apply( lambda x: pd.Series({ 'region_sum': x.sum(), 'region_pct': x.sum() / total_revenue, 'avg_order': x.mean() }) )

3.7 高级自定义：如何用agg()实现条件聚合？

原文Analysis 7用apply(risk_metrics)算高价值交易占比，但apply()在大数据量下极慢。pandas 1.1+支持在agg()中直接用NamedAgg做条件聚合，性能提升10倍：

# 旧写法：apply()逐行调用，O(n)复杂度 risk_analysis = df_transactions.groupby('customer_id')['amount'].apply(risk_metrics) # 新写法：agg()向量化，O(1)复杂度 risk_analysis = df_transactions.groupby('customer_id')['amount'].agg( high_value_count=('amount', lambda x: (x > 300).sum()), high_value_pct=('amount', lambda x: ((x > 300).sum() / len(x) * 100).round(1)), regular_avg=('amount', lambda x: x[x <= 300].mean()) )

原理是pandas对lambda做了向量化优化，避免了Python循环。实测100万行数据，apply()耗时8.2秒，agg()仅0.7秒。这个技巧在实时风控中至关重要——你不可能让业务方等8秒看一个客户画像。

4. 全流程实战：从原始交易日志到高管仪表盘的七步炼金术

现在，我们把前面所有知识点，拧成一条完整的生产流水线。这个案例基于我去年为某全国性股份制银行搭建的“信用卡客户健康度监控系统”，日处理交易数据1.2亿行，T+1凌晨2点准时产出，供37个业务部门调用。下面每一步，都是我在生产环境反复验证过的最优实践。

4.1 步骤一：数据清洗——不是删脏数据，而是标脏数据

原始交易日志包含测试商户、退款、冲正等无效记录。很多团队直接df = df[df['amount'] > 0]一刀切，结果把真实的负向交易（如退货）也删了，导致客户生命周期价值（LTV）计算偏低15%。

我的方案是用业务规则标记，而非删除：

def flag_txn_type(row): """根据业务规则标记交易类型，保留原始数据完整性""" if row['amount'] == 0: return 'test' elif row['amount'] < 0: return 'refund' elif row['merchant_id'] in TEST_MERCHANTS: # 预置测试商户列表 return 'test' elif row['channel'] == 'internal' and row['amount'] < 10: return 'system' else: return 'normal' df['txn_type'] = df.apply(flag_txn_type, axis=1) # 后续所有聚合，都加条件：df[df['txn_type']=='normal']

这样，数据血缘清晰可溯，审计时能证明“我们不是没看到退款，而是明确将其归类为refund”。

4.2 步骤二：基础分组——用NamedAgg固化业务契约

按客户+商户类目分组，计算核心指标。这里必须用NamedAgg，确保列名和业务术语一致：

base_agg = { 'amount': [ ('avg_txn_amt', 'mean'), ('txn_range', lambda x: x.max() - x.min()), ('volatility', lambda x: x.std() / x.mean() if x.mean() != 0 else np.nan), ('high_value_pct', lambda x: ((x > 300).sum() / len(x) * 100).round(1)) ], 'fee': [ ('avg_fee_rate', lambda x: (x / df.loc[x.index, 'amount']).mean() * 100), ('fee_std', 'std') ] } # 关键：用query()预过滤，减少内存压力 clean_df = df.query("txn_type == 'normal' and amount > 1 and amount < 1000000") customer_category_stats = clean_df.groupby(['customer_id', 'merchant_category']).agg(**base_agg)

注意avg_fee_rate的写法：它需要同时访问fee和amount两列，所以用lambda从原始df中按索引取值，避免了merge的开销。

4.3 步骤三：时序增强——滚动与扩展窗口的协同

为每个客户计算滚动7天均值和累计消费，但必须保证：滚动窗口按自然日对齐，累计消费按客户首笔交易日对齐。

# 先按日期排序，确保时序正确 df_sorted = clean_df.sort_values(['customer_id', 'date']).set_index('date') # 滚动窗口：按客户分组，7天自然日窗口 df_sorted['rolling_7d_avg'] = df_sorted.groupby('customer_id')['amount'].rolling( '7D', # 用字符串'7D'替代window=7，自动处理非连续日期 min_periods=3 # 至少3天有数据才计算，避免噪声 ).mean().values # 扩展窗口：按客户首笔交易日为起点 first_txn_date = df_sorted.groupby('customer_id').date.first() df_sorted['days_since_first'] = (df_sorted.index - first_txn_date[df_sorted['customer_id']]).dt.days df_sorted['cumulative_spend'] = df_sorted.groupby('customer_id')['amount'].expanding().sum().values

用'7D'而非window=7，是因为真实交易日志有周末、节假日缺失，'7D'会自动找最近7个自然日的数据，而window=7会机械取前7行，导致周末数据被错误纳入。

4.4 步骤四：多维透视——unstack的工业级用法

生成“客户×商户类目”的交叉表，但业务要求：缺失类目显示0，且需同步输出交易频次矩阵。

# 用agg()一次性产出两个矩阵 pivot_data = clean_df.groupby(['customer_id', 'merchant_category']).agg( avg_amount=('amount', 'mean'), txn_count=('amount', 'count') ) # unstack时用fill_value=0，并保留原始索引信息 amount_pivot = pivot_data['avg_amount'].unstack(fill_value=0) count_pivot = pivot_data['txn_count'].unstack(fill_value=0) # 关键：添加行列统计，供业务方快速扫描 amount_pivot['row_total'] = amount_pivot.sum(axis=1) # 每客户总均值 amount_pivot.loc['col_total'] = amount_pivot.sum(axis=0) # 每类目总均值

这样输出的Excel报表，业务经理打开就能看到“C001客户在Dining类目均值最高（314.52），但总均值排第三”，决策依据一目了然。

4.5 步骤五：高管摘要——用agg()生成决策仪表盘

为CEO准备一页纸摘要，包含每个客户的核心指标和健康度评分。这里用agg()的字典解包能力：

def calc_health_score(row): """健康度评分：综合均值、波动率、高价值占比""" score = 0 if row['avg_txn_amt'] > 200: score += 30 if row['volatility'] < 0.3: score += 25 if row['high_value_pct'] > 20: score += 20 if row['txn_count'] > 10: score += 25 return min(score, 100) # 封顶100分 summary = customer_category_stats.agg( total_spend=('amount', 'sum'), avg_txn_amt=('amount', 'mean'), txn_count=('amount', 'count'), volatility=('amount', lambda x: x.std() / x.mean() if x.mean() != 0 else np.nan), high_value_pct=('amount', lambda x: ((x > 300).sum() / len(x) * 100).round(1)) ).round(2) # 添加健康度评分列 summary['health_score'] = summary.apply(calc_health_score, axis=1) summary = summary.sort_values('health_score', ascending=False)

注意calc_health_score是作用于DataFrame的apply()，而非Series的agg()，因为它需要同时访问多列。这是agg()和apply()的合理分工。

4.6 步骤六：风险预警——用自定义agg实现规则引擎

风控团队要求：“找出近30天内，滚动7天均值连续5天高于历史均值150%的客户”。这需要在agg()中嵌入时序逻辑。

def detect_risk_pattern(series): """检测滚动均值持续超标模式""" if len(series) < 30: return False # 计算历史均值（排除最近30天） hist_mean = series.iloc[:-30].mean() if len(series) > 30 else series.mean() # 取最近30天的滚动7天均值 recent_window = series.iloc[-30:] rolling_means = recent_window.rolling(7, min_periods=3).mean() # 检查是否连续5天>hist_mean*1.5 above_threshold = rolling_means > (hist_mean * 1.5) # 用strides技巧检测连续True consecutive = (above_threshold * ( above_threshold.shift(1) + above_threshold.shift(2) + above_threshold.shift(3) + above_threshold.shift(4) ) >= 4).any() return consecutive # 应用到每个客户 risk_customers = clean_df.groupby('customer_id')['amount'].apply(detect_risk_pattern) risk_list = risk_customers[risk_customers].index.tolist()

这个函数把复杂的时序规则压缩成一个布尔值，apply()调用后直接得到高危客户列表，可立即推送到风控系统。

4.7 步骤七：交付部署——从Jupyter到Airflow的无缝迁移

所有代码写完，要进生产调度。关键点：不要用Jupyter的魔法命令，全部封装成可导入函数。

# save as credit_risk_analytics.py def run_daily_analysis(input_path: str, output_dir: str) -> None: """主入口函数，适配Airflow的PythonOperator""" # 步骤一：加载数据（支持csv/parquet） if input_path.endswith('.parquet'): df = pd.read_parquet(input_path) else: df = pd.read_csv(input_path) # 步骤二到六：执行全部聚合逻辑 result = execute_full_pipeline(df) # 步骤七：输出多格式 result.to_parquet(f"{output_dir}/daily_summary.parquet", index=True) result.to_csv(f"{output_dir}/daily_summary.csv", index=True) # 同时生成业务友好的HTML报告 html_report = generate_html_report(result) with open(f"{output_dir}/report.html", 'w') as f: f.write(html_report) if __name__ == "__main__": # 本地调试用 run_daily_analysis("data/raw_txn.csv", "output/")

Airflow中只需：

from credit_risk_analytics import run_daily_analysis task = PythonOperator( task_id='run_credit_risk', python_callable=run_daily_analysis, op_kwargs={ 'input_path': '/data/ods/credit_txn/{{ ds }}.parquet', 'output_dir': '/data/dwh/credit_risk/{{ ds }}' } )

这样，开发、测试、上线用同一套代码，杜绝“本地能跑，线上报错”的经典悲剧。

5. 常见问题与排查手册：那些让你加班到凌晨三点的坑

以下问题，全部来自我亲身经历的线上事故。每个问题都标注了发生频率（★越多越常见）、根本原因、快速诊断法和根治方案。建议打印出来贴在显示器边框上——它们比咖啡更能提神。

问题现象	发生频率	根本原因	快速诊断法	根治方案
agg()后列名变成MultiIndex，下游系统解析失败	★★★★★	pandas默认将列名和函数名分层存储	`print(result.columns)`看输出是否为`MultiIndex`	强制用NamedAgg：`agg(avg_amt=('amount','mean'))`，或`result.columns = ['_'.join(c) for c in result.columns]`
rolling().mean()返回全NaN	★★★★☆	数据未按时间索引排序，或groupby后索引错乱	`print(df_sorted.index)`检查是否为DatetimeIndex；`print(df_sorted.groupby('cat').size())`看分组是否为空	排序+重置索引：`df_sorted = df.set_index('date').sort_index()`；滚动前`df_sorted = df_sorted.reset_index().set_index(['cat','date'])`
unstack()后出现大量NaN，业务方质疑数据缺失	★★★★☆	原始数据中某些分组组合不存在（如North区无Gadget产品）	`print(df.groupby(['region','product']).size().unstack(fill_value=0))`看分布	unstack时指定fill_value：`unstack(fill_value=0)`，并添加注释`# 0表示该组合无交易记录`
自定义函数在Airflow中报PicklingError	★★★☆☆	使用lambda或闭包函数，无法被pickle序列化	在Airflow Worker日志中搜索`PicklingError`	禁用lambda，全部改用命名函数，且函数定义在模块顶层，不嵌套在其他函数内
内存溢出（MemoryError）	★★★★★	链式操作（如groupby→rolling→reset_index）创建过多中间DataFrame	`import psutil; print(psutil.virtual_memory().percent)`监控内存	分块处理+预过滤：`pd.read_csv(chunksize=50000)`，每块独立agg后concat；或用`query()`提前筛掉90%数据
rolling()窗口大小不一致（如期望7天，实际取了10行）	★★★☆☆	用`window=7`而非`'7D'`，导致按行数而非自然日计算	对比`df.rolling(7).mean().head()`和`df.rolling('7D').mean().head()`	一律用字符串时间窗口：`rolling('7D')`、`rolling('30D')`，自动处理周末和节假日
apply()在大数据集上慢到无法忍受	★★★★☆	apply()是Python循环，无法利用pandas向量化	`%%timeit`测试10万行耗时，若>5秒则需优化	优先用agg()的NamedAgg；复杂逻辑用`numba.jit`加速；或改用`swifter`库自动向量化