当前位置：首页 > news >正文

pyarrow，一个列式数据处理的 Python 库！

news 2026/6/11 16:04:50

在日常的数据处理工作中，我们经常会遇到一些“甜蜜的烦恼”。比如，当你用Jupyter Notebook开心的跑数据分析时，突然弹出一个MemoryError，那是因为你的pandas试图吃掉好几GB的日志文件，结果程序直接闪退。又或者，当你辛辛苦苦清洗完数据，准备喂给机器学习模型时，却发现数据在Python、C++或Spark之间流转时，序列化和反序列化慢得让人抓狂。

这些场景背后，其实都指向了当前数据处理中两个最核心的痛点：内存瓶颈和数据交互的高开销。传统的NumPy和Pandas虽然强大，但在处理大规模数据集时，它们基于行式存储的设计和Python对象的额外开销往往成为性能瓶颈。

这时候，PyArrow的出现就显得尤为重要。它不仅仅是又一个新的数据处理库，而是一种数据存储和处理范式的革新。作为 Apache Arrow 项目的 Python 官方实现，PyArrow 定义了一种跨语言的、标准化的列式内存数据格式，它能让数据在不同系统（如 Spark、Dask、Pandas）之间实现零拷贝共享。

简单来说，在实际生活中，如果你是一个负责电商数据分析的工程师，面对动辄几十GB的销售记录，PyArrow可以帮助你像翻书一样只翻阅需要的“章节”（列），而不是搬起整本书（行）。如果你是一个研究物联网的学者，PyArrow的高效压缩和流式处理能力，能让你的树莓派轻松处理来自成百上千传感器的数据流。它解决了大数据分析时代“加载慢、内存爆、跨语言难”的三大难题。

一、安装 PyArrow

安装 PyArrow 非常简单，但需要注意，由于它包含底层的 C++ 实现库，请尽量确保网络环境稳定。打开终端，执行以下命令即可：

bash

pip install pyarrow

如果你的环境涉及大数据处理，强烈建议使用国内镜像源加速，或者通过conda进行安装以保证二进制兼容性：

bash

conda install pyarrow -c conda-forge

安装完成后，在 Python 中验证版本：

python

import pyarrow as pa print(pa.__version__) # 输出示例：14.0.2

二、基本用法（四大核心步骤）

PyArrow 的设计非常直观，它围绕Array（数组）、Table（表）和RecordBatch（记录批次）这三个核心数据结构展开。我们可以通过以下四个步骤快速上手：

步骤 1：创建 Arrow 数组（Array）

Array 是 PyArrow 的基本构建单元，代表一列同构数据：

python

import pyarrow as pa # 创建一个整数列，允许包含空值 arr_int = pa.array([1, 2, None, 4, 5]) print(arr_int.type) # 输出: int64 print(arr_int) # 输出: [1, 2, null, 4, 5] # 创建一个字符串列 arr_str = pa.array(['apple', 'banana', 'cherry'], type=pa.string())

步骤 2：从字典构建表（Table）

Table 是 PyArrow 中最常用的高级数据结构，类似于 Pandas 的 DataFrame，但基于列式内存布局：

python

# 定义数据 data = { 'product': ['手机', '电脑', '平板', '手机'], 'price': [3999, 6999, 2999, 3999], 'quantity': [10, 5, 8, 15] } # 创建 Table table = pa.table(data) print(table.schema) # 输出： # product: string # price: int64 # quantity: int64

步骤 3：数据处理与计算（pyarrow.compute）

PyArrow 内置了高度优化的compute模块，支持向量化运算，无需像 Pandas 那样频繁地调用 Python 层函数：

python

import pyarrow.compute as pc # 筛选价格大于 3000 的行 mask = pc.greater(table['price'], 3000) filtered_table = table.filter(mask) print(filtered_table) # 计算价格的平均值（自动忽略空值） avg_price = pc.mean(table['price']) print(f"平均价格: {avg_price.as_py()}") # 输出: 平均价格: 4499.0

步骤 4：与 Pandas 的无缝互转

这是 PyArrow 最实用的特性之一。你可以在“内存高效模式”和“Pandas 易用模式”之间自由切换：

python

import pandas as pd # Arrow Table 转 Pandas DataFrame（零拷贝，极快） df = table.to_pandas() # Pandas DataFrame 转 Arrow Table new_table = pa.Table.from_pandas(df)

三、高级用法（零拷贝与列式存储的威力）

理解 PyArrow 的高级用法，关键在于理解其零拷贝读取和列式存储的底层优势。

1. 处理超级大文件（内存映射与流式读取）

传统 Pandas 读取大文件时会尝试将整个文件载入内存，而 PyArrow 支持流式读取，分批处理，甚至可以只读取内存中需要的部分列（列裁剪）：

python

import pyarrow.parquet as pq # 打开一个巨大的 Parquet 文件 parquet_file = pq.ParquetFile('sale_records.parquet') # 逐批读取（例如每次 50000 行） for batch in parquet_file.iter_batches(batch_size=50000): # 在这里处理每一批数据，避免内存爆炸 process_batch(batch)

2. 数据集分区扫描（Predicate Pushdown/谓词下推）

当你面对成千上万个按日期或地区分区的文件时，Dataset API 可以极大提升查询效率：

python

import pyarrow.dataset as ds # 构建数据集 dataset = ds.dataset('/path/to/partitioned/dataset', format='parquet') # 构建过滤条件 condition = (ds.field('date') >= '2024-01-01') & (ds.field('sales') > 1000) # 读取满足条件的数据（扫描时直接下推过滤条件） filtered_ds = dataset.to_table(filter=condition, columns=['product', 'sales'])

四、实际应用场景（深度案例）

为了让你更深刻地感受到 PyArrow 的巨大潜力，下面我们来看一个贴近日常生活的商品销量数据预警系统案例。

python

import pyarrow as pa import pyarrow.compute as pc import pyarrow.parquet as pq from datetime import datetime # ==================== 模拟数据：每天的商品销量 ==================== data = { 'sku_id': ['A1001', 'A1002', 'A1003', 'A1001', 'A1002', 'A1003'], 'date': [ datetime(2024, 5, 1), datetime(2024, 5, 1), datetime(2024, 5, 1), datetime(2024, 5, 2), datetime(2024, 5, 2), datetime(2024, 5, 2) ], 'sales': [120, 45, 78, 80, 52, 300] } table = pa.table(data) # ==================== 高级计算1：分组聚合（计算总销量） ==================== aggregated = pc.group_by( table, keys=['sku_id'], aggregates=[pc.sum('sales').alias('total_sales')] ) # 转换为 Pandas 查看结果（便于阅读） result_df = aggregated.to_pandas() print("各商品总销量:\n", result_df) # ==================== 高级计算2：异常值检测（找出日销量突增300%的商品） ==================== # 创建一个副本并排序（此处简化逻辑，实际如需窗口函数滑动计算，可结合 pandas） # 排序数据按 sku_id 和 date sorted_table = table.sort_by([('sku_id', 'ascending'), ('date', 'ascending')]) # 分割字段进行计算（这里展示分商品计算各自均值） grouped = pc.group_by(sorted_table, keys=['sku_id'], aggregates=[pc.mean('sales'), pc.stddev('sales')]) print("各商品销量统计:\n", grouped.to_pandas()) # 在特定业务逻辑中，如果某商品销量高于均值的 3 倍标准差，触发预警 filtered_anomaly = sorted_table.filter(pc.greater(sorted_table['sales'], 150)) print("\n潜在爆品（销量 > 150）:\n", filtered_anomaly) # ==================== 高级计算3：存储与压测 ==================== # 将结果数据写入 Parquet（高压缩比，列式存储） pq.write_table(filtered_anomaly, 'anomaly_skus.parquet', compression='snappy') print("数据已存储至 anormaly_skus.parquet")

为什么要这么用？

内存优化：如果这个数据表达到几十万行，Pandas 可能因为处理字符串对象而占用大量内存。而 PyArrow 在底层将所有字符串连续存储在内存中，极大减少了内存碎片和指针跳转。
列式特性：当你只需要对sales列做sum运算时，PyArrow 只需要遍历这一列的内存块，而不需要像行式存储那样逐行解析整条记录。
生产级别的 IO：写入 Parquet 文件后，这种格式不仅是 Spark、Hive 等大数据生态的标准，还自带 Schema 信息，非常适合做数据湖架构中的底层存储。

PyArrow 并不是为了替代 Pandas 或 SQL，而是为你提供了一种更低成本、更高效率的数据流底层支撑。当你的数据处理从笔记本原型走向工程化、海量化的生产环境时，你会越来越依赖它的零拷贝、向量化计算以及跨语言互操作能力。它就像是一根高效的“管道”，让数据在你的分析系统和存储系统之间畅通无阻。而 PyArrow 的官方文档arrow.apache.org/docs/python/是最好的学习和进阶资源，可以常去翻阅。

以上就是关于 PyArrow 的全部内容啦。大家在自己的数据处理工作中遇到过哪些“内存爆表”的尴尬瞬间，或者对 PyArrow 有什么独到的见解，欢迎在下方留言讨论哦～我们一起聊聊，看看还能怎么用“箭头”刺破数据处理的瓶颈！

查看全文

http://www.cnnetsun.cn/news/2875607.html