当前位置：首页 > news >正文

Qlib实战：如何用自定义数据（比如可转债）跑通你的量化筛选器？

news 2026/6/4 1:23:57

Qlib实战：从可转债数据到动态筛选策略的全流程解析

在量化投资领域，标准化的股票数据往往难以满足专业投资者的特殊需求。当我们需要处理可转债、加密货币或其他另类资产时，如何将这些非标准数据整合到强大的量化框架中，成为许多开发者面临的现实挑战。本文将带你深入Qlib的数据处理核心，从原始CSV到动态筛选策略，构建完整的自定义数据工作流。

1. 环境准备与数据基础

Qlib作为AI驱动的量化平台，其强大之处在于统一了从数据存储到策略回测的全流程。但在处理自定义数据前，我们需要确保环境配置正确：

# 基础环境安装（已安装可跳过） pip install pyqlib

与传统量化工具不同，Qlib深度整合了机器学习能力，因此会同时安装PyTorch和LightGBM等依赖。对于可转债这类衍生品数据，我们通常需要从第三方API（如Tushare）获取原始CSV：

可转债数据典型字段结构示例： ts_code,trade_date,open,high,low,close,vol,amount 123456.SH,2023-01-01,100.25,101.30,99.80,100.50,150000,15000000

关键差异点：相比标准股票数据，可转债的代码规则（如.SZ/.SH后缀）、价格波动特性都显著不同。这要求我们在数据转换阶段特别注意字段映射。

2. 数据格式转换：从CSV到Qlib二进制

Qlib原生的dump_bin.py脚本是将自定义数据接入系统的关键桥梁。对于可转债数据，需要特别关注三个核心参数：

python scripts/dump_bin.py dump_all \ --csv_path ./cb_quotes \ --qlib_dir ./data/cb_data \ --include_fields open,close,high,low,volume \ --symbol_field_name ts_code \ --date_field_name trade_date

表：自定义数据转换关键参数说明

参数	标准股票数据	可转债数据	注意事项
symbol_field_name	instrument	ts_code	需匹配CSV中的证券代码列名
date_field_name	date	trade_date	确保日期格式为YYYY-MM-DD
include_fields	自动识别	显式指定	可转债可能缺少某些字段

常见错误：当遇到"Unknown field"错误时，通常是因为CSV中的字段名与Qlib预期不符。可通过--include_fields显式声明有效字段。

转换完成后，使用以下代码验证数据加载：

from qlib.constant import REG_CN qlib.init(provider_uri="./data/cb_data", region=REG_CN) data = D.features(["123456.SH"], ["$close"], start_time="20230101")

3. 构建动态筛选规则

Qlib的ExpressionDFilter提供了类似SQL的灵活筛选能力。针对可转债的特性，我们可以设计多维度条件组合：

# 基础价格筛选 basic_rule = '$close<130 and $volume>100000' # 动量型条件（连续上涨） momentum_rule = '($close>Ref($close,1)) and (Ref($close,1)>Ref($close,2))' # 结合波动率过滤 advanced_rule = f'{basic_rule} and Std($close,20)<5'

可转债筛选策略典型组合

安全边际型：
- 价格低于回售阈值（如130元）
- 到期收益率>0
- 低溢价率
动量交易型：
- 连续N日上涨
- 成交量突破均线
- 波动率收缩
事件驱动型：
- 临近转股期
- 正股异动关联
- 信用评级变化

# 实际应用示例 from qlib.data.filter import ExpressionDFilter composite_filter = ExpressionDFilter( rule_expression='($close/Ref($close,5)-1)>0.05 and $volume>MA($volume,20)' ) active_bonds = D.list_instruments( instruments=D.instruments(filter_pipe=[composite_filter]), start_time="2023-08-01", as_list=True )

4. 高级技巧与性能优化

当处理大规模另类数据时，这些技巧能显著提升效率：

内存优化配置

qlib.init( provider_uri="./data/cb_data", region=REG_CN, kernel_cache=1024, # 调整内核缓存大小(MB) expression_cache=512 )

批量操作模式

# 多条件并行计算 from qlib.data.dataset import DatasetH dataset = DatasetH( instruments=all_bonds, fields=["$close", "$volume", "Ref($close,1)/$close-1"], freq="day" ) batch_data = dataset.load()

表：不同数据规模的配置建议

数据规模	推荐配置	计算耗时参考
<100只	默认参数	<1秒/日
100-500只	kernel_cache=512	2-5秒/日
>500只	启用分布式计算	需集群支持

对于需要实时监控的场景，可以结合Qlib的online模块实现动态更新：

from qlib.data import OnlineDataset online_ds = OnlineDataset( original_ds=dataset, refresh_interval=300 # 5分钟刷新 )

5. 实战案例：可转债轮动策略

假设我们要实现一个双周轮动的可转债策略，筛选条件为：

价格在115元以下
转股溢价率<20%
近5日无重大回撤

# 策略逻辑实现 rotation_rule = ''' ($close<115) and (convert_premium<20) and ($close/Min($close,5)>0.97) ''' class ConvertibleBondStrategy(PairwiseSignalStrategy): def __init__(self): self.filter = ExpressionDFilter(rule_expression=rotation_rule) def generate_signals(self): candidates = D.list_instruments( instruments=D.instruments(filter_pipe=[self.filter]), as_list=True ) # 加入排序和仓位分配逻辑 ...

回测特殊处理：

可转债的涨跌幅限制与股票不同
需考虑停牌和强制赎回事件
信用评级变化的影响

# 事件处理示例 def handle_mandatory_redemption(date): redemption_list = get_redemption_list(date) for bond in redemption_list: if bond in current_positions: # 强制平仓逻辑 ...

在实际项目中，我们发现可转债数据的主要挑战在于处理特殊事件和流动性差异。例如某次回测中，未考虑强制赎回条款导致策略信号异常。后来通过增加事件过滤层，使年化收益率提升了7个百分点。

查看全文

http://www.cnnetsun.cn/news/2462910.html