CSR-II (WSJ1) Complete数据集介绍,官网编号LDC94S13A
CSR-II (WSJ1) Complete 是 DARPA 资助发布的华尔街日报(WSJ)大词汇量连续语音识别(CSR)核心语料库,编号 LDC94S13A,以 WSJ0 为基础扩充,含约 162 小时双声道语音、7.8 万训练 utterances,是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。
一、核心基础信息
| 项目 | 详情 |
|---|---|
| 全称 | Wall Street Journal CSR-II (WSJ1) Complete Corpus |
| 归属体系 | WSJ 语音语料库系列,是 WSJ0(LDC93S6A/B)的扩展版,两者合称 WSJ CSR 语料库 |
| 核心规模 | 总语音约 162 小时(双麦克风同步录制),含 7.8 万训练 utterances(约 73 小时)、8.2 千开发测试 utterances(约 8 小时)、11 组 “Hub and Spoke” 测试集(约 11 小时) |
| 参与人员 | 含记者与普通成人,男女均衡,覆盖多样音质与方言,支持说话人无关(SI)训练 |
| 获取方式 | LDC 授权获取(LDC94S13A 完整版,LDC94S13B 仅含森海塞尔麦克风数据) |
二、数据内容与标注体系
- 核心数据
- 音频:双声道(森海塞尔近讲麦 + 辅助麦)高质量录音,SPHERE 格式并经 Shorten 压缩(约 2:1),含朗读语音与记者自发听写语音。
- 文本:源自《华尔街日报》新闻文本,含逐字转录与标准词表(5K/20K/64K 等),配套发音词典与句法标注,适配大词汇量任务。
- 训练范式:分为 SI-84(WSJ0 的 84 名说话人)与 SI-284(WSJ0+WSJ1 新增 200 名说话人)两种主流训练配置。
- 关键标注
- 文本与对齐:标注 utterance 边界、说话人、标点(含口语化 / 非口语化标点),提供语音 - 文本强制对齐标注。
- 词汇与发音:含 3 万 + 词表与发音词典,支持 5K - 64K 大词汇量建模,适配不同困惑度(80-240)设置。
- 元数据:含说话人年龄、性别、口音等信息,便于变量控制与偏差分析。
