当前位置：首页 > news >正文

CSR-II (WSJ1) Complete数据集介绍，官网编号LDC94S13A

news 2026/6/10 20:17:09

CSR-II (WSJ1) Complete 是 DARPA 资助发布的华尔街日报（WSJ）大词汇量连续语音识别（CSR）核心语料库，编号 LDC94S13A，以 WSJ0 为基础扩充，含约 162 小时双声道语音、7.8 万训练 utterances，是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。

一、核心基础信息

项目	详情
全称	Wall Street Journal CSR-II (WSJ1) Complete Corpus
归属体系	WSJ 语音语料库系列，是 WSJ0（LDC93S6A/B）的扩展版，两者合称 WSJ CSR 语料库
核心规模	总语音约 162 小时（双麦克风同步录制），含 7.8 万训练 utterances（约 73 小时）、8.2 千开发测试 utterances（约 8 小时）、11 组 “Hub and Spoke” 测试集（约 11 小时）
参与人员	含记者与普通成人，男女均衡，覆盖多样音质与方言，支持说话人无关（SI）训练
获取方式	LDC 授权获取（LDC94S13A 完整版，LDC94S13B 仅含森海塞尔麦克风数据）

二、数据内容与标注体系

核心数据
- 音频：双声道（森海塞尔近讲麦 + 辅助麦）高质量录音，SPHERE 格式并经 Shorten 压缩（约 2:1），含朗读语音与记者自发听写语音。
- 文本：源自《华尔街日报》新闻文本，含逐字转录与标准词表（5K/20K/64K 等），配套发音词典与句法标注，适配大词汇量任务。
- 训练范式：分为 SI-84（WSJ0 的 84 名说话人）与 SI-284（WSJ0+WSJ1 新增 200 名说话人）两种主流训练配置。
关键标注
- 文本与对齐：标注 utterance 边界、说话人、标点（含口语化 / 非口语化标点），提供语音 - 文本强制对齐标注。
- 词汇与发音：含 3 万 + 词表与发音词典，支持 5K - 64K 大词汇量建模，适配不同困惑度（80-240）设置。
- 元数据：含说话人年龄、性别、口音等信息，便于变量控制与偏差分析。

http://www.cnnetsun.cn/news/2862140.html

相关文章：

【干货】DeepSeek / 豆包数学公式完美转 Word 攻略！告别乱码，效率翻倍！AI 导出鸭一键快速转换公式

AI Agent 面试题 857：Agent系统的部署流水线的安全扫描集成

AI Agent 面试题 861：如何设计智能客服Agent的整体架构？

【零基础秒上手】ESP32视觉分类模型实战：基于EdgeImpulse的端到端训练部署教程

2026年如何免费降AI率？10款亲测有效工具必收藏

如何去除腾讯元宝输出文本中带 *、# 的小技巧，选用 AI 导出鸭一键清符，结合行业数据筛选最优导出方案

鸿蒙原生应用实战（三）：笔记详情与编辑页面的路由与CRUD

SQL中繁琐的Case When 如何优化？

用安信可ESP32S3开发板做个无线监控：手把手教你驱动USB摄像头并实现Wi-Fi图传

保姆级教程：在S32K3上玩转EIM和ERM，手把手教你注入并捕获ECC错误

FOC 位置环 PI 调参实战：让电机指哪停哪

OpenAI 计划未来几周对 ChatGPT 进行“超级应用程序”改造，网站和 App 将迎变化

华恒智信助力制造业完成一线管理权责重构

市场营销领域9大高价值证书对比

【MATLAB+word】ZVS全桥移相控制系统设计

大文件跨网传输怎么选？综合测评排名揭示企业最佳合规工具

2021年软考-农作物种植智能化—软件设计师—东方仙盟

机电设计AI不只是消防：给排水、暖通、强弱电如何进入自动化？

告别重复劳动：3步掌握开源鼠标键盘自动化工具KeymouseGo

K8s 服务太多？一个 Ingress 全搞定

电商 CRM 怎么选？2026 电商 CRM 选型指南（6 大维度对比 + 避坑清单）

《你好！数学·最亲切的数学概念启蒙图画书》PDF+音频

Tiktokenizer深度解析：开源大模型分词器可视化工具的技术演进与实践价值

Honey Select 2汉化补丁终极指南：5分钟解锁完整中文游戏体验

计算机毕业设计之中学数学自动组卷系统的设计与实现

Python 与 C++：一对互补的“搭档”，而非你死我活的对手

工程材料用量计算办法

GetQzonehistory：轻松备份你的QQ空间数字记忆，让青春永不褪色

使用Thead子类创建线程VS使用Thead直接创建线程(Runnable)的区别

从零接触到悟出Claude Code类Harness模式