CALLHOME Mandarin Chinese Transcripts - XML version数据集介绍,官网编号LDC2008T17
CALLHOME Mandarin Chinese Transcripts - XML version(官网编号 LDC2008T17)是 LDC 于 2008 年发布的汉语 CALLHOME 电话对话文本 XML 格式版本,是 LDC96T16(原始 CALLHOME 汉语电话对话文本)的 XML 化重发布版本,适配语音识别、对话系统、口语 NLP 等任务,为汉语口语对话研究提供标准化标注与结构化解析支持。以下是详细介绍:
基础信息
| 项目 | 详情 |
|---|---|
| 全称 | CALLHOME Mandarin Chinese Transcripts - XML version |
| 官网编号 | LDC2008T17 |
| 发布机构 | Linguistic Data Consortium(LDC) |
| 发布时间 | 2008 年 |
| 数据语言 | 汉语(普通话,含自然口语特征) |
| 数据规模 | 含 240 + 段自然电话对话,约 33.5 小时语音对应的文本转录,覆盖日常闲聊、家庭事务、工作等话题 |
| 数据格式 | XML 格式文本,按对话分档,含标准化标注与元数据 |
| 数据来源 | CALLHOME 项目采集的汉语母语者间无脚本电话对话,多为亲友间日常交流 |
| 开发背景 | 为语音识别、对话系统等任务提供结构化 XML 格式的口语文本,适配现代 NLP 工具解析需求 |
