Middle East Technical University Turkish Microphone Speech v 1.0数据集介绍,官网编号LDC2006S33
Middle East Technical University Turkish Microphone Speech v 1.0 数据集是由中东技术大学(Middle East Technical University,METU)创建,语言数据联盟(LDC)于 2006 年发布,编号为 LDC 2006S33。以下是对该数据集的详细介绍:
- 数据集构建目的:旨在获取一个标准且通用的土耳其语麦克风语音语料库,以支持土耳其语语音研究,特别是用于语音识别等相关领域的研究和开发。
- 数据采集情况:语音数据由 193 名土耳其语母语者录制,其中 89 名女性,104 名男性。录音环境为安静的办公室,使用森海塞尔电容式麦克风,采样率为 16kHz。
- 数据集内容:每个说话者从 2462 个句子中随机选择 40 个句子进行朗读,这些句子是经过精心设计的,能够覆盖土耳其语中最常见的 5000 个三音素,形成了一个三音素平衡的句子集。LDC 发布的版本包含了 120 名说话者(60 名男性和 60 名女性)的语音,每人说 40 个句子,总计约 500 分钟的语音数据,平均每个说话者约 300 个单词。
- 数据标注情况:每个语音文件都有音素、隐马尔可夫模型(HMM)状态和单词级别的对齐信息。此外,每个说话者还有一个文本文件,包含年龄、地区、性别、教育程度等信息以及所朗读的句子。
