添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
AISHELL-4 多通道中文会议开源语音数据库发布

AISHELL-4 多通道中文会议开源语音数据库发布

AISHELL开源数据历史发布信息回顾。


AISHELL-1 Copyright ©2017

小规模中文普通话语音识别、声纹识别方案

AISHELL-2 Copyright ©2018

大规模中文普通话语音识别方案


AISHELL-HI MIA Copyright ©2019

远讲文本相关声纹识别方案


AISHELL-DMASH Copyright ©2020

远讲中文普通话麦克风阵列家居场景声纹识别方案


AISHELL-3 Copyright ©2020

多说话人语音合成方案


申请高校规模 300+

申请企业规模 100+


AISHELL 的开源项目已经成为了语音技术领域的数据开源标杆,目前已形成了智能语音技术+数据的矩阵开源方案,覆盖语音识别、声纹识别、语音合成、场景智能语音技术应用方案。


今日 AISHELL 推出开源项目:

AISHELL-4

多通道中文会议语音数据库

随着智能语音技术应用场景的日益复杂,多人交互场景下的智能语音处理技术受到了越来越多的关注。但是这些场景下存在的语音口语化、环境噪声、房间混响和人声重叠等诸多问题,带来了很高的技术挑战。

国际多通道语音分离和识别大赛( CHiME )今年已经做到 CHiME6 ,作为国际语音识别评测领域影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛。对多人交互场景下的智能语音处理技术的发展起到了重要推动作用。

在多人交互场景下的公开数据集例如: LibriCSS AMI CHiME 都是基于英文语言, AISHELL-4 的发布推动了智能语音技术在会议场景里中文多人交互技术的研究及落地。

AISHELL-4 是一个通过麦克风阵列实录的八通道中文普通话会议场景语音数据集。该数据集共包含 211 场会议,每场会议4至8人,数据集共 120 小时左右。该数据集旨在促进实际应用场景下多说话人处理的研究。 AISHELL-4 数据包括了实际会议场景下各种重要特性,例如停顿、重叠、说话人轮转、噪声等。同时数据集提供了准确的音字转写文本及时间戳信息,方便研究者进行诸如前端处理、语音识别、说话人分割等单独任务,并可以进行联合优化。


AISHELL-4 开源地址1

openslr.org/111/


AISHELL-4 开源地址2

aishelltech.com/aishell



AISHELL 联合 西北工业大学、中国科学技术大学、微软 合著的论文《 AISHELL-4: An Open Source Dataset for Speech Enhancement, Separation, Recognition and Speaker Diarization in Conference Scenario 》已被语音研究顶级会议 INTERSPEECH 2021 接收。



论文地址

arxiv.org/abs/2104.0360

AISHELL-4 同时提供了基于PyTorch的训练和测试框架,以促进会议场景的智能语音技术研究及任务开展。


Baseline System

github.com/felixfuyihui


AISHELL 会持续投入做开源,为了人工智能民主化任重而道远。


感谢一路合作过的伙伴: AISHELL Foundation、KALDI社区、昆山杜克大学语音与多模式智能信息处理实验(DUK SMIIP Lab)、西北工业大学音频语音与语言处理研究组(ASLP@NPU)、清华大学语音和语言技术中心(CSLT@Tsinghua University)、中国科学技术大学、新加坡国立大学、微软、小米、腾讯天籁实验室 等。


感谢一直支持AISHELL的开发者。



聚焦场景化数据采集、智能高效标注平台

编辑于 2021-07-15 10:16