您当前的位置: 首页 > 资源详情

语音国家工程研究中心智能语音研究团队第四次获国际多通道语音分离与识别评测CHiME冠军

来源机构: 中国科学技术大学    发布时间:2023-9-1点击量:1

时隔3年后,国际多通道语音分离和识别评测CHiME-7再次“上线”。继2016年以来参与CHiME-4、5、6三届评测并夺冠后,中科大语音及语言信息处理国家工程研究中心(NERC-SLIP)杜俊副教授带领团队联合科大讯飞研究院(以下简称“USTC-NERCSLIP联合团队”),投入了长达5个月的时间和精力,尝试各种不同的方法和策略,以应对复杂的语音信号处理和语音识别的挑战,最终在参与的多设备多场景远场语音识别任务(DASR)中获得全部两个赛道的第一。

作为有“最难语音识别任务”之称的语音领域权威评测,CHiME(Computational Hearing in Multisource Environments)系列评测发起于2011年,致力于集聚学术界和工业界优秀的学术力量,持续突破语音识别技术水平,不断在更高噪声、更高混响、更高对话复杂度的场景下提出具有创新性的解决方案,解决著名的“鸡尾酒会问题”——难点在于怎样在充满噪声的鸡尾酒会,分辨并听清多人同时交谈的声音。

参与CHiME-7的团队高手如云,如日本电信公司NTT(CHiME-1和CHiME-3冠军)、俄罗斯STC(CHiME-6 Track 2冠军)、英伟达、剑桥大学、帕德博恩大学、捷克布尔诺理工大学BUT(国际说话人日志评测DIHARD-I和DIHARD-II冠军)、中科院声学所、西北工业大学等国内外知名研究机构、高校和企业。本次CHiME-7中的语音识别任务由卡内基梅隆大学、约翰霍普金斯大学、东京都立大学和马尔凯理工大学的学者们共同组织,称为“多设备多场景远场语音识别任务(DASR)”。

在CHiME-6的基础上,CHiME-7进一步提升了难度,不仅在对话场景、麦克风设备类型上进行了扩充,同时要求参测者只能使用统一的一套算法系统进行测试,这对语音识别系统的鲁棒性提出了极高的要求。具体如下:

Ø在考察场景中,扩大了CHiME-6测试集范围,同时新增加了两个数据集DiPCo和Mixer 6;

Ø三个数据集分别使用不同的麦克风设备,包含线性阵列、环形阵列、分布式麦克风等;

Ø数据集中多人对话空间场景更加丰富,除朋友聚会之外还新增了采访、打电话等场景。

该任务分为主赛道(Main Track,默认提交)和子赛道(Sub Track,自由提交),具有很高的挑战性,也与真实复杂场景中的语音识别要求更为贴近:

Ø主赛道需要首先要完成远场数据下的说话人角色分离任务,即从连续的多人说话语音中切分出不同说话人片段、判断出每个片段是哪个说话人,然后再进行语音识别;

Ø子赛道中说话人角色分离的信息是人工标注的,参测者可以直接使用,在人工分离边界的基础上直接进行语音识别。

此次评测核心考察指标为DA-WER(Diarization Attributed WER),即综合考察系统对多个说话人的角色分离效果,以及语音识别效果。

USTC-NERCSLIP联合团队参加了所有两个赛道,在主赛道和子赛道分别以21%和16%语音识别错误率拿下双冠,将真实说话人角色分离情况下的语音识别错误率与使用人工标注间的差别控制在5%,这也标志着在实际环境中的应用效果将得到进一步提升。

提供服务:导出本资源

版权所有@2017中国科学院文献情报中心

制作维护:中国科学院文献情报中心信息系统部地址:北京中关村北四环西路33号邮政编号:100190