近日,第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)公布“长短视频多语种多模态识别挑战赛”(Video Keyword Wakeup Competition)——汉语长短视频直播语音关键词(VKW)任务最终成绩。

历时4个月的征集与评选,网易易盾在VKW任务中,以综合指标第一名的成绩击败来自海内外的61支队伍,在验证集的3个场景上均取得大幅超出基线25%的效果,坐拥“受限”与“非受限”赛道的双料冠军。

这是网易易盾继视觉、深度伪造、自然语义识别等方向大赛夺冠之后,在语音方向的又一突破和进展,彰显了网易易盾在人工智能领域的综合技术实力,语音自定义关键词识别准确度达实用级别。

一、大赛有哪些挑战?

两大并行指标、三类媒体形式

自1990年开创以来,该系列会议已成功召开了15届,每年都会推出不同的语音识别任务。

本次挑战赛,由腾讯科技ASR OCR oteam联合清华大学、西北工业大学、数据堂、中国计算机学会语音对话与听觉专委会发起,聚焦时下业界最为关注的三类媒体形式——长视频、短视频、直播场景,考察模型在场景适配下的语音内容理解与识别能力。

挑战赛提供规模巨大数据集,训练数据集涵盖1505小时普通话朗读数据,并提供长视频、短视频、直播场景各5小时有标注数据供场景微调,各5小时有标注数据用于在开发集关键词列表上进行系统优化和调参,各20小时有标注数据用于评价提交系统。

本次比赛的评价指标与国际接轨,采用语音关键词的整体精准度(Precision)、召回率(Recall)与ATWV指标(Actual Term-weighted Value)作为并行评测指标,兼顾不同目标,增加了识别任务的难度。

精准度及召回率:

即语音中全部关键词的识别情况,反映系统对于当前词表的综合性能。

TWV指标:

即每个关键词上平均TWV值,反映系统对于不同频次关键词检测效果的平均性能。

三个赛道的成果展示:

网易易盾nisp_speech团队在引入了多项特色增强技术之后,在短视频场景测试集中,定位准确率高达0.88,召回率高达0.93,不同频次关键词检测效果的平均性能高达0.93,在“场景适配”和“关键词定位”的算法精度上取得第一,达到灵活适配多场景、支持用户自定义语音关键词的理想效果。

二、我们是如何实现的?

独创BBS-KWS解决方案的背后

网易易盾首创一种颇具实用价值的关键词检测算法(BBS-KWS),即一套基于端到端ASR模型的KWS算法。ASR模块中使用CTC-based方法搭建,通过引入综合大主干(big backbone)、关键词偏移(biasing keywords)、混合音节建模(mixed syllable modeling units)提升关键词候选路径的准召能力,通过引入关键词多级匹配、模糊匹配、关键词打分约束最终的决策,改善模型在更复杂语音环境下的适应能力。

图 BBS-KWS算法流程

基于三大主要特点命名:

第一个B代表大主干(big backbone),算法中引入了Conformer结构作为基础,在模型前期引入更多卷积层提升特征表达能力,在重点捕获语义的编码层拓宽了多头注意力层。模型主干的能力被大大提升;

第二个B代表关键词偏移(biasing keyword),算法在ASR解码过程中引入了基于语言模型的自适应热词权重,引导解码过程更偏向关键词;

第三个S代表混合音节建模(mixed syllable modeling unit),算法引入了更小的建模单元音节,以获得更好的泛化能力;

此外,KWS中的多级匹配,模糊匹配能处理部分KWS问题中OOV的问题,对算法的提升明显。

BBS-KWS开发便捷,针对新增自定义关键词的场景可以灵活地适配,大大提升召回,对精度的把控主要依靠关键词打分及工作点的选择上。未来针对关键词的自适应关键点及区分误召回方面仍有提升空间。

图 易盾nisp_speech的团队成员

为了提升效果,易盾nisp_speech团队设计了一系列算法实验,做了很多优化。“有赖于日常积累,我们团队以相对平缓的节奏完成了本次竞赛任务。”网易易盾资深计算机语音算法工程师杜彬彬表示,团队内部的充分交流与合作可以激发创新。

三、我们的技术有哪些应用?

专注AI识别,与产业应用结合

关键词检测,是语音识别的核心领域之一,其目的在于识别语音材料中的特定词汇是否出现以及出现的位置,有利于促进机器更好理解多语种、长短句的语意,对语音内容检测的准确率产生最直接的影响。

一站式、多场景应用

成立于2016年的网易易盾,以敏感内容检测起家,在语音识别、视频识别、文本识别等计算机感知领域的技术储备雄厚,在落地应用上也拥有着诸多的实践经验。当前,网易易盾语音关键词识别技术已成功应用于点播、直播、IM私聊、语音社交等场景中的不良内容检测。

监管合规策略布控

“音频检测”,是易盾内容安全检测技术之一,综合理解文本语义环境,一网打尽若干种类型的内容风险。

易盾技术团队构建了“自主发现-精细排查-循环迭代”的完整技术链路,能够灵活高效响应紧急问题,并形成了算法极速定制机制,能够在短周期内训练出满足客户需要的个性化算法模型,进一步确立了内容安全领域技术能力的领先性。

截止目前,网易易盾“语音检测”解决方案为广播电视、陌生人社交、在线音乐等行业客户保驾护航,提供智能解析、关键词定位、语义理解、声纹检测等服务,累计过检时长超3亿小时。

四、总结

语音识别所面对的挑战有别于文本、图像识别:

语音中的敏感内容检测并不是一步到位,先得把音频转换成文字,这个过程十分复杂,AI机器不仅要理解语音,而且得分析语义。小语种、方言、语音、语调、语速、背景音、噪音都会导致语音中“关键词”定位的准确率下降。

独创的关键词检测算法(BBS-KWS),在业界权威大赛受到认可,意味着易盾在合作中能够为企业提供更优质的音视频解决方案。全面升级的语音内容检测能力,将帮助娱乐社交行业解决合规审核不足、人工成本高企的众多问题,助力新形态产品轻松应对“风控”与“运营”环节。

未来,网易易盾也将持续针对数字网络时代的敏感内容识别输出新技术,进一步扩大应用范围,不断提升核心效果。

关键词: 网易 易盾 AI 团队