两年前,IBM的研究人员声称,通过在两个公开的语音识别数据集上训练的机器学习系统,他们拥有最先进的转录性能,这比看起来更令人印象深刻。人工智能系统不仅必须应对训练库中音频剪辑的失真,还必须应对一系列说话风格、重叠发言、打断、重新开始和参与者之间的交流。
为了追求更强大的系统,位于纽约Armonk的该公司的研究人员最近设计了一个详细的架构(“人和机器的英语广播新闻的语音识别”),该架构将在国际声学大会上展示。这周在布莱顿的语音和信号处理。他们表示,在初步实验中,它在播放新闻字幕的任务中取得了行业领先的成绩。
做到这一点并不容易。这个系统带来了一系列的挑战,比如带有大量背景噪声的音频信号和主持人讲述各种新闻话题。尽管培训语料库中的大部分讲座都很清晰,但它包含了现场采访、电视节目剪辑和其他多媒体内容等材料。
正如IBM研究员Samuel Thomas在一篇博客文章中解释的那样,人工智能利用了长期短期记忆(LSTM)——一种能够学习长期依赖关系的算法——与声学神经网络语言模型和互补语言模型的结合。声学模型包含多达25层的节点(模拟生物神经元的数学函数),这些节点在语音频谱图或信号频谱的视觉表示上进行训练,而六层LSTM网络学习一组“丰富”的各种声学特征,以增强语言建模。
在为整个系统提供了1300个小时的广播新闻数据后,研究人员将AI放入包含两个小时数据的测试集中。数据联盟是一个国际非营利组织,支持与语言相关的教育、研究和技术开发。显示了将近100个重叠的扬声器。(第二个测试集包含来自12个节目的4小时广播新闻数据,具有大约230个重叠发言者。)该团队与语音和搜索技术公司阿彭合作,测量了语音识别任务的识别错误率,报告称该系统达到了6.5%。第一个测试集和第二个测试集达到了5.9%——比人类的表现稍差,分别为3.6%和2.8%。
“[我们的]新结果.是我们所知的这项任务的最低结果,[但是]在这个领域仍然有新技术和改进的空间,”托马斯写道。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!