IBM的AI执行最先进的广播新闻字幕

2022-09-24 05:35:40 欧阳柔士

导读两年前，IBM的研究人员声称，通过在两个公开的语音识别数据集上训练的机器学习系统，他们拥有最先进的转录性能，这比看起来更令人印象深刻

两年前，IBM的研究人员声称，通过在两个公开的语音识别数据集上训练的机器学习系统，他们拥有最先进的转录性能，这比看起来更令人印象深刻。人工智能系统不仅必须应对训练库中音频剪辑的失真，还必须应对一系列说话风格、重叠发言、打断、重新开始和参与者之间的交流。

为了追求更强大的系统，位于纽约Armonk的该公司的研究人员最近设计了一个详细的架构(“人和机器的英语广播新闻的语音识别”)，该架构将在国际声学大会上展示。这周在布莱顿的语音和信号处理。他们表示，在初步实验中，它在播放新闻字幕的任务中取得了行业领先的成绩。

做到这一点并不容易。这个系统带来了一系列的挑战，比如带有大量背景噪声的音频信号和主持人讲述各种新闻话题。尽管培训语料库中的大部分讲座都很清晰，但它包含了现场采访、电视节目剪辑和其他多媒体内容等材料。

正如IBM研究员Samuel Thomas在一篇博客文章中解释的那样，人工智能利用了长期短期记忆(LSTM)——一种能够学习长期依赖关系的算法——与声学神经网络语言模型和互补语言模型的结合。声学模型包含多达25层的节点(模拟生物神经元的数学函数)，这些节点在语音频谱图或信号频谱的视觉表示上进行训练，而六层LSTM网络学习一组“丰富”的各种声学特征，以增强语言建模。

在为整个系统提供了1300个小时的广播新闻数据后，研究人员将AI放入包含两个小时数据的测试集中。数据联盟是一个国际非营利组织，支持与语言相关的教育、研究和技术开发。显示了将近100个重叠的扬声器。(第二个测试集包含来自12个节目的4小时广播新闻数据，具有大约230个重叠发言者。)该团队与语音和搜索技术公司阿彭合作，测量了语音识别任务的识别错误率，报告称该系统达到了6.5%。第一个测试集和第二个测试集达到了5.9%——比人类的表现稍差，分别为3.6%和2.8%。

“[我们的]新结果.是我们所知的这项任务的最低结果，[但是]在这个领域仍然有新技术和改进的空间，”托马斯写道。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！