鸡尾酒会效应

雷锋网AI研习社 AI投研邦活动专题爱搞机

业界人工智能学术开发者智能驾驶新智驾TV AI+金融科技未来医疗网络安全智慧城市智慧安防智慧教育智慧交通智慧社区智慧零售智慧政务机器人行业云智能硬件物联网GAIR
人工智能正文
0

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」
本文作者：刘鹏编辑：郭奕欣 2018-04-13 15:44
导语：昨日，Google Research 软件工程师发表了可解决「鸡尾酒会效应」视觉-音频语音识别分离模型。
雷锋网 AI 科技评论按：人类很擅长在嘈杂的环境下将其他非重点的声响「静音」化，从而将注意力集中在某个特定人物身上。这也就是众所周知的「鸡尾酒会效应」，这种能力是人类与生俱来的。然而，自动化语音分离系统—将音频信号分离至单独的语音源—尽管这是一个已经被深入研究过的问题，但是它依旧是计算机系统研究上的一项巨大挑战。

Google Research 软件工程师 Inbar Mosseri 和 Oran Lang 于 4 月 11 日发表了一篇关于视觉-音频语音识别分离模型最新研究成果的博文，雷锋网 AI 科技评论编译整理如下。

在解决了「鸡尾酒会效应」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》论文中，谷歌团队提供了一个深度视觉-音频学习模型，来从其发声者音频和背景噪音的混合音频场景中，为特定的发声对象分离出一个匹配的单一音频信号。在这次操作中，谷歌已经能够通过增强特定人物对象的音频，抑制其他非重点音频来计算生成针对特定发声对象的单一音轨视频了。该方法适用于具有单一（主）音轨的常见视频，用户也可以自行选择倾听对象来生成对其的单一音轨，或者基于语境由算法进行对特定发声对象进行选择。谷歌相信这种视觉-音频语音识别分离技术拥有广泛的应用场景，识别视频中的特定对象将其音频增强，特别是在多人视频会议的场景中对特定发言人进行针对性音频增强。

这项技术的独特之处在于，其通过结合分析输入视频的音、视频信号来识别分离所需的单一音轨。直观来说，例如特定人物对象的音频与其发声时的嘴部动作相关联的，这也就帮助模型系统区分哪一部分音频（轨）对应着哪一个特定对象。对视频中的视觉信号进行分析，不仅能够在多种音频混合的场景下显著提升语音识别分离质量（相较于只借助音频来进行特定对象语音分离），同时，更加重要一点还在于，它还能将分离后的纯净单一音轨与视频中的可视对象联系起来。

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

在本文的视觉-音频语音分离识别方法中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出是将前面输入的视频音轨分解成纯净的音轨，并对应到特定的发声对象身上。
视觉-音频语音识别分离模型
为了生成视觉-音频语音分离模型训练样本，谷歌收集了 Youtube 上高达 10 万份高质量学术以及演讲视频。团队从中提取了音频纯净的一些片段（例如无背景音乐，听众噪音以及其他发声者音频干扰），这些视频片段中仅有一位可见的发声对象。谷歌花费了约 2000 个小时从中剪辑出，无背景噪音干扰，同时只有单一可见发声对象的视频数据，团队运用这份纯净的数据来生成「合成鸡尾酒会效应（synthetic cocktail parties）」—将来自分离视频源的脸部动作视频和对应的音频，以及从 AudioSet 获取的无背景噪音的视频混合在一起。

利用这些视频数据，我们能够训练一个多流卷积神经网络模型，为「合成鸡尾酒会场景混合体」片段中每个发声对象分离出对应音频流（音轨）。输入到视觉-音频网络识别系统中的数据具体是指，视频每一帧中被检测到的发声对象的脸部动作缩略图中提取的视觉特征，以及视频音轨的频谱图信息。在模型的训练过程中，网络系统学习分别学习视觉和音频信号的编码，然后将它们融合成一个音频-视觉表现。通过音频-视觉表现，网络系统学会了为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而为每一位发声对象生成单独的，纯净的音频信号。更多详细内容，可以点击参考谷歌团队的论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》进行查看。

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

谷歌多串流，基于神经网络的模型架构
下面是几个谷歌团队通过最新视觉-音频语音分离技术实现的音频分离和增强的处理结果视频示例，视频中除所需的特定发声对象外，其他对象（背景）声音均被「静音」化已达到所需效果。

视频示例（截图）
「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

为了强调模型对视觉信息的利用，谷歌从 Google CEO Sundar Pichai 的同一视频片段中截取了两段截然不同的片段，并将它们进行并排演示。在这个场景下，仅使用音频中的特征语音频率是很难实现音频分离的，尽管在如此具有挑战性的案例中，视觉-音频模型依然能正确地分离视频中的音频。

视觉-音频语音识别分离技术的相关应用

本文的该方法也可应用于语音识别和视频自动字幕加载。对于视频自动字幕加载系统而言，多名发生者同时发声导致的语音重叠现象是一项已知的挑战，与此同时，将音频分离至不同的源也有助于呈现更加准确和易读的字幕。

同时你也可以前往 YouTube 观看本文中的同款视频并打开字幕加载（cc 功能键），即可比较运用了视觉-音频语音识别分离技术的视频字幕识别和 YouTube 原本视频字幕加载系统表现的差异。

视频示例（截图）
「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

读者还可以在谷歌视觉-音频语音识别分离项目 GitHub 相关页面查看更多的应用场景，同时谷歌的视觉-音频语音识别分离技术与纯音频识别分离的视频结果示例对比，以及其他视觉-音频语音识别分离技术上最新进展。在谷歌团队看来，该技术将拥有更加广泛的应用，团队也在探索将其整合进谷歌的其他产品中，所以敬请期待吧！

另外，AI科技评论于4月初也编译Microsoft AI and Research 研究员的一篇利用多束深度吸引子网络解决鸡尾酒派对问题的论文，详细内容可查看《微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”》。

更多资讯敬请关注雷锋网(公众号：雷锋网) AI 科技评论。

雷锋网版权文章，未经授权禁止转载。详情见转载须知。

5人收藏分享：
相关文章
鸡尾酒会效应谷歌视觉-音频语音识别分离模型

深度强化学习新趋势：谷歌如何把好奇心引入强化学习 ...

三分钟带你读懂 BERT

谷歌云游戏来了：推出Stadia手柄，搭配定制GPU，You ...

语音识别如何突破延迟瓶颈？谷歌推出了基于 RNN-T 的 ...
文章点评：

我有话要说……
表情同步到新浪微博提交

刘鹏
编辑

发私信
当月热门文章
最新文章
DeepMind 明年搬 11 层新总部！盘点这家顶尖 AI 科研机构的高光时刻
斯坦福 HAI 出品：细数全球 18 件 AI 大事记
2019全球智博会将于5月开幕，见证AI创新未来
深度强化学习新趋势：谷歌如何把好奇心引入强化学习智能体
阿里云发布机器学习平台PAI v3.0
史上最大的实体关系抽取数据集！清华大学自然语言处理团队发布 FewRel
热门搜索
nvidiA智能手表Apple Watch比特币KickstarterOculus财报iPhone应用NokiaVerizon社交游戏
热门关键字
热门标签人工智能机器人机器学习深度学习金融科技未来医疗智能驾驶自动驾驶计算机视觉激光雷达图像识别智能音箱区块链智能投顾医学影像物联网IoTCV微信小程序平台微信小程序在哪CES 2017CES2016年最值得购买的智能硬件2016 互联网小程序微信朋友圈抢票软件智能手机智能家居智能手环智能机器人智能电视360智能硬件智能摄像机智能硬件产品智能硬件发展智能硬件创业黑客白帽子大数据云计算新能源汽车无人驾驶无人机大疆小米无人机特斯拉VR游戏VR电影VR视频VR眼镜VR购物AR直播扫地机器人医疗机器人工业机器人类人机器人聊天机器人微信机器人微信小程序移动支付支付宝P2P区块链比特币风控高盛人脸识别指纹识别黑科技谷歌地图谷歌IBM微软乐视百度三星s8腾讯三星Note8 小米MIX小米Note华为小米阿里巴巴苹果MacBook ProiPhoneFacebookGAIRIROS双创周云栖大会先打智能硬件公司智能硬件QQ红包支付宝红包敬业福谷歌火星ui动效乐檬华为p8山世光麒麟620机器人管家三星note7爆炸中天安驰小米5拍照余承东川普中国飞豹无人机远距离无线充电器全国流量卡更多
联系我们关于我们加入我们意见反馈投稿申请专栏作者
Copyright © 2011-2019 www.leiphone.com 雷锋网-读懂智能&未来 All Rights Reserved 粤ICP备11095991号-1 ICP证粤B2-20150332 0daybank

鸡尾酒会效应

文章评论