CS224n研究热点9 读唇术-码农场

hankcs.com 2017-06-30 下午3.14.22.png

唇语翻译

将视频处理为以嘴唇为中心的图片序列，给或不给语音，预测正在讲的话。

hankcs.com 2017-06-30 下午3.16.19.png

这些数据可能来自新闻直播：

hankcs.com 2017-06-30 下午3.16.41.png

动画演示：

这里唇语和语音的识别、卡拉OK效果式的对齐，都是模型自动完成的。

hankcs.com 2017-06-30 下午3.40.00.png

视觉和听觉两个模块或者混合交火或者单独使用，每次输出一个字母。

取嘴唇时序上的sliding window，先喂给CNN，再喂给LSTM，生成一个output vector$s$：

hankcs.com 2017-06-30 下午3.42.20.png

类似地，取音频上的窗口分片：

hankcs.com 2017-06-30 下午3.44.03.png

将上述两个LSTM输出的output states送入一个带两个attention拓展的LSTM：

hankcs.com 2017-06-30 下午3.48.34.png

hankcs.com 2017-06-30 下午3.52.37.png

通常训练seq2seq模型时喂进去的是完整的句子，但Curriculum Learning的手法是，一次只喂几个单词，逐步增长。这样可以加快收敛速度，降低过拟合。

hankcs.com 2017-06-30 下午5.03.54.png

通常训练递归模型的时候，使用的是前一个时刻的“标准答案”的one-hot向量，而这里根据前一个时刻的预测结果采样，让训练和测试统一起来。

hankcs.com 2017-06-30 下午5.06.20.png

来自BBC新闻的五千个小时的视频，对齐字幕，做了嘴唇位置等预处理。

hankcs.com 2017-06-30 下午5.11.40.png

有趣之处在于，他们将模型效果与专业做唇语翻译的公司做了对比，发现比专业人士还要准，而且错误率低了20个百分点。（竟然还有公司专门做这个）

在同时输入语音和唇语的情况下，错误可以做到更低。