CS224n研究热点5 图像对话-码农场

术语Visual Dialog，大致这么翻译（通俗理解为斗图）。你可以给聊天机器人发送图片，它能理解图片的意思，你们可以就图片内容展开对话；除了文本之外，让图片也成为交流的一部分；这可以帮助盲人理解周围或社交媒体上的信息。

这是自然语言处理与计算机视觉的交叉应用。

hankcs.com 2017-06-21 下午1.54.35.png

贡献

这篇文章提出了这么一种新的任务：图像对话。

然后开发了一个双人对话协议，整理了一个数据库。

介绍了一系列用于图像对话的神经网络模型。

用于处理图像的CNN，用于处理问题的LSTM，和另一个用于处理历史对话内容的LSTM：

hankcs.com 2017-06-21 下午2.09.47.png

也没讲细节的东西。

数据集如下图左边所示：

hankcs.com 2017-06-21 下午2.11.47.png

hankcs.com 2017-06-21 下午2.11.44.png

右边是与QA数据集的对比，可见比起QA数据集，VD的答案所含词语数更多，没有唯一答案的问题更多。

有一些量化结果（但是没讲，应该是前多少个答案的准确率之类的标准）：

hankcs.com 2017-06-21 下午2.15.05.png