放牧代码和思想
专注自然语言处理、机器学习算法
    博主不用扣扣,公事请博客留言,私事请微博私信。开源项目一律GitHub见,发错地方恕不回复,谢谢。

CS224n研究热点5 图像对话

目录

术语Visual Dialog,大致这么翻译(通俗理解为斗图)。你可以给聊天机器人发送图片,它能理解图片的意思,你们可以就图片内容展开对话;除了文本之外,让图片也成为交流的一部分;这可以帮助盲人理解周围或社交媒体上的信息。

这是自然语言处理与计算机视觉的交叉应用。

hankcs.com 2017-06-21 下午1.54.35.png

相关工作

已经有很多工作在为图像和文本搭建桥梁了。

图像视频自动标题

hankcs.com 2017-06-21 下午1.57.00.png

虽然效果有限,比如右边这只猫实际上在与一只貂戏耍,而不是一个玩具。

图像语义对齐

也就是将一个图片中的各个物体自动框出来,自动输出物体之间的语义联系:

hankcs.com 2017-06-21 下午2.01.15.png

图像QA

这种应用已经快要接近图像对话了,只不过QA系统一般是独立的一问一答,而且机器给出的答案一般很短:

hankcs.com 2017-06-21 下午2.04.02.png

贡献

这篇文章提出了这么一种新的任务:图像对话。

然后开发了一个双人对话协议,整理了一个数据库。

介绍了一系列用于图像对话的神经网络模型。

技术细节

用于处理图像的CNN,用于处理问题的LSTM,和另一个用于处理历史对话内容的LSTM:

hankcs.com 2017-06-21 下午2.09.47.png

也没讲细节的东西。

数据集

数据集如下图左边所示:

hankcs.com 2017-06-21 下午2.11.47.png

hankcs.com 2017-06-21 下午2.11.44.png

右边是与QA数据集的对比,可见比起QA数据集,VD的答案所含词语数更多,没有唯一答案的问题更多。

结果

有一些量化结果(但是没讲,应该是前多少个答案的准确率之类的标准):

hankcs.com 2017-06-21 下午2.15.05.png

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » CS224n研究热点5 图像对话

分享到:更多 ()

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机