放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

CS224n研究热点13 学习代码的语义

目录

hankcs.com 2017-07-12 下午2.51.14.png

在培训码农的时候,教师需要给学生批改代码、写反馈。学生太多时成为机械劳动,这篇论文研究自动编码程序的语义表示。数据集来自斯坦福开发的模拟操控机器人的语言。

表示代码 

hankcs.com 2017-07-12 下午3.29.57.png

希望得到代码的简洁表示、运行后会得到什么结果,哪怕它无法编译运行。

这门课上讲了很多编码表示句子的方法,RNN/CNN等,是否可以活用到代码上?

hankcs.com 2017-07-12 下午3.32.15.png

编码解码状态

定义机器当前所处的状态为precondition(P),代码执行后的状态为postcondition(Q)。如果将代码每行下个断点,就会得到precondition与postcondition的pair序列。对此建模:

hankcs.com 2017-07-12 下午3.38.22.png

中间的矩阵$M_A$是待学习的embedding,期待它能捕捉到程序代码的语义。

目标函数

hankcs.com 2017-07-12 下午3.41.18.png

第一项衡量模型的预测能力,第二项希望模型能从post-condition重建pre-condition。

利用RecursiveNN来生成程序embeddings

hankcs.com 2017-07-12 下午3.46.44.png

对于复杂的循环,则无法用单个语句的embedding表示。程序语言已经有确定的语法树,刚好拿过来喂给tree structure的RNN。

总结

利用recursive neural nets可以通过解决从precondition到postcondition的映射问题,来自动编码程序的语义。通过得到的代码表示,可以用于将学生聚类;于是可以给同一类别的学生相同的反馈,还可以追踪学生多次提交代码的进步。

未来工作

还有一些应用研究,预测某次代码提交后应该给提示还是教学视频或更多练习等等,甚至预测学生未来的成绩(让一些人早日从入门到放弃?)

hankcs.com 2017-07-12 下午3.53.56.png

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » CS224n研究热点13 学习代码的语义

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的作品

HanLP自然语言处理包《自然语言处理入门》