CS224n研究热点13 学习代码的语义-码农场

hankcs.com 2017-07-12 下午2.51.14.png

在培训码农的时候，教师需要给学生批改代码、写反馈。学生太多时成为机械劳动，这篇论文研究自动编码程序的语义表示。数据集来自斯坦福开发的模拟操控机器人的语言。

表示代码

hankcs.com 2017-07-12 下午3.29.57.png

希望得到代码的简洁表示、运行后会得到什么结果，哪怕它无法编译运行。

这门课上讲了很多编码表示句子的方法，RNN/CNN等，是否可以活用到代码上？

hankcs.com 2017-07-12 下午3.32.15.png

定义机器当前所处的状态为precondition（P），代码执行后的状态为postcondition（Q）。如果将代码每行下个断点，就会得到precondition与postcondition的pair序列。对此建模：

hankcs.com 2017-07-12 下午3.38.22.png

中间的矩阵$M_A$是待学习的embedding，期待它能捕捉到程序代码的语义。

hankcs.com 2017-07-12 下午3.41.18.png

第一项衡量模型的预测能力，第二项希望模型能从post-condition重建pre-condition。

hankcs.com 2017-07-12 下午3.46.44.png

对于复杂的循环，则无法用单个语句的embedding表示。程序语言已经有确定的语法树，刚好拿过来喂给tree structure的RNN。

利用recursive neural nets可以通过解决从precondition到postcondition的映射问题，来自动编码程序的语义。通过得到的代码表示，可以用于将学生聚类；于是可以给同一类别的学生相同的反馈，还可以追踪学生多次提交代码的进步。

还有一些应用研究，预测某次代码提交后应该给提示还是教学视频或更多练习等等，甚至预测学生未来的成绩（让一些人早日从入门到放弃？）

hankcs.com 2017-07-12 下午3.53.56.png