在培训码农的时候,教师需要给学生批改代码、写反馈。学生太多时成为机械劳动,这篇论文研究自动编码程序的语义表示。数据集来自斯坦福开发的模拟操控机器人的语言。
表示代码
希望得到代码的简洁表示、运行后会得到什么结果,哪怕它无法编译运行。
这门课上讲了很多编码表示句子的方法,RNN/CNN等,是否可以活用到代码上?
编码解码状态
定义机器当前所处的状态为precondition(P),代码执行后的状态为postcondition(Q)。如果将代码每行下个断点,就会得到precondition与postcondition的pair序列。对此建模:
中间的矩阵$M_A$是待学习的embedding,期待它能捕捉到程序代码的语义。
目标函数
第一项衡量模型的预测能力,第二项希望模型能从post-condition重建pre-condition。
利用RecursiveNN来生成程序embeddings
对于复杂的循环,则无法用单个语句的embedding表示。程序语言已经有确定的语法树,刚好拿过来喂给tree structure的RNN。
总结
利用recursive neural nets可以通过解决从precondition到postcondition的映射问题,来自动编码程序的语义。通过得到的代码表示,可以用于将学生聚类;于是可以给同一类别的学生相同的反馈,还可以追踪学生多次提交代码的进步。
未来工作
还有一些应用研究,预测某次代码提交后应该给提示还是教学视频或更多练习等等,甚至预测学生未来的成绩(让一些人早日从入门到放弃?)