文
Severus编
小戏
在任务中寻找到真正有用的训练样本,可以说一直是机器学习研究者们共同的诉求。毕竟,找到了真正有用的训练样本,排除掉训练样本中的杂质,无论最终是提升训练模型的效率,还是提升了模型最终的测试性能,其意义都是非凡的。因此,相似的研究早在我们还要做特征工程的时期就已经层出不穷。
而到了DNN时代,在做任务的我们不需要人工特征工程了,DNN模型直接用表示学习把“特征”安排的明明白白,数据就成了黑盒。不过,DNN模型虽不可解释,但DNN模型的结果一定反映了数据的现象,所以充分利用DNN模型训练过程中的中间结果,也是可以得到有效的数据上的反映的,所谓“原汤化原食”的确是行之有效的思路。
今天要介绍的两篇工作,则是以上述思路出发,从两个不同的角度去提升模型的性能。[1]通过模型的中间结果,寻找出训练集中真正重要的样本,给模型训练,从而做到删减数据集之后,也能得到很好的测试精度;[2]通过反复训练模型表现很差的那一部分样本,从而提升模型的整体测试效果。
开局少一半数据,咱也依然能赢!论文题目:DeepLearningonaDataDiet:FindingImportantExamplesEarlyinTraining论文链接: