抓住训练集中真正有用的样本,提升模型整体 - 翠鸟

TUhjnbcbe - 2021/9/21 0:10:00

北京荨麻疹最好的医院 http://pf.39.net/bdfyy/zqbdf/210410/8833311.html

文

Severus编

小戏

在任务中寻找到真正有用的训练样本，可以说一直是机器学习研究者们共同的诉求。毕竟，找到了真正有用的训练样本，排除掉训练样本中的杂质，无论最终是提升训练模型的效率，还是提升了模型最终的测试性能，其意义都是非凡的。因此，相似的研究早在我们还要做特征工程的时期就已经层出不穷。

而到了DNN时代，在做任务的我们不需要人工特征工程了，DNN模型直接用表示学习把“特征”安排的明明白白，数据就成了黑盒。不过，DNN模型虽不可解释，但DNN模型的结果一定反映了数据的现象，所以充分利用DNN模型训练过程中的中间结果，也是可以得到有效的数据上的反映的，所谓“原汤化原食”的确是行之有效的思路。

今天要介绍的两篇工作，则是以上述思路出发，从两个不同的角度去提升模型的性能。[1]通过模型的中间结果，寻找出训练集中真正重要的样本，给模型训练，从而做到删减数据集之后，也能得到很好的测试精度；[2]通过反复训练模型表现很差的那一部分样本，从而提升模型的整体测试效果。

开局少一半数据，咱也依然能赢！

论文题目：DeepLearningonaDataDiet:FindingImportantExamplesEarlyinTraining论文链接：