翠鸟

首页 » 常识 » 问答 » 抓住训练集中真正有用的样本,提升模型整体
TUhjnbcbe - 2021/9/21 0:10:00
北京荨麻疹最好的医院 http://pf.39.net/bdfyy/zqbdf/210410/8833311.html

Severus编

小戏

在任务中寻找到真正有用的训练样本,可以说一直是机器学习研究者们共同的诉求。毕竟,找到了真正有用的训练样本,排除掉训练样本中的杂质,无论最终是提升训练模型的效率,还是提升了模型最终的测试性能,其意义都是非凡的。因此,相似的研究早在我们还要做特征工程的时期就已经层出不穷。

而到了DNN时代,在做任务的我们不需要人工特征工程了,DNN模型直接用表示学习把“特征”安排的明明白白,数据就成了黑盒。不过,DNN模型虽不可解释,但DNN模型的结果一定反映了数据的现象,所以充分利用DNN模型训练过程中的中间结果,也是可以得到有效的数据上的反映的,所谓“原汤化原食”的确是行之有效的思路。

今天要介绍的两篇工作,则是以上述思路出发,从两个不同的角度去提升模型的性能。[1]通过模型的中间结果,寻找出训练集中真正重要的样本,给模型训练,从而做到删减数据集之后,也能得到很好的测试精度;[2]通过反复训练模型表现很差的那一部分样本,从而提升模型的整体测试效果。

开局少一半数据,咱也依然能赢!

论文题目:DeepLearningonaDataDiet:FindingImportantExamplesEarlyinTraining论文链接:

1
查看完整版本: 抓住训练集中真正有用的样本,提升模型整体