华为胡厚崑:中国算力网络标准需统一,硬件、应用接口、数据共享应相互兼容
480 2022-09-26
过拟合、高方差的问题发生在机器学习算法被允许无用地探究非常复杂的假设空间,将抽样误差也进行拟合,最终得出带有误导性的复杂答案。
过拟合发生的原因通常有:
· 相对于训练数据行数来说过多的自由参数
· Boosting的次数过多
· 神经网络层数过多
· 树的深度过大
· 在SGD类型的算法中迭代次数过多
事实上所有高度复杂的机器学习模型都有过拟合的倾向,但是题主的问题可以理解为为什么在树的数量增加时随机森林不会过拟合。
随机森林相比于单个决策树不容易过拟合。过拟合的主要原因是模型学习了过多样本中的随机误差,但是随机森林随机选择样本和特征,并且将很多的随机树进行平均,从而将随机误差也进行了平均。
总的来说,集成方法可以大幅度地减小预测方差到近乎零从而提高整体的准确率。如果我们将单个随机模型的期望泛化错误的方差定义为下图:
因此,一个整体的期望泛化错误的方差可以写为:
公式中的p(x)是基于来自两个独立的种子(seeds)的相同数据训练出的随机模型预测值的皮尔逊相关系数。如果我们增加随机森林中决策树的数量,反目M增大,并且当p(x)<1时整体的方差减小。因此整体的方差将会严格小于单个模型的方差。
简单来说,增加整体中单个随机模型的数量永远不会增加泛化错误。