RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:30-18:00
你可能遇到了下面的问题
关闭右侧工具栏

技术支持

机器学习中的欠拟合和过度拟合
  • 作者:成都软件开发
  • 发表时间:2019-03-21 08:59
  • 来源:未知
 
 
让我们考虑一下,我们正在设计机器学习模型。如果模型以适当的方式概括来自问题域的任何新输入数据,则该模型被认为是一种良好的机器学习模型。这有助于我们对数据模型从未见过的未来数据进行预测。
 
现在,假设我们想要检查我们的机器学习模型学习和推广到新数据的程度。为此,我们有过度拟合和欠拟合,这是机器学习算法性能不佳的主要原因。
 
欠拟合:
当统计模型或机器学习算法无法捕获数据的基本趋势时,据说它具有欠拟合。(这就像试图穿上尺码较小的裤子一样!)不合适的东西破坏了我们机器学习模型的准确性。它的出现只是意味着我们的模型或算法不能很好地拟合数据。当我们用较少的数据来构建精确的模型时,以及当我们尝试使用非线性数据构建线性模型时,通常会发生这种情况。在这种情况下,机器学习模型的规则太容易和灵活,无法应用于这样的最小数据,因此模型可能会做出很多错误的预测。通过使用更多数据并通过特征选择减少特征,可以避免欠拟合。
 
 
过度拟合:
统计模型被认为是过度拟合,当我们有很多数据的训练它(就像一个超大的裤子装修自己!) 。当模型被大量数据训练时,它开始从数据集中的噪声和不准确的数据条目中学习。然后,由于太多的细节和噪音,模型没有正确地对数据进行分类。过度拟合的原因是非参数和非线性方法,因为这些类型的机器学习算法在基于数据集构建模型时具有更大的自由度,因此它们可以真正构建不切实际的模型。如果我们使用线性数据或使用像最大深度这样的参数(如果我们使用决策树),则避免过度拟合的解决方案是使用线性算法。
 
例子:
 
 
如何避免过度拟合:
常用的方法是:
 
交叉验证:找出样本外预测误差的标准方法是使用5倍交叉验证。
早期停止:它的规则为我们提供了关于在学习者开始过度适应之前可以运行多少次迭代的指导。
修剪:在构建相关模型时广泛使用修剪。它只是删除了对手头问题几乎没有预测能力的节点。
正规化:它引入了一个成本术语,用于引入具有目标函数的更多特征。因此,它试图将许多变量的系数推到零,从而减少成本项。
 
 
适合统计模型:
 
理想情况下,模型使预测具有0错误的情况被认为具有良好的数据拟合。在过度拟合和欠拟合之间的某个点可以实现这种情况。为了理解它,我们将不得不随着时间的推移观察模型的性能,同时从训练数据集中学习。
 
随着时间的推移,我们的模型将继续学习,因此模型对训练和测试数据的误差将继续下降。如果它将学习太久,由于存在噪声和较少有用的细节,该模型将更容易过度拟合。因此,我们的模型的性能将下降。为了更好地适应,我们将在错误开始增加之前停止。在这一点上,该模型据说在训练数据集以及我们看不见的测试数据集方面具有良好的技能。