今天我们来谈谈过度拟合问题。在统计中,过度拟合是“太紧密或精确地对应于特定数据集的分析结果,因此它可能无法拟合其他数据或可靠地预...
今天我们来谈谈过度拟合问题。在统计中,过度拟合是“太紧密或精确地对应于特定数据集的分析结果,因此它可能无法拟合其他数据或可靠地预测未来的观察结果”。过拟合模型是一种统计模型,其中包含多个参数,这些参数可能超出数据的合理范围。过度拟合的本质是在不知不觉中提取一些噪声的情况,就像这些变化代表基本的模型结构一样。换句话说,该模型会记住大量示例,而不是学习注意力特征。
下面是数据过度拟合的过程的图示
过度拟合的可能性不仅取决于参数和数据的数量,还取决于模型结构与数据形状的一致性,以及与预期的噪声或数据误差水平相比模型误差的大小。即使拟合模型没有过多的参数,也可以预期,拟合关系在新数据集上的表现将比在拟合数据集上的表现差(有时会出现这种现象称为收缩)。特别地,确定系数的值将相对于原始数据缩小。
总之,当你的模型想要一丝不苟地反映已知的所有数据时,反而它对未知数据的预测能力却会非常差。由于已知问题的数据误差问题,精准的拟合会把数据的误差给逐级放大 ,你的模型拟合得越精确,模型预测结果就与真实情况的差距越大,拟合得过度精确后反而结果更加糟糕。
如果仅更改原始数据,并且模型的预测结果将发生很大变化,则说明您基本上是过拟合的。一个好的模型应该对数据不那么敏感!
例如,公司选择一组数据作为评估指标,以评估公司的运营并激励员工。因此,如果有人认为这些指标的完成非常非常重要,以至于丝毫不足就非常焦虑,那么我们可以说这个人已经过拟合了。大公司如何因小事件而改变整个未来的方向? 数据很重要,但是今天的人们似乎有点“数据崇拜”。过多地关注各种评估指标,处理数据和指标以及纠缠于各种细节,可能无法照顾到真正重要的事情。
书中给出了一个例子。有一位大学老师,在教学的第一年,他在准备课程时非常小心。他将用10个小时来准备1个小时的课程。课程计划和PPT非常详细。在第二年,他开设了一门新课程,但是由于他的工作太忙了,他没有太多时间准备课程,所以他不得不简化草率的回答。他非常着急,学生们更喜欢新开设的课程。 他的准备时间短,但效果更好。 为什么是这样?实际上,一年级的课程似乎已经做好了充分的准备,但这只是在老师自己的眼中。他有足够的时间考虑,因此他拼命地在课程计划中添加了各种细节-实际上,从学生的角度来看,根本没有任何意义。第二年,他没有太多的时间准备,所以他只能确保输入最重要的内容。结果,学生看上去简单明了。
每个人都可能有类似的经历。一篇文章需要您花费几个小时来编写,而且内容已经非常不错了。一个写作团队不得不花费数周的时间进行写作,而这篇文章将不可避免地添加所有本不应该存在的细节。可以把握关键点的决定是好的,您必须考虑各种不重要的因素,最后往往会做出错误的选择……这就是“长期的考验会使游戏变得糟糕”。为了避免过度拟合,数学家经常人为地降低模型的复杂性。实际上,我们的生活中也有这种机制!人脑看上去很小,但其能量消耗却占整个人体的20%。这就是为什么如果我们对问题进行太长时间的思考会感到疲倦,这实际上是一件好事,因为思考太多并没有好处。
《指导生活的算法》一书中给了三个建议:
首先,限制思考时间。例如,报告必须在一天之内完成,或者会议必须在一小时之内完成。实际上,无论您是开会还是写报告,考虑的时间越长,您所能保证的效果就越差。相反,如果有时间限制,您将不得不考虑最重要的因素。
其次,限制内容长度。例如,您可以要求您的下属撰写一份不超过一页的报告。如果无法在一页上清楚地说明一个计划,则只需放弃该计划。另一种方法是所谓的“电梯对话”,您想与我讨论一个商业计划,您最好能在这段时间内在电梯中清楚地解释您的计划。
最后,使用粗笔在白板上讨论业务计划。最初的计划必须集中在关键点上!笔触越粗,对您的思维越有帮助,就越会迫使您考虑整体情况。如果使用圆珠笔,您将陷入一种注重细节的思维方式。
如果认为本文对您有所帮助请赞助本站