均方差公式(均方差公式)

1.模型介绍1.线性回归的弱点:1.1.需要拟合所有的样本点(除了局部加权线性回归),但是当数据的特征很多,特征之间的关系非常复杂的时候,建立全局模型的思路就太

1.模型介绍

均方差公式(均方差公式)插图

1.线性回归的弱点:

1.1.需要拟合所有的样本点(除了局部加权线性回归),但是当数据的特征很多,特征之间的关系非常复杂的时候,建立全局模型的思路就太难了,略显笨拙。

1.2.生活中很多问题都是非线性的,不可能用全局线性模型来拟合任何数据。

2.解决方案:

树回归:把数据集切割成很多容易建模的数据,然后用我们的线性回归技术建模。如果第一次分割后仍然难以拟合线性模型,则继续分割。

3.回归树和分类决策树的区别:

3.1.复习分类决策树算法。

3.1.1.基于ID3(信息增益):

原理:每次选取当前最佳特征对数据进行分割,根据特征的所有可能值对数据进行分割。也就是说,如果一个要素有四个值,数据将被分割成四部分。一旦特征被分割,该特征在随后的算法执行中将不起作用。

缺点:

1.分割方法太快。

2.不能直接加工连续特征。只有预先将连续特征转化为离散特征,才能用于ID3算法。但是,这种转换过程会破坏连续变量的固有属性。

3.1.2.基于C4.5(信息增益比)

(1)只能分类;(2)子节点可以有多个点。

3.基于基尼系数的CART决策树

(1)CART算法可以分类或回归;(2)由无数个二叉节点组成。

3.2.下面说说基于基尼系数的CART分类决策树的构造特点。

1.在递归创建分类树的过程中,CART总是选择当前数据集中基尼信息增益最小的特征作为节点划分决策树。

2.CART算法的二分法可以简化决策树的规模,提高生成决策树的效率。

3.不能直接加工连续特征。只有事先将连续特征转换成离散特征

3.CART分类和CART回归的区别

1.结果不同:分类得到类别标签,回归得到数值。

2.划分子节点有不同的方式:基尼系数用于分类,最小均方误差用于回归,确定回归树的最优划分。划分准则是期望划分后的子树误差方差最小。

4.4最重要的基础。CART算法

4.1.二元分裂:在每个判断过程中,观察变量被分成两部分。

问题1:对于离散分布,且值的数量>:=3特征处理:

通过组合人工创建值序列,取最小的基尼系数作为树的分叉决策点。

问题2:连续特征的处理

在CART算法中,应以最小基尼系数作为分界点的选择标准。

流程如下:

1.按升序对要素值进行排序。

2.将两个特征值的中点作为可能的分裂点,将数据集分成两部分,计算每个可能分裂点的基尼系数。优化算法是只计算那些分类属性已经改变的特征值。

3.选择GiniGain最小的分裂点作为该特征的最佳分裂点(注意,如果修改,需要从这里的最佳分裂点的Gini Gain中减去Log2(n-1)/| d |(n为连续特征数,d为训练数据数)。

4.2.单变量除法:每个最优除法都是针对单个变量的。

4.3.剪枝策略

1.预剪枝:按照一定的原则,如树的深度达到用户要求的深度,节点中的样本数小于用户指定的数目,杂质指数的最大下降量小于用户指定的范围,尽早停止树的生长。

2.后期修剪:通过在一棵完全长大的树上剪掉树枝来实现,通过删除节点的树枝来剪掉树节点。

5.购物车算法类别

5.1CART算法在用于回归时,根据叶子是特定值还是另一个机器学习模型,可以分为两种。

回归树:回归树返回数据“簇”的平均值,而不是具体的、连续的预测值。

模型树:模型树的叶子是机器学习模型,比如线性回归模型,所以可以称为“回归”算法。

回归树类似于分类决策树,选择不同的特征作为分裂节点。不同的是回归叶节点的数据类型是连续的而不是离散的。决策树的每个叶节点根据训练数据的概率倾向确定其最终的预测类别。然而,回归树的叶节点是特定的值。严格来说,回归树在预测值连续的意义上不能称为回归算法。因为回归树的叶节点返回的是一组训练数据的平均值,而不是具体的连续值。

6.性能赋值

6.1我们要衡量预测值和真实值之间的差距。因此,可以用多种评价函数对其进行评价。

1.平均绝对误差

2.均方误差

3.R-squared:拟合度检验是对所做的预测模型进行检验,比较其预测结果与实际情况的吻合程度。通常是同时对几个预测模型进行测试,选取其拟合度进行试用。常用的拟合检验方法有残差平方和检验、卡方(c2)检验和线性回归检验。拟合优度,即“R平方”。

7.摘要

采油树的优点:

1.树模型可以解决非线性特性的问题。

2.树模型不需要特征的标准化和统一量化,也就是说,数字和分类特征都可以直接应用于树模型的建立和预测过程中。

3.树型模型还可以直观地输出决策过程,使预测结果具有可解释性。

采油树的缺点:

1.因为可以解决复杂的非线性拟合问题,更容易因为模型过于复杂而失去预测新数据的准确性。

2.树型模型自上而下的预测过程会因为数据的微小变化而产生较大的结构变化,因此预测稳定性较差。

3.基于训练数据建立最佳树模型是一个NP-hard问题,即在有限时间内无法找到最优解的问题。所以用贪心算法只能找到一些次优解,所以我们经常用集成模型在多个次优解中找到一个模型性能更高的。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/120440.html

发表回复

登录后才能评论