决策树
决策树是一种逼近离散函数值的算法。它模拟人类在面临决策时的思考过程,通过一系列的决策节点和分支来对数据进行分类或预测。
决策树的基本结构类似于一棵倒置的树,从根节点开始,通过一系列的内部节点沿着分支向下,最终到达叶节点。每个内部节点表示一个特征属性的测试,每个分支代表测试结果的一个可能取值,而每个叶节点表示一个类别标签或者回归值。
决策树的构建过程主要包括特征选择、树的生成和剪枝三个步骤:
- 特征选择:根据某个准则(如信息增益、基尼不纯度等),选择最佳的特征作为当前节点的划分属性。
- 数据分裂:根据所选特征的不同取值,将数据集划分为多个子集,每个取值形成一个分枝。
- 树的生成:递归地将数据集划分为子集,直到数据集中的所有样本属于同一类别或满足停止条件。
- 剪枝:为了避免过拟合,可以对生成的树进行剪枝操作,去除一些不必要的节点或分支。
决策树算法的典型算法包括ID3、C4.5和CART等:
- ID3算法:旨在减少树的深度,但忽略了叶子数目的研究。
- C4.5算法:在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。C4.5算法产生的分类规则易于理解,准确率较高。
- CART算法:由决策树生成和决策树剪枝两步组成,既可以用于分类也可以用于回归。
决策树的特征选择
常用的特征选择准则包括信息增益、信息增益比、基尼不纯度等。
通过计算每个特征的信息增益(或其他准则),选择具有最大信息增益(或其他准则最优)的特征作为当前节点的划分属性。
参考
https://blog.csdn.net/weixin_73852115/article/details/138322320
https://baijiahao.baidu.com/s?id=1805994120664494592&wfr=spider&for=pc
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LP瞎逼逼!
评论