决策树
本质是一颗由多个判断节点组成的树。决策树算法的核心是通过对数据的学习,选定判断节点,构造一颗合适的决策树。
树模型不需要做归一化:
- 归一化的目的是为了加快梯度下降法的收敛速度,但是决策树模型不需要计算梯度
- 树模型只考虑特征的划分界限,而不需要考虑特征的值范围
决策树的关键是选择最优划分属性。
一个属性会有多个取值,根据这个属性的不同取值将输入的数据划分为多个样本集合,一个取值对应一个分支集合,
(注意,CART树只选取一个取值,因此是划分为二叉树)
使得每个取值分支集合中的样本尽可能属于同一类别,即分支集合的纯度越高。
三种选择方式: