dev
Decision Tree
Decision Tree
决策树是一种通过层层特征判断来做分类或预测的树形模型,表现形式很像流程图,因此比较直观。
优点
- 可解释性强,适合向业务方说明判断逻辑
- 对数据预处理要求相对较低
- 训练和预测速度通常较快
缺点
- 容易过拟合
- 对训练数据的小变化比较敏感
- 单棵树通常难以表达复杂特征之间的组合关系
构建过程
- 选择当前最优的划分特征
- 按特征取值切分数据集
- 对每个子集递归继续建树
- 当满足停止条件时停止分裂
- 需要时再做剪枝,降低过拟合风险
一个直观例子
假设我们要判断“某用户会不会购买会员”,可以用这些特征:
- 是否经常访问
- 是否已经注册
- 是否看过付费内容
一棵简单的决策树可能像这样:
- 如果“没有注册”,先判断为“不购买”
- 如果“已经注册”且“经常访问”,再判断“看过付费内容没有”
- 如果“看过付费内容”,更可能购买
这种结构的好处是,业务方可以直接看到模型是如何一步步做判断的。