

-
简单:逻辑相对简单,整个算法没有更复杂的逻辑,只是对节点进行分叉; -
高效:模型训练速度较快; -
强解释性:模型的判断逻辑可以用语言清晰的表达出来,比如上述决策树案例中的判断,就可以直接用语言表述成:脱离水不能生存的没有脚蹼的动物,我们判断它是鱼;
-
监督分层; -
驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性); -
预测:根据模型进行分类的预测;
熵是什么?



信息增益


我们继续用上一篇文章《如何用线性回归模型做数据分析》中的共享单车服务满意分数据集来做案例,分析哪一类人群更加偏向于成为公司的推荐者,我们需要分析用户特征,更好的区分出推荐者。




-
树的深度 — 如规定树的深度不能超过3
-
叶子结点样本数 — 如叶子结点样本数不能小于10
-
信息增益 — 如每一个分叉的信息增益不能小于0.2(R中的默认值)
决策树在数据分析中的实战流程







-
模型建立后,可以将模型用作分类预测; -
决策树不只可应用于预测量为分类变量,还可应用于数值型因变量,只需将熵改为连续变量的方差; -
特征划分的方法除了信息增益方法外,还可以用增益率(**.5决策树)、基尼指数(CART决策树); -
剪枝是决策树算法中防止过拟合的主要手段,分为预剪枝与后剪枝。预剪枝指在决策树生成过程中,对每个结点在划分前进行估计,若当前结点划分不能使决策树泛化能力提升则停止划分。后剪枝指先从训练集生成一颗决策树,自底向上对非叶结点进行考察,若该结点对应的子树替换为叶结点能使决策树泛化能力提升,则该子树替换为叶结点;
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)