DecisionTree

Decistion Tree(决策树)

假设有如下数据:

信息熵(information entropy)

信息熵(Information entropy): 是度量样本集合纯度的一种指标 公式: 假设当前样本集D中第k类样本所占的比利为 \(p_k\) (k=1, 2, ..., |y|) \[ Ent(D) = - \sum_{k=1}^{\vert y \vert}p_k\cdot log_2 p_k \]

信息增益熵(Information gain)

信息增益熵(Information gain): 一定条件下,信息复杂度(不确定性)减少的程度 公式: \[ Gain(D, a) = Ent(D) - \sum_{v=1}^V \dfrac{|D^v|}{|D|}Ent(D^v) \]

基尼指数(Gini index)

公式: \[ Gini(D) = 1 - \sum_{k=1}^{|y|} p_k^2 \]

\[ Gini_index(D, a) = \sum_{v=1}^{V} \dfrac{|D^v|}{|D|}Gini(D^v) \]

不同的算法

  • ID3
    for node in nodes:
    pass
  • C4.5
  • CART(classification and regression tree)