信息增益的计算实例

  • 更新时间: 2018-08-15
  • 来源: 原创或网络
  • 浏览数: 22次
  • 字数: 3534
  • 发表评论
介绍信息增益之前,首先需要介绍一下熵的概念,这是一个物理学概念,表示“一个系统的混乱程度”。系统的不确定性越高,熵就越大。假设集合中的变量X={x1,x2…xn},它对应在集合的概率分别是P={p1,p2…pn}。那么这个集合的熵表示为:

信息增益的计算实例,by 5lulu.com

举一个的例子:对游戏活跃用户进行分层,分为高活跃、中活跃、低活跃,游戏A按照这个方式划分,用户比例分别为20%,30%,50%。游戏B按照这种方式划分,用户比例分别为5%,5%,90%。那么游戏A对于这种划分方式的熵为:

信息增益的计算实例,by 5lulu.com

同理游戏B对于这种划分方式的熵为:

信息增益的计算实例,by 5lulu.com

游戏A的熵比游戏B的熵大,所以游戏A的不确定性比游戏B高。用简单通俗的话来讲,游戏B要不就在上升期,要不就在衰退期,它的未来已经很确定了,所以熵低。而游戏A的未来有更多的不确定性,它的熵更高。

介绍完熵的概念,我们继续看信息增益。为了便于理解,我们还是以一个实际的例子来说明信息增益的概念。假设有下表样本

信息增益的计算实例,by 5lulu.com!

第一列为QQ,第二列为性别,第三列为活跃度,最后一列用户是否流失。我们要解决一个问题:性别和活跃度两个特征,哪个对用户流失影响更大?我们通过计算信息熵可以解决这个问题。

按照分组统计,我们可以得到如下信息:

信息增益的计算实例,by 5lulu.com

其中Positive为正样本(已流失),Negative为负样本(未流失),下面的数值为不同划分下对应的人数。那么可得到三个熵:

整体熵:

信息增益的计算实例,by 5lulu.com

性别熵:

信息增益的计算实例,by 5lulu.com

信息增益的计算实例,by 5lulu.com

性别信息增益

信息增益的计算实例,by 5lulu.com

同理计算活跃度熵:

信息增益的计算实例,by 5lulu.com

活跃度信息增益

信息增益的计算实例,by 5lulu.com

活跃度的信息增益比性别的信息增益大,也就是说,活跃度对用户流失的影响比性别大。在做特征选择或者数据分析的时候,我们应该重点考察活跃度这个指标。


标签: 数据分析 信息熵 信息增益

我来评分 :6
0

转载注明:转自5lulu技术库

本站遵循:署名-非商业性使用-禁止演绎 3.0 共享协议