热点新闻

文∣中科恒运 刘俊宇


近些年,“智能”概念被炒得越来越热。任何产品似乎只要冠以“智能”二字,就显得立刻“高大上”起来。而实现“智能”的重要手段之一就是机器学习。今天就来跟大家聊一聊机器学习中最常用的算法——决策树。决策树百科概念如下图。细细品读三分钟后老妈为你答疑解惑。

640.webp (2).jpg 

决策树

让我们进入一个家喻户晓的情景——相亲老妈。晚饭后,老妈略带喜感的走向眉头紧锁的你,意味深长的说:“你要找一个有房工作稳定的人,最好是不超过30岁的公务员”,此时一棵相亲决策树应声落地。这是一棵五层决策树,无论候选人队伍多么庞大,经过老妈给出的决策树算法,都会只剩下寥寥无几的幸存者。决策结果很残酷:合适,不合适。构造决策树的过程本质上就是根据数据特征将数据集分类的递归过程。

QQ截图20180705133830.jpg

特征选择

如何精准地解读出老妈的关键信息成为接下来的重中之重。我们假设有房与否会对老妈产生决定性影响,通过这一条件能最大程度判断出相亲对象是否符合要求,那么这一属性就会成为主要属性首先在决策树中体现。而假如你在对方是否是公务员这一条件上大费周章势必导致事倍功半,这种重要条件优先选取的方式将大大提升我们的定位效率,即特征选择。特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准。

信息法则

假如是否有房和年龄都是十分重要的因素,那么量化上述影响力亟需解决。引入一个概念——熵。如果一个节点上的数据类值在可能的类值上均匀分布,则称节点的熵(无序性)最大。如果一个节点上的数据的类值对于所有数据都相同,则熵最小。如果通过是否有房分组,相亲对象清晰地分成了合适和不合适两组,那么熵最小,反之分组后合适不合适对象依旧混淆则熵最大。即我们选取的是使熵变化最大的属性。根据不同量化标准,决策树可分为ID3、CART和C4.5等算法,其中C4.5和CART两种算法从ID3算法中衍生而来。

模型训练

假如每次你领回家的对象不符合要求时,老妈都会对你进行不厌其烦的谆谆教导,在不断反复的过程中,你会不断受到“奖”和“惩”。相信不久的未来,你能清晰的觉察到老妈的算法规则并趋利避害,准确无误地带回符合要求的对象。这时,你自己就是被成功训练的模型。

过拟合与剪枝

突然有一天,冰雪聪明的你发现所有穿衬衣的人也都符合老妈的标准,于是你就误认为老妈喜欢穿衬衣的人却遭到了老妈的无情鄙视,其实过度臆测了老妈,这就是我们常说的过拟合。过拟合的官方概念为:过拟合是指为了得到一致假设而使假设变得过度严格(但愿你懂了)。为了降低过拟合,剪枝是重要手段之一,把喜欢穿衬衣这一主观臆测从老妈的决策规则中摒弃掉。在实际模型中,往往不会有特别明显的拟合和过拟合之分,就需要确定合适的正则参系数来控制剪枝的严厉程度,正则化参数越大,剪枝越严厉。

笔者对于文中老妈躺枪深表歉意,衷心祝愿天下的老妈身体健康,万事如意!



联系邮箱

电话联系

QQ