“ 对于分类问题,线性分类则是最最基础的内容之一。”
要讲线性分类,必先了解线性回归。线性回归的因变量Y是连续值,而当Y是离散值的时候,则明显不能直接用线性回归的方法解决了。这就是线性分类要解决的问题。
关于线性回归,可以参考之前文章《线性回归基础介绍》。而相较于分类问题,另一类问题就是聚类问题,关于聚类问题可以参考之前的《K-means聚类方法介绍》、《层次聚类方法介绍》。
01 线性分类概述及类别
首先聊聊线性分类的整体概况。
(1)线性分类和线性回归的关系
线性回归和线性分类啥关系呢?
文章开始的时候,我们其实讲到了,回归解决的是连续变量的问题,即Y值是连续的。而分类是离散变量,即Y值是离散的。那线性回归和线性分类有啥关系呢?看下图:
总结起来,在线性回归的基础上,加上一个激活函数(或者通过降维的方式),就可以实现线性分类了。
(2)线性分类的具体方式
上面我们看到了,连接线性回归和线性分类中的关键环节,就是激活函数。基于激活函数的不同输出特性,我们将线性分类细分为两种模式:硬输出式分类和软输出式分类。
什么是硬分类呢?
其实就是激活函数的输出,是直接的分类结果(比如样本1属于A类,样本2属于B类)。常见的机器学习模型有线性判别分析和感知机。
软分类就是输出的结果是连续的概率值(比如样本1属于A类的概率是0.78),我们根据概率值再来判定具体的类别。常见的机器学习模型有逻辑回归、朴素贝叶斯等。
02 感知机模型
上文中,已经提到硬分类中,有一种分类模型是感知机。
(1)感知机概述
首先简单介绍一下感知机。
感知机其实是比较朴素的一种机器分类模型。其实就是在下图中找到一条线(或者多维里的一个平面),将样本空间分为两类。
当然,对于非线性可分的情况,感知机是不适应的。
(2)激活函数
感知机分类算法的激活函数如下:
对,其实就是常见的符号函数。
具体过程参考下图:
这个图其实是一个比较形象化的过程。
首先对于每个变量赋予权重,然后进行求和。将求和以后的整体代入到激活函数中,如果大于0则取1,小于0则取0,这样则实现了两分类。基于此,进行样本数据的训练,获得具体的权重向量。
关于线性分类相关算法,我们今天先分享这些。后续针对逻辑回归、判别分析、朴素贝叶斯等算法,咱们逐一进行分享。欢迎继续关注~
-END-
评论(0)