我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 1578|回复: 4

[最新新闻] 用PCA还是LDA?特征抽取经典算法大PK

[复制链接]

该用户从未签到

5552

主题

2547

回帖

5

积分

PADS-180606高级班

积分
5

终身成就奖特殊贡献奖原创先锋奖优秀斑竹奖金点子奖

QQ
发表于 2019-1-12 09:18:33 | 显示全部楼层 |阅读模式
[paragraph]

用PCA还是LDA?特征抽取经典算法大PK



在之前的格物汇文章中,我们介绍了特征抽取的经典算法——主成分分析(PCA),了解了PCA算法实质上是进行了一次坐标轴旋转,尽可能让数据映射在新坐标轴方向上的方差尽可能大,并且让原数据与新映射的数据在距离的变化上尽可能小。方差较大的方向代表数据含有的信息量较大,建议保留。方差较小的方向代表数据含有的信息量较少,建议舍弃。今天我们就来看一下PCA的具体应用案例和特征映射的另一种方法:线性判别分析(LDA)
PCA案例
在机器学习中,所使用的数据往往维数很大,我们需要使用降维的方法来突显信息含量较大的数据,PCA就是一个很好的降维方法。下面我们来看一个具体的应用案例,为了简单起见,我们使用一个较小的数据集来展示:

显而易见,我们数据有6维,维数虽然不是很多但不一定代表数据不可以降维。我们使用sklearn中的PCA算法拟合数据集得到如下的结果:

我们可以看到经过PCA降维后依然生成了新的6个维度,但是数据映射在每一个维度上的方差大小不一样。我们会对每一个维度上的方差进行归一化,每一个维度上的方差量我们称为可解释的方差量(Explained Variance)。由图可知,每一个维度上可解释方差占比为:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根据经验来说我们期望可解释的方差量累计值在80%以上较好,因此我们可以选择降维降到3维(82.99%)或者4维(93.11%),括号中的数字为累计可解释的方差量,最后两维方差解释只有7%不到,建议舍去。图中的柱状图表示原维度在新坐标轴上的映射向量大小。在前两维度上表现如下图所示:

PCA虽然能实现很好的降维效果,但是它却是一种无监督的方法。实际上我们更加希望对于有类别标签的数据(有监督),也能实现降维,并且降维后能更好的区分每一个类。此时,特征抽取的另一种经典算法——线性判别分析(LDA)就闪亮登场了。
LDA简介

LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

上图中提供了两种投影方式,哪一种能更好的满足我们的标准呢?从直观上可以看出,右图要比左图的投影效果好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。LDA的降维效果更像右图,它能在新坐标轴上优先区分出两个类别,它是如何实现的呢?
LDA的原理
LDA的主要思想是“投影后类内方差最小,类间方差最大”。实质上就是很好的区分出两个类的分布。我们知道衡量数据分布的两个重要指标是均值和方差,对于每一个类,他们的定义如下:

与PCA一样,LDA也是对数据的坐标轴进行一次旋转,假设旋转的转移矩阵是w,那么新的旋转数据可以表示为:

同理,两个类别的中心点也转换成了:

我们求解这个最优化问题,即可求出转移变换矩阵w,即LDA的最终结果。
PCA vs LDA
LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。首先我们看看相同点:
1、两者均可以对数据进行降维
2、两者在降维时均使用了矩阵特征分解的思想
3、两者都假设数据符合高斯分布
我们接着看看不同点:
1、LDA是有监督的降维方法,而PCA是无监督的降维方法
2、LDA降维最多降到类别数k-1的维数,而PCA没有这个限制
3、LDA除了可以用于降维,还可以用于分类
4、LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向
在某些数据分布下LDA比PCA降维较优(左图),在某些数据分布下,PCA比LDA降维较优。
回复

使用道具 举报

该用户从未签到

2

主题

114

回帖

0

积分

二级逆天

积分
0

终身成就奖

QQ
发表于 2019-1-12 09:20:34 | 显示全部楼层
回复

使用道具 举报

该用户从未签到

24

主题

727

回帖

69

积分

二级逆天

脸盆

积分
69

终身成就奖社区居民

QQ
发表于 2019-1-12 10:22:46 | 显示全部楼层
mentor  xpedition    球球裙:156782529
回复

使用道具 举报

  • TA的每日心情
    开心
    7 天前
  • 签到天数: 42 天

    [LV.5]常住居民I

    6

    主题

    1万

    回帖

    2万

    积分

    三级逆天

    积分
    20512

    终身成就奖特殊贡献奖原创先锋奖优秀斑竹奖

    QQ
    发表于 2019-1-12 10:56:50 | 显示全部楼层
    回复

    使用道具 举报

    该用户从未签到

    5

    主题

    1480

    回帖

    897

    积分

    1元学习Allegro(1期)

    积分
    897

    终身成就奖优秀斑竹奖

    QQ
    发表于 2019-1-12 12:29:28 | 显示全部楼层
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    论坛开启做任务可以
    额外奖励金币快速赚
    积分升级了


    Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

    本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

    平平安安
    TOP
    快速回复 返回顶部 返回列表