特征选择

作者:管理员 发布时间:2021-01-28 10:46

        特征选择(Feature Selection)和特征提取(Feature Extraction)是特征工程(Feature Engineering)的两个重要子内容。其中特征提取是指从数据中找到可以表征目的的属性,而特征选择是从候选特征中选出“优秀”的特征。通过特征选择可以达到降维、提升模型效果、提升模型性能等效果,深度学习目前这么火热,其中一个重要原因是其减少了特征选择的工作,但对于机器学习,特征选择仍然是其应用中很重要的一步。

为什么要进行特征选择?

1.1特征数量与分类器性能的关系
一般来说,进入模型的特征数量与模型的效果之间满足以下曲线,在某个位置达到最优。过多或过少都会使分类器的效果发生严重的下降。

1.2特征不足的影响
当特征不足时,极易发生数据重叠,这种情况下任何分类器都会失效。如下图所示,仅依赖x1或x2都是无法区分这两类数据的。

1.3特征冗余的影响
增加特征可以理解为向高维空间映射,当这个“维度”过高时,容易造成同类数据在空间中的距离边远,变稀疏,这也易使得很多分类算法失效。如下图所示,仅依赖x轴本可划分特征,但y轴的引入使得同一类别不再聚集。


1.4特征选择的难点问题
首先我们已经明确,特征选择解决的工程问题是:当我们拥有大量特征时,需要判断哪些是相关特征、哪些是不相关特征。因而,特征选择的难点在于:其本质是一个复杂的组合优化问题。

当我们构建模型时,假设拥有N维特征,每个特征有两种可能的状态:保留和剔除。那么这组状态集合中的元素个数就是2­­N。如果使用穷举法,其时间复杂度即为O(2N)。假设N仅为10时,如果穷举所有特征集合,需要进行1024次尝试。这将是巨大的时间和计算资源的消耗,因而在特征选择时,我们需要找到明智的方法。


特征选择通常有三种方法:

过滤法Fliter、包裹法Wrapper、嵌入法Embedded  



标签:
Copyright © 2020 万物律动 旗下 AI算法狮 京ICP备20010037号-1
本站内容来源于网络开放内容的收集整理,并且仅供学习交流使用;
如有侵权,请联系删除相关内容;