Statistics – Data Integration

Data Integration 数据集成

Dimensionality reduction 降维

维度越高,数据集在高维空间的分布越稀疏。 从而减弱了数据集的密度和距离的定义对于数据聚类和离群值检测等操作的影响。将数据属性的维度降低,有助于减少数据处理的时间和内存消耗,可以更有效地可视化数据;降低噪声或消除无关特征等。

常规的做法有主成分分析、奇异值分解、局部结构保持的LLP和ISOMAP等方法。

特征子集的选择

从数据中选择部分数据属性值可以消除冗余的特征、与任务无关的特征。特征子集的选择可以达到降维的效果,但不破坏原始的数据属性结构。

常见做法有暴力枚举法、特征重要性选择、压缩感知理论和稀疏表达方法等。

特征生成

特征生成可以在原始数据集基础上构建能反映数据集重要信息的属性。

三种常用方法包括特征抽取、将数据应用到新空间和基于特征融合与特征变换的特征构造。

离散化与二值化

将数据集根据其分布划分为若干个子类,形成对数据集的离散表达,称为离散化。将数据值映射为二值区间,是数值处理中的常见做法。将数值区间映射到【0,1】区间的方法称为归一化。

属性变换

将某个属性的所有可能值一一映射到另一个空间的做法称为属性变换,如指数变换、取绝对值等。标准化与归一化是两类特殊的属性变换,其中标准化将数据区间变换到某个统一的区间范围,归一化则是变换到【0,1】区间