计算思维与数据科学①

1、数据采集
2、什么是数据预处理:将原始数据转换为可以理解的格式或便于我们处理的格式 。
数据清洗:由脏数据到干净数据数据集成数据变换数据归约
3、对原始数据进行审核:完整性、准确性、适用性、时效性
4、脏数据:数据会存在缺失值、重复值、不一致(矛盾、对立、不相容)、含噪声、维度高 。
5、缺失属性处理:
1、不处理,直接使用含有缺失值的特征;
2、删除含有缺失值的特征;
3、缺失值补全,平均值插补、同类平均值补全、极大似然估计、压缩感知、矩阵补全 。
建模预测:利用机器学习算法对缺失值预测 。
高维映射:映射至高维空间采用独热码编码 。
多重插补:估计值加不同噪音,选取合适值 。
6、独热码(One-Hot ):对于某个特征,如果它有m个可能值,其独热码为一个m位二元特征,且独热码取值互斥,每次只有一个激活,呈现了稀疏性 。
独热码解决了分类器不好处理离散属性数据的问题,在一定程度上也起到扩充特征的作用 。
7、数据标准化:把数据的值按行(或列)
a)统一映射到某个特定区间,如[-1,1]
b)统一映射到某种分布,如标准正态分布
意义:(1)无量纲化,便于不同单位或量级的指标能够比较和加权 。
(2)避免数值过大导致内存溢出
(3)减弱异常值在计算中的不良影响
(4)加速梯度下降法(特征归一化)的收敛速度(椭圆VS圆)
离差标准化
,适用于数据集中的情况
Z-Score标准化
,适用于近似高斯分布的数据
log函数标准化
,适用于数据分布较大,数据要≥1

计算思维与数据科学①

文章插图
L2范数归一化

变换
,普通数值—》概率值
8、数据集的平衡化处理
(1)欠采样 RUS、、ENN、
(2)过采样 SMOTE、
(3)生成合成数据
(4)异常检测
9、代价敏感建模:假阳性假阴性的预测成本不同,因此给少数类样本分配较高的误分类代价,而给少数类样本分配较少的误分类代价 。
调整样本权重(调整错误分类的损失)调整决策阈值修改现有算法以对稀缺类更敏感
【计算思维与数据科学①】缺点:需要领域先验知识,不能泛化到不同任务,依赖于特定分类器 。