计算思维与数据科学①

1、数据采集
2、什么是数据预处理：将原始数据转换为可以理解的格式或便于我们处理的格式。
数据清洗：由脏数据到干净数据数据集成数据变换数据归约
3、对原始数据进行审核：完整性、准确性、适用性、时效性
4、脏数据：数据会存在缺失值、重复值、不一致（矛盾、对立、不相容）、含噪声、维度高。
5、缺失属性处理：
1、不处理，直接使用含有缺失值的特征；
2、删除含有缺失值的特征；
3、缺失值补全，平均值插补、同类平均值补全、极大似然估计、压缩感知、矩阵补全。
建模预测：利用机器学习算法对缺失值预测。
高维映射：映射至高维空间采用独热码编码。
多重插补：估计值加不同噪音，选取合适值。
6、独热码（One-Hot ）：对于某个特征，如果它有m个可能值，其独热码为一个m位二元特征，且独热码取值互斥，每次只有一个激活，呈现了稀疏性。
独热码解决了分类器不好处理离散属性数据的问题，在一定程度上也起到扩充特征的作用。
7、数据标准化：把数据的值按行（或列）
a）统一映射到某个特定区间，如[-1,1]
b）统一映射到某种分布，如标准正态分布
意义：（1）无量纲化，便于不同单位或量级的指标能够比较和加权。
（2）避免数值过大导致内存溢出
（3）减弱异常值在计算中的不良影响
（4）加速梯度下降法（特征归一化）的收敛速度（椭圆VS圆）
离差标准化
，适用于数据集中的情况
Z-Score标准化
，适用于近似高斯分布的数据
log函数标准化
，适用于数据分布较大，数据要≥1

文章插图
L2范数归一化
，
变换
，普通数值—》概率值
8、数据集的平衡化处理
（1）欠采样 RUS、、ENN、
（2）过采样 SMOTE、
（3）生成合成数据
（4）异常检测
9、代价敏感建模：假阳性假阴性的预测成本不同，因此给少数类样本分配较高的误分类代价，而给少数类样本分配较少的误分类代价。
调整样本权重（调整错误分类的损失）调整决策阈值修改现有算法以对稀缺类更敏感
【计算思维与数据科学①】缺点：需要领域先验知识，不能泛化到不同任务，依赖于特定分类器。