Tag - Hadoop

《Hadoop 大数据分析与挖掘实战》笔记

第一章 数据挖掘基础

数据探索方法

  • 数据质量分析
  • 数据特征分析

数据质量分析

(1) 缺失值分析

数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。统计分析含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率。缺失值的处理:删除存在缺失值的记录、对可能值进行插补、不处理。

(2) 异常值分析

检验数据是否有录入错误以及含有不合常理的数据。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。

箱型图异常值标准:

< Q_l - 1.5IQR> Q_u + 1.5IQR

其中 IQR 是四分位间距:

IQR = Q_u - Q_l

箱型图没有对数据做任何限制性要求(如服从某种特定的分布形式)。

(3) 数据一致性分析

数据一致性是指数据的矛盾性、不相容性。

数据特征分析

数据特征分析主要包括:分布分析、对比分析、统计量分析、周期性分析、贡献度分析和相关性分析。

(1) 分布分析

  • 定量数据:对称 or 非对称、特大 or 特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图
  • 定性数据:饼图、条形图

(2) 对比分析

把两个相互联系的指标进行对比,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较,时间序列的比较分析。

关键在于选择合适的对比标准。

(3) 统计量分析

用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距。

(4) 周期性分析

周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚至更短的天、小时周期性趋势。

(5) 贡献度分析

贡献度分析又称帕累托分析。原理是帕累托法则(又称 20/80 定律)。可以通过帕累托图直观呈现。

(6) 相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关性分析。判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图。如果需要同时考察多个变量间的相关关系时,可利用散点图矩阵来同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。在二元变量的相关性分析过程中比较常用的有 Pearson 相关系数、Spearman 秩相关系数和判定系数。

数据预处理

  • 数据清洗
  • 数据集成
  • 数据变换
  • 数据规约

数据清洗

删除无关数据、重复数据,平滑噪音数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。

(1) 缺失值处理

  • 删除记录
  • 插补:拉格朗日插值、牛顿插值
  • 不处理

(2) 异常值处理

分析异常值出现的可能原因,再判断异常值是否应该舍弃,如果是正确的数据,可以直接在具有异常值的数据集上进行建模。

数据集成

将多个数据源合并,在最低层上加以转换、提炼和集成。

数据变换

对数据进行规范化处理以适用于挖掘任务及算法需要。常用的变换方法有:简单函数变换、规范化、连续属性离散化、属性构造、小波变换。

(1) 简单函数变换

用来将不具有正态分布的数据变换成具有正态分布的数据;在时间序列分析中,有时简单的对数变换或差分运算可将非平稳序列转换为平稳序列。如:个人年收入的取值范围为 10000 元到 10 亿元,使用对数变换对其压缩是常用的一种变换处理。

常用:平方、开方、取对数、差分运算。

(2) 规范化

归一化处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲和量纲单位,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。

常用:最小-最大规范化、零均值规范化、小数定标规范化。

(3) 连续属性离散化

一些挖掘算法如 ID3、Apriori 要求数据是离散属性形式。

方法:在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。所以离散化涉及两个子任务:确定分类数、连续属性映射分类值。

常用的连续属性离散化方法有:等宽法、等频法、(一维)聚类。

(4) 属性构造

利用已有的属性集构造出新的属性,并加入再有的属性集中。

(5) 小波变换

新型的数据分析工具,是信号分析手段。小波变换具有多分辨率的特点,在时域和频域都具有表征信号局部特征的能力,通过伸缩和平移等运算过程对信号进行多尺度聚集分析,提供了一种非平稳信号的时频分析手段,可以由粗及细地逐步观察信号,从中提取有用信息。

数据规约

通过选择替代的、较小的数据来减小数据量,包括有参数方法和无参数方法两类。

  • 有参数方法是使用一个模型来评估数据,只需存放参数,不存放实际数据。如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。
  • 无参数方法需要存放实际数据,如直方图、聚类、抽样(采样)。

模型评价

分类与预测模型

使用测试集,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。

聚类分析模型

仅根据样本数据本身将样本分组,组内相似性越大,组间差别越大,效果越好。