数据变换

  • 更新时间: 2018-05-25
  • 来源: 原创或网络
  • 浏览数: 12次
  • 字数: 2992
  • 发表评论
数据变换transformation of dot。在对数据进行统计分析时,要求数据必须满足一定的条件,如在方差分析时,要求试验误差具有独立性、无偏性、方差齐性和正态性二但在实际分析中,独立性、无偏性比较容易满足,方差齐性在大多数情况下能满足。正态性有时不能满足。有时若将数据经过适当的转换,如平方根转换、对数转换、平方根反正弦转换,则可以使数据满足方差分析的要求。所进行的此种数据转换,称为数据变换。

1 数据变换的方法

数据变换主要找到数据的特征表示,用维变换成转换方法减少有效变量的数目或找到数据的不变式,包括规格化、归约、切换、旋转和投影等操作。

规格化指将元组集按规格化条件进行合并,也就是属性值量纲的归一化处理。规格化条件定义了属性的多个取值到给定虚拟值的对应关系。对于不同的数值属性特点,一般可以分为取值连续和取值离散的数值规格化问题;归约指将元组按语义层次纠构进行合并。语义层次结构定义了元组属性值之间的IS—A语义关系。规格化和归约能大量减少元组数量,提高计算效率。同时也提高了数据挖掘的起点。使得一个算法能够发现多层次的知识,适应不同应用的需要。 还可以用多维立方体(Data Cube)来组织数据,采用数据仓库技术中的切换、旋转和投影技术,把初始的数据集按照不同的层次、粒度和维度进行抽象和泛化,从而生成不同抽象级别上的数据集。

数据转换包含以下处理内容:

(1)平滑处理。该过程帮助除去数据中的噪声,主要技术方法有:Bin方法、聚类方法和回归方法。

(2)合计处理。对数据进行总结或合计(Aggregation)操作。例如:每天销售额(数据)可以进行合计操作以获得每月或每年的总额。这样操作常用于构造数据立方体或对数据进行多细度的分析。

(3)数据泛化处理(Gencralization)。所谓泛化处理就是用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。例如;街道属性,就可以泛化到更高层次的概念,如:城市、国家。同样对于数值型的属性,如年龄属性,就时以映射到吏高层次概念,加:年轻、中年和老年。

(4)规格化。规格化就是将有关属性数据技比例投射到特定小范围之中。如将工资收入属性值映射到-0.1-1.0。


标签: 数据挖掘 对数 数据仓库 聚类 归约

我来评分 :6
0

转载注明:转自5lulu技术库

本站遵循:署名-非商业性使用-禁止演绎 3.0 共享协议