探索性数据分析(eda)的原则和过程

  • 更新时间: 2017-12-05
  • 来源: 原创或网络
  • 浏览数: 44次
  • 字数: 15066
  • 发表评论
大数据时代,混乱的、无结构的、多媒体的海量数据,通过各种渠道源源不断地积累和记载着人类活动的各种痕迹。探索性数据分析可以成为了一个有效的工具

美国约翰•怀尔德杜克(John Wilder Tukey)1977年在《探索性数据分析》(Exploratory Data Analysis)一书中第一次系统地论述了探索性数据分析。他的主要观点是:探索性数据分析EDA)与验证性数据分析(Confirmatory Data Analysis )有所不同:前者注重于对数据进行概括性的描述,不受数据模型和科研假设的限制,而后者只注重对数据模型和研究假设的验证。他认为统计分析不应该只重视模型和假设的验证,而应该充分发挥探索性数据分析的长处,在描述中发现新的理论假设和数据模型

探索性数据分析有别于初始性数据分析(initial data analysis - IDA)。初始性数据分析的聚焦点是分析鉴别统计模型和科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。在这个分析过程中对不符合条件的数据进行缺值填补、数据转换、异常值舍弃等处理以增强分析的准确性。探索性数据分析包含初始性数据分析,但它的出发点不仅是确定数据质量,而且更重视从数据中发现数据分布的模式(Patten)和提出新的假设。

在以抽样统计为主导的传统统计学中,探索性数据分析对验证性数据分析有着支持和辅助的作用。但由于抽样和问卷都是事先设计好的,对数据的探索性分析是有限的。到了大数据时代,海量的无结构、半结构数据从多种渠道源源不断地积累,不受分析模型和研究假设的限制,如何从中找出规律并产生分析模型和研究假设成为新挑战。探索性数据分析在对数据进行概括性描述,发现变量之间的相关性以及引导出新的假设方面均大显身手。从逻辑推理上讲,探索性数据分析属于归纳法(Induction)有别于从理论出发的演绎法(Deduction)。因此,探索性数据分析成为大数据分析中不可缺少的一步并且走向前台。高速处理海量数据的新技术加上数据可视化工具的日益成熟更推动了探索性数据分析的快速普及。

美国2014年出版的《数据科学实战》(Rachel Schutt, Cathy O’Neil著,冯凌秉、王群峰译)一书中,探索性数据分析被列为数据科学工作流程中的一个能影响多个环节的关键步骤。(见下图)

探索性数据分析(eda)的原则和过程,by 5lulu.com

可以通过建立垃圾电子邮件过滤器的过程考察一下探索性数据分析的作用。

由于电子邮件是自动积累的,各种商业广告常常充斥邮箱,每天都给用户带来很多不便。我们凭直觉和经验可以判断哪个是垃圾邮件,但人工清理这些垃圾很浪费时间。建立垃圾邮件过滤器的第一步是从大量邮件中随机抽样出100条(或更多),人工地将它们分成有用邮件和垃圾邮件。第二步是用探索性数据分析对筛选出的垃圾邮件进行分析统计出哪类词汇出现的机率最高。比如各类促销和诱惑语言等,根据该类语言出现的频度,可选出最常出现的5 到10个词。第四步,以选出的词为基础建立初始邮件过滤模型并开发邮件过滤软件程序,然后用它对一个大样本(1000或更大)进行垃圾邮件的过滤试验。第五步,对过滤器筛选出的垃圾邮件进行人工验证,用探索性数据分析计算过滤的总成功率和每个词的出现率。第六步,用成功率和出现率的结果进一步改进过滤模型,并在邮件处理过程中增加过滤器,根据事先定好的临界点(Threshold),增加或减少过滤词汇的功能(机器学习)。这样,该垃圾邮件过滤器将不断地自我改进以提高过滤的成功率。最后,应用数据可视化技术,各个阶段的探索性数据分析结果都可以实时地用动态图表展示。

从这个过程中我们可以看到(1)探索性数据分析能帮助我们从看似混乱无章的原始数据中筛选出可用的数据,(2)探索性数据分析在数据清理中发挥重要作用,(3)探索性数据分析是建立算法和过滤模型的第一步,(4)探索性数据分析能通过数据碰撞发现新假设,通过机器学习不断的改进和提高算法的精准度,(5)探索性数据分析的结果,通过数据可视化展示,可以为邮件过滤器的开发随时提供指导和修正信息。

按照传统统计的“垃圾进,垃圾出”(Garbage in, garbage out)的金科玉律,混乱和不规则的数据是无用的垃圾。在抽样统计中,每一个样品数据都必须经过严格的检测确保其准确性和可靠性。在大数据时代,混乱的、无结构的、多媒体的海量数据通过各种渠道(Internet of Things, IoT)源源不断地积累和记载着人类活动的各种痕迹。探索性数据分析这个统计课程里一带而过的分析方法在处理大数据的过程中却成为了一个有效的工具。正如美国探索性数据分析创始人约翰•怀尔德杜克所说:“面对那些我们坚信存在或不存在的事物时,‘探索性数据分析’代表了一种态度,一种方法手段的灵活性,更代表了人们寻求真相的强烈愿望。”


what’s eda?特征如下

a)an emphasis on the substantive understanding of data that address the broad question of what is going on here?
b)an emphasis on graphic representations of data;
c) a focus on tentative model building and hypothesis generation in an iterative process of model specification, residual analysis, and model respecification;
d) use of robust measures, reexpression, and subset analysis; and
e) positions of skepticism, flexibility, and ecumenism regarding which methods to apply.
The goal of EDA is to discover patterns in data. It cannot be overemphasized that an appropriate technique for EDA is determined not by computation but rather by a procedure’s purpose and use.

简单来说,EDA的目标是要发现数据中的模式。要对数据形成更深入的理解,明白数据所代表的事情,用图形化的方式表达出来, 聚焦于探索试验性模型的构建,以及迭代过程中生成假设,结果分析。

基本的步骤主要有以下几个方面

1 Understand the Context理解上下文

This view holds that, in quantitative data analysis, numbers map onto aspects of reality. Numbers themselves are meaning- less unless the data analyst understands the mapping process and the nexus of theory and categorization in which objects under study are conceptualized. 定量数据分析,数字是对真相各个方面的映射。数字本身是无意义的,除非数据分析家理解对象的映射化的过程以及理论上的联结和当前研究对象的概念化后的类别。

2 Use Graphic Representations of Data

Graphical analysis is central to EDA. “the greatest value of a picture is when it forces us to notice what we never expected to see”

a. “stem-and-leaf plot” 数据量小的时候比较好用,数据量大的话不好看。 The stem-and-leaf plot shown in Figure 2 repre- sents a type of frequency table organized graphically to resemble a histogram while retaining information about the exact value of each observation。 When a large number of data points are examined, the stem- and-leaf plot may become cumbersome。

b. dot plot 查看单个分布或者对比分布

c.box-plot When seeking additional structure in univariate distributions or when a number of distributions need to be compared, a box plot is often used. A dot plot can be an effective tool to examine a single distribution or compare a number of distributions.

The box plot offers a five-number summary in schematic form. The ends of a box mark the first and third quartiles, and the median is indicated with a line positioned within the boxJ The ranges of most or all of the data in the tails of the distribution are marked using lines extend- ing away from the box, creating “whiskers” or “tails.”

d.核密度曲线Kernel density smoothers are graphic devices that provide estimates of a population shape,

A major component of the detective work of EDA is the rough assessment of hunches。

3 Develop Models in an Iterative Process of Tentative Model Specification and Residual Assessment

data = fit + residual data = smooth + rough. To create quantitative descriptions of data, the ex- ploratory data analyst conducts an iterative process of suggesting a tentative model, examining residuals from the model to assess model adequacy, and modi- fying the model in view of the residual analysis.

4 Building a Two-Way Fit

5 Data Analysis: A Picture is Worth a Thousand Word

Putting It All Together: A Reexamination of the Paap and Johansen Data A first look. boxplots,histograms, density plots, and dot plots scatter plot matrix

6 A Better Description.

对数据更好的描述方式,数据的再表现,其实就是数据的变换,目标是将数据分布转换为近似高斯分布的情况。

A straightforward way to find an appropriate description for the curved function is to find a reexpression of the univariate distributions that leads them to a roughly Gaussian shape.

A choice of transformation is recommended by moving up or down the ladder in the direction of the bulk of the data on the scale. Positively skewed dis- tributions with the bulk of the data lower on the scale can be normalized by moving down the ladder of reexpression; distributions with the bulk of the data high on the scale can be normalized by moving up the ladder of reexpression.



标签: 数据分析

我来评分 :6
0

转载注明:转自5lulu技术库

本站遵循:署名-非商业性使用-禁止演绎 3.0 共享协议