SiLaure's Data

[Data Statistical Analysis] 통계란, 그리고 EDA와 CDA란? 본문

Records of/Another

[Data Statistical Analysis] 통계란, 그리고 EDA와 CDA란?

data_soin 2021. 8. 18. 21:05
기초통계분석의 이해
출처 : https://rlacksdid93.wixsite.com/930724/post/data-statistical-analysis-gicotonggyeryangyi-ihae

 

 

통계(Statistics)

  • 통계학(Status)의 어원은 라틴어 '국가'라는 단어에서 유래되었다.
  • 예전부터 통계라는 것은 어느 한 국가나 집단의 지표로 활용되어 왔다.
  • 농업생산량, 인구, 군사력, 세금 등 한 나라를 경영함에 있어서 필요한 자료들의 모임을 칭하는 말이었다.
  • 최근의 '통계는 특정 집단이나 현상의 효율적인 자료를 얻어 합리적인 해석을 하는 것으로 정의된다.
  • 어떤 개인(단일 Data)의 행동과 문제가 아닌 집단(Group)에서 비롯된 문제 또는 현상을 추정하는 것이다.

 

탐색적 분석에서의 통계

  •  탐색적 분석에서의 통계는 추정과 검정을 통한 가설 판단의 과정을 말한다.
  • '추정'은 어떤 현상을 보고 가설을 세우는 것
  • '검정'은 그 가설이 참인지 거짓인지 판단하는 것
  • 추정과 검정의 과정을 탐색적 분석이라고 하며, 여기서 정해진 가설을 판단하는 과정을 통계적 의사결정이라고 한다.

 

표본과 모집단 (Sample / Population or Universe), 모수와 통계량(Parameter / Statistic)

더보기

모집단은 얻고자 하는 정보와 관련있는 모든 개채로 부터 얻을 수 있는 모든 관측값을 의미한다.

표본은 모집단의 일부로, 관측과정을 실행하여 실제로 얻어진 관측값의 집합이라고 볼 수 있다.

우리는 모집단의 정보를 모두 알 수 없다. 실험과 관측을 통해 얻은 표본으로 모집단을 추정할 수 있다.
이것은 통계에 있어서 가장 보편적이며 일반적인 방법이다.

모수는 모집단의 특성을 요약하여 하나의 값으로 표시하는 척도이다. 모집단의 특성을 대표적으로 나타낸다.
우리는 주로 모평균, 모분산, 모비율( μ, σ, P)을 파악하여, 모집단의 특성을 결정지을 것이다.
통계량(Statistic)은 표본을 요약하여 하나의 값으로 표시하는 척도이다.
모수는 모집단의 특성을 나타낸 것이라면, 통계량은 표본의 특성을 나타낸다고 볼 수 있다.
주로 평균, 분산, 비율 (ⅹ, S, P^)을 파악하여 표본의 특성을 결정짓고, 이를 통해 모집단의 특성 또한 추론할 수 있다.

표본을 통한 모집단의 추정에 있어서, 표본과 모집단의 차이를 바로 '오차' 라고 부른다.
분석과정을 통해 표본에서 사용한 변수들을 이용하여 오차를 조절 할 수 있고,  이를 통해 산포의 모양을 우리가 파악 할 수 있다.
기술통계학에 있어서 집중화 경향과 분산의 경향을 나누어 볼 때,
집중화 경향을 나타내는 값들을 (평균, 중앙값, 최빈값) '효과' ,
분산의 경향을 나타내는 값들을 (범위, 분산, 표준편차, 사분위편차) '오차'라고 부를 수 있다.
이 값들 모두 표본과 모집단을 나타내는 척도들이다.

 

통계적 분석 과정

통계적 분석은 아래와 같은 과정을 거쳐 진행된다.

1. 문제발생 (DDA ; Descriptive Data Analysis)
2. 현상확인 (EDA ; Exploratory Data Analysis)
3. 가설구축 및 원인규명 (CDA ; Confirmatory Data Analysis)
4. 대책마련 (PDA ; Predictive Data Analysis)
5. 실행



1. 문제발생 (DDA ; Descriptive Data Analysis)

 DDA, Descriptive Data Analysis 즉 '추정' 과정을 통해 표본을 가지고 모평균을 추정한다. 여기서 모평균, 모분산, 모비율 을 구하여 오차와 신뢰구간을 제시한다. 신뢰구간은 얼마나 많은 Data를 탐색했는지 알수있는 척도가 된다. 이 과정을 통해 우리는 기대치와 현재상황의 차이를 알수 있게 된다. 그것을 '문제' 라고 규명한다. 

 

2. 현상확인 (EDA ; Exploratory Data Analysis)

 '문제'를 파악하는 이 단계는 EDA, Exploratory  Data Analysis 탐색적 분석 단계라고 한다. 여기서는 우리가 여러가지 Data를 이용해 가설을 구축한다. 여러변수들을 사용하여 주관적 Data를 확인하고, 요인에 영향을 주는 변수들을 제어하면서 객관적Data로 바꾸는 작업을 한다. Data가 객관화 되면 오류가 낮아지고, 문제해결을 위한 공신력있는 통계자료가 만들어진다. 이 자료를 우리는 '가설'이라고 부른다.

 

3. 가설구축 및 원인규명 (CDA ; Confirmatory Data Analysis)

 이제는 '가설'을 '검증' 해야하는데, 이 작업이 CDA , Confirmatory Data Analysis 확증적 분석과정이라고 말한다. 여기서 P.value (유의확률)를 이용하여 과학적 의사결정을 진행하게 된다. 여기서 P.value는 기본적으로 Data의 유효한 확률 값이라고 생각 할 수 있다. 간단한 예를 들어보자. 시험공부를 한다. 열심히 공부를 하게되어 평균보다 높은 점수를 받게 되었다고 하자. 그때, 내가 받은 점수가 전체집단에서 높은점수에 몇 %에 속해있는지 확인할 수 있는 척도가 되는 값이 바로 P.value (유의확률)이다. 이 값으로 내가 구축한 가설을 통계적 Data로 판단 할 수 있다. 


4. 대책마련 (PDA ; Predictive Data Analysis)

  CDA를 통해 가설을 설정하여 검증하였다면 이 만들어진 가설을 통해 분석된 변수가 결과에 얼마나 영향을 주는지 파악해야 한다. 이 과정을 PDA  Predictive  Data Analysis 과정이라 하며, Modeling이 이루어지는 과정이다. 우리가 가설을 통해 유의한 변수들과 Data를 찾을 수 있으며, 그 값들의 상관관계를 함수로 표현 할 수 있다. 함수로 표현된 이 Data들로 최적화과정을 진행 할 수 있으며 (변수를 제어할 수 있을때) 변수의 관찰과 예측이 가능해 진다. (변수를 제어 할 수 없는경우)

 

5. 실행

 이 모든과정을 통해 Modeling된 새로운 대안을 실행하면 통계적이며 합리적인 문제해결과 의사결정을 내릴 수 있다. 새로운 대안에 대해 새로운 문제가 발생하면 위의 과정을 반복하여, 특정 System의 Model을 계속해서 개선 할 수 있다.

 

구분 묘사적(기술적) 분석
DDA

(Descriptive Data
Analysis)
탐색적 분석
EDA

(Exploratory Data
Analysis)
확증적 분석
CDA

(Confirmatory Data
Analysis)
예측적 분석
PDA

(Predictive Data
Analysis)
목적 현재의 모습을 요약하여 기술
수집된 데이터의 표현
(
평균, 표준편차, 빈도 수, 백분위 수, 첨도, 왜도, 신뢰구간 등)
수집된 데이터의 증상 탐색을 통한 가설 도출
가능성이 큰 X-Y 관계의 가설을 도출함
도출된 가설을 검증함
P-value를 기준으로 의사 결정
관계식을 만들고 최적 조건을 예측
의미있는Y's = f(y’s) = f(x’s) 함수식 모델 도출
회적의 Y, y, x 조건 설정 및 성과 예측
분석
도구
수식을 활용한 계산 그래프 분석
(
히스토그램, 팔레트, 관리도, 런차트, Box plot, 산점도)

다중 변수 연계 그래프 분석
정규성 확인
트렌드 확인
가설 검정 Tool
(T-test, F-test, ANOVA,
상관분석, 회귀분석, 카이 제곱 검정, 모삐율 검정, 비모수적 검정 등)
Modeling 기법
(Least Square Method,
Non-Linear Method,
Neural Network,
Gaussian Method)

Profiler 최적화, Contour 최적화
시뮬레이션

 

Exploatory Data Analysis(탐색적 자료분석)와 Confirmatory Data Analysis(확인적 자료분석)


▶ exploatory data analysis(탐색적 자료분석)

 이론상으로 체계화되거나 정립되지 않는 연구에서 연구의 방향을 파악하기 위한 탐색적인 목적을 가진 분석방법을 말한다. 그래서, 현상을 설명하는 수준으로 논문에서는 [연구문제, research question(s)]로 제시한다. 이 방법은 모르는 사실을 찾아 돌아다니면서 하는 분석으로 단순한 데이터의 조작이나 간단한 통계법, 그리고 도표 제시를 포함하는 기술적인 방법이다. 이 분석의 목적은 연구자가 이해할 수 있게끔 데이터의 환경과 구조를 만드는 것이고, 이로써 적절한 통계적 방법의 사용을 이끄는 것이다. 이 분석방법은 일련의 자료를 주의깊게 탐색하는 것이 연구자가 예상치 못한 결과로 이끄는 기회가 되기도 한다.

예) 약을 먹으면 어떻게 될까?


▶ confirmatory data analysis(확인적 자료분석)

 이론적인 배경하에서 변인들간의 관계를 미리 설정해 놓은 상태에서 이것이 맞는지를 확인하는 분석이다. 여기서는 이론을 확인해 본다는 것인데, 분석에 따라 결론이 달리 나올 수도 있다. 논문에서는 기존에 있는 것을 바탕으로(충분한 이론적 배경을 바탕으로)하기에 [가설, hypothesis]이라고 한다.

예) 약을 먹으면 산다. 정말 그럴까? 쥐약을 먹여본다. 결국 죽는다. 그럼 약을 먹는다고 다 사는 건 아니다.. 라고 다른 결론 도출..

 

 

실전에서의 EDA와 CDA

확증적 데이터 분석(CDA: Confirmatory Data Analysis)

  • 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석 방법
  • 설문조사나 논문에 관한 내용을 입증하는 데 사용

탐색적 데이터 분석(EDA: Exploratory Data Analysis)

  • 원 데이터(Raw data)를 가지고 유연하게 데이터를 탐색하고, 데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법
  • 주로 빅데이터 분석에 사용
  • 확증적 데이터 분석은 *추론통계로, 탐색적 데이터 분석은 *기술통계로 나누어 볼 수 있다.
    • 추론통계 : 수집한 데이터를 이용하여 추론 예측하는 통계 기법으로 신뢰구간 추정, 유의성 검정 기법 등을 이용
    • 기술통계 : 수집한 데이터를 요약 묘사 설명하는 통계 기법으로 데이터의 대푯값, 분포 등을 이용

 

탐색적 데이터 분석은 한 번에 완벽한 결론에 도달하는 것이 아니라
아래와 같은 방법을 반복하여 데이터를 이해하고 탐구하는 과정
1) 데이터에 대한 질문 & 문제 만들기
2) 데이터를 시각화하고, 변환하고, 모델링하여 그 질문 & 문제에 대한 답을 찾아보기
3) 찾는 과정에서 배운 것들을 토대로 다시 질문을 다듬고 또 다른 질문 & 문제 만들기


이러한 과정을 기반으로 데이터에서 흥미 있는 패턴이 발견될 때까지, 더 찾는 것이 불가능하다고 판단될 때까지 도표, 그래프 등의 시각화, 요약 통계를 이용하여 전체적인 데이터를 살펴보고 개별 속성의 값을 관찰한다. 그 후 데이터에서 발견되는 이상치를 찾아내 전체 데이터 패턴에 끼치는 영향을 관찰하고, 속성 간의 관계에서 패턴을 발견한다.

1. 전체적인 데이터 살펴보기

 데이터 항목의 개수, 속성 목록, NAN 값, 각 속성이 가지는 데이터형 등을 확인하고, 데이터 가공 과정에서 데이터의 오류나 누락이 없는지 데이터의 head와 tail을 확인합니다. 또한, 데이터를 구성하는 각 속성값이 예측한 범위와 분포를 갖는지 확인합니다.

2. 이상치(Outlier) 분석

 먼저 앞서 실습했던 방법으로 개별 데이터를 관찰하여 전체적인 추세와 특이사항을 관찰한다. 데이터가 많다고 특정 부분만 보게 되면 이상치가 다른 부분에서 나타날 수도 있으므로 앞, 뒤, 무작위로 표본을 추출해서 관찰한다. 이상치들은 작은 크기의 표본에서는 나타나지 않을 수도 있다.

 두 번째로는 적절한 요약 통계 지표를 사용한다. 데이터의 중심을 알기 위해서는 평균, 중앙값, 최빈값을 사용하고, 데이터의 분산도를 알기 위해서는 범위, 분산 등을 이용다. 통계 지표를 이용할 때에는 평균과 중앙값의 차이처럼 데이터의 특성에 주의해서 이용한다.

 세 번째로는 시각화를 활용한다. 시각화를 통해 데이터의 개별 속성에 어떤 통계 지표가 적절한지를 결정다. 시각화 방법에는 Histogram, Scatterplot, Boxplot, 시계열 차트 등이 있으며, 이외에도 기계학습의 K-means 기법, Static based detection, Deviation based method, Distance based Detection 기법을 이용하여 이상치를 발견할 수 있다.

3. 속성 간의 관계 분석

 속성 간의 관계 분석을 통해 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아낸다. 분석에 대상이 되는 속성의 종류에 따라서 분석 방법도 달라져야 다. 변수 속성의 종류는 다음과 같다.

범주형 변수
(Categorical)
명목형 데이터
순서형 데이터
이산형 변수
(Numeric)
연속형 데이터
이산형 데이터

[Fig.2] 데이터의 종류

  1. 이산형 변수- 이산형 변수의 경우
    : 상관계수를 통해 두 속성 간의 연관성을 나타낸다. Heatmap이나 Scatterplot을 이용하여 시각화
  2.  이산형 변수 - 범주형 변수의 경우
    : 카테고리별 통계치를 범주형으로 나누어서 관찰할 수 있고, Box plot, PCA plot 등으로 시각화
  3.  범주형 변수- 범주형 변수의 경우
    : 각 속성값의 쌍에 해당하는 값의 개수, 분포를 관찰할 수 있고 Piechart, Mosaicplot 등을 이용하여 시각화
Comments