[빅분기D-44] 2021 빅데이터 분석기사 필기 준비 #3. 데이터 탐색

PART02. 빅데이터 탐색 - CH02. 데이터 탐색

SECTION 01. 데이터 탐색의 기초

1. 데이터 탐색의 개요

1) 탐색적 데이터 분석(EDA)

: 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정

2) 탐색적 데이터 분석의 필요성

- 데이터 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 담재적 문제에 대해 인식하고 해결안을 도출할 수 있음

문제점 발견시 본 분석 전 데이터의 수집 의사를 결정할 수 있음

- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상/패턴을 발견할 수 있음

새로운 양상을 발견 시 초기설정 문제의 가설을 수정하거나 새로운 가설을 설립할 수 있음

3) 분석과정 및 절차

분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인
데이터의 문제성 확인 즉, 데이터 결측치의 유무, 이상치의 유무 등을 확인하고 추가적으로 분포상의 이상형태 head 또는 tail 부분을 확인
데이터의 개별 속성 값이 예상한 범위 분포를 가지는지 확인(기초통계산출)
관계속성 확인 즉, 개별 데이터간의 속성 관찰에서 보지 못한 데이터 간의 속성을 확인

4) 이상치의 검출

: 이상치가 왜 발생했는지 의미를 파악하는 것이 중요함. 그리고 그러한 의미를 파악했으면 어떻게 대처해야 할지(제거, 대체, 유지 등)를 판단. 이상치를 발견하는 기법은 다음과 같음

① 개별 데이터 관찰

데이터 값을 눈으로 훑어 보면서 전체적인 추세와 특이사항 관찰
데이터가 많다고 앞부분만 봐서는 안 되고, 패턴이 뒤에서 나타날 수도 있으므로 뒤 OR 무작위로 표본을 추출해서 관찰. 단, 이상값은 작은 크기의 표본에 나타나지 않을 수 있음

② 통계값 활용

적절한 요약 통계지표 사용
데이터의 중심을 알기 위해서는 평균, 중앙값, 최빈값 사용 가능
통계 지표를 이용할때는 데이터의 특성에 주의해야함.

평균 -> 이상값에 영향 / 중앙값 -> 이상값에 영향 X

③ 시각화 활용

확률밀도 함수, 히스토그램, 점플롯, 워드클라우드, 시계열차트, 지도 등이 있음

④ 머신러닝 기법 활용

대표적으로 K-MEANS를 통해 이상치 확인 가능

2. 상관관계분석

1) 변수간의 상관성 분석

: 두 변수간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법으로, 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며, 이때 두 변수간의 관계의 강도를 상관관계라 함.

① 단순상관분석 : 단순히 두 개의 변수가 어느정도 강한 관계에 있는가를 측정

② 다중상관분석 : 3개 이상의 변수 간의 관계강도를 측정

- 편상관계분석 : 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계강도를 측정하는 것

⭐2) 상관분석의 기본 가정

① 선형성 : 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통해 확인 가능

② 동변량성 : X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미. 반의어는 이분산성

- 산포도가 특정 구간에 상관없이 퍼진 정도가 일정할 때 자료가 등분산성을 띤다고 얘기하며, 반대로 그 정도가 일정하지 않으면 이분산성을 보인다고 말함

③ 두 변인의 정규분포성 : 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것임

④ 무선독립표본 : 모집단에서 표본을 뽑을 때 표본 대상이 확률적으로 선정된다는 것

3) 상관분석 방법

① 피어슨 상관계수

두 변수 X와 Y간의 선형 상관관계를 계량화한 수치
피어슨 상관계수는 +1과 -1사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계 의미

② 스피어만 상관계수

데이터가 서열 자료인 경우, 즉 자료의 값 대신 순의를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 자례로 순위를 매겨 서열 순서로 바꾼뒤 순위를 이용해 상관계수를 구함
두 변수 간의 연관 관계가 있는지 없는지를 밝혀 주며 자료에 이상점이 있거나 표본크기가 작을 때 유용

dἰ² : xἰ의 순위와 yἱ의 순위 차이를 나타냄. n은 표본의 개수

03. 기초통계량의 추출 및 이해

자료의 특성을수치적 결과로 나타내는 방법인 중심화경향, 퍼짐정보, 자료의 분포형태 등으로 나타낼 수 있음

① 산술평균

모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적인 평균을 의미함

모평균 υ : 모집단 전체 자료의 산술평균
표본평균 X(bar) : 모집단 전체 자료의 산술평균

② 기하평균

N개의 자료에 대해서 관측치를 곱한후 n제곱근으로 표현

다기간의 수익률에 대한 평균 수익률, 평균 물가상승률 등을 구할때 사용.
각 자료가 동일한 경우 자료에 대한 산술평균값과 기하평균의 값은 같음.
다만 자료가 서로 다를 경우, 기하평균 =<산술평균의 부등식 관계를 가짐.

③ 중앙값

중앙값은 자료를 크기 순으로 나열할 때 가운데에 위치한 값임
자료의 수를 n이라 할 때, n이 홀수이면 (n+1)/2번째 자료값이 중앙값이 되고, n이 짝수이면, n/2번째와 n/2+1번째 자료의 평균을 중앙값으로 정의함

④ 최빈값

가장 노출 빈도가 높은 자료를 최빈값이라고 함. 최빈값은 질적자료나 양적자료 모두에 사용됌.

⑤ 분위수

분위수는 자료의 위치를 표현하는 수단. 자료를 크기순서대로 배열한 후 그 자료를 분할하는 역할을하는 위치의 수치를 계산한 것.

자료를 몇 등분 하느냐에 따라 사분위수, 오분위수, 십분위수, 백분위수 등이 있음
N개의 자료가 존재할 때 백분위수로 전환되는 분위수의 위치를 나타내는 식은 아래와 같음. 전체 y(%)가 해당 분위수의 하부에 위치

분위수의 위치 = (N+1)*y / 100

⭐2) 산포도

자료의 퍼짐 정도를 나타내는 기초 통계량. 중심 위치의 측도만으로 자료의 분포에 대한 충분한 정보를 얻을 수 없으므로 중심 경향도 수치에서 자료가 얼마나 떨어져 있는지를 측정하는 척도도 필요함.

① 분산, 표준편차

분산은 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도이고 표준편차는 분산의 제곱근으로 표현
분산의 개개의 자료값과 평균과의 편차의 제곱을 이용하여 표현되므로 자료값의 단위를 제곱한 단위를 사용하게 됨. 분산으로 얻은 수치를 해석하기가 곤란하다는 단점을 보완하기 위하여 제곱근을 취한 척도가 표준편차임.

분산의 특성
- 개개의 자료값에 대한 정보 반영
- 수리적으로 다루기 쉬움
- 특이점에 매우 큰 영향을 받음
- 분산이 클수록 각 자료값이 평균으로부터 넓게 흩어진 형태
- 미지의 모분산을 추론할 때 많이 사용함

② 범위

데이터 간의 최댓값과 최솟값의 차이를 나타내는 것으로 동일한 범위를 갖더라도 자료의 분포모양은 다를 수 있음

③ 평균 절대 편차

각 자료값과 표본평균과의 편차의 절댓값에 대한 산술평균을 의미함

개개의 자료값에 대한 정보를 반영함
특이점에 대한 영향을 범위보다 적게 받음
절댓값을 사용하여 수리적으로 다루기 부적절함
평균 편차가 클수록 폭넓게 분포함

④ 사분위편차

자료를 크기 순으로 배열 후 자료의 1/4에 해당하는 1사분위수(Q1)를 구하고 3/4에 해당하는 3사분위수(Q3)를 구함. 사분위수 편차는 Q3-Q1으로 정의되며 자료의 50% 범위 내에 위치하게 됨.

⑤ 변동계수(CV:Coefficient of Variance)

평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치임

측정 단위가 동일하지만 평균이 큰 차이를 보이는 두 자료집단 또는 측정단위가 서로 다른 두 자료집단에 대한 산포의 척도를 비교할 때 많이 사용
변동계수가 클수록 상대적으로 넓게 분포를 이룸
(신생아의 몸무게와 산모의 몸무게 > 단위는 같으나, 평균의 차가 큰 경우)

⭐3) 자료의 분포 형태

① 왜도

분포가 어느 한쪽으로 치우친 정도를 나타내는 통계적 척도임
오른쪽으로 더 길면 양의 값이 되고 왼쪽으로 더 길면 음의 값이 됨. 분포가 좌우 대칭이면 0이 됨.

② 첨도

분포의 뾰족한 정도를 나타내는 통계적 척도임
첨도의 값이 3미만인 경우는 평평한 분포이고 3이면 정규분포를 나타내며 3이 넘는 경우는 뾰족한 분포의 형태를 가지는 것으로 판단할 수 있음

04. 시각적 데이터 탐색

시각화를 통한 탐색적 자료분석은 기본적으로 전통적 통계차트 및 다이어그램에 의존하는 부분에 대해 설명

1) 통계적 시각화 도구

① 도수분포표 : 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표로 질적자료의 경우는 각 자료값(범주)에 대하여 도수나 상대도수로 표현함

서울지역 초등학생 100명 대상 빙과류선호도 조사 도수분포표

상품	도수	상대도수
콘	65	65/100=0.65
막대	25	25/100=0.25
기타	10	10/100=0.1
계	100	1.0

도수 : 질적자료의 경우 각 범주별 빈도
상대도수 : 도수/전체자료수
양적자료의 경우는 전체자료를 그룹화하고 각 그룹별 속하는 자료의 수를 계산하여 도수 및 상대도수로 표현

② 히스토그램 : 도수분포표를 이용하여 표본의 자료분포를 나타낸 그래프

③ 막대그래프 : 각 자료값에 대한 도수 또는 상대도수를 그림으로 표현한 것

④ 파이차트 : 각 자료값의 상대도수로 기입하여 원의 면접에 각 상대 크기별로 나타낸 그래프

⑤ 산점도 : 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법

⑥ 줄기 잎 그림 :

통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 것. 줄기잎 그림은 자료의 정리가 가능할 뿐 아니라 자료의 구조에 대한 정보도 파악이 가능한 도구임
줄기 잎 그림 작성 절차

원자료를 크기 순으로 정리
원자료의 숫자를 두 부분으로 나누어 앞부분은 줄기, 뒷부분은 잎으로 함
줄기에 해당하는 숫자를 크기 순으로 나열
원자료의 수치를 해당 줄기 우측 뒷부분에 기록
한 줄기에 기록된 잎의 수가 너무 많은 경우에는 두 줄로 나누어 잎을 기록할 수 있음

⑦ 상자 수염 그림

수치적 자료를 표현하는 그래프. 이 그래프는 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어낸 통계량인 5가지 요약수치를 가지고 그림.
5가지 요약 수치 : 최솟값, Q1, Q2, Q3, 최댓값
작성방법

주어진 데이터에서 각 사분위수 계산
그래프에서 Q1과 Q3을 밑변으로 하는 직사각형을 그리고, 2Q에 해당하는 위치에 선분을 그음
사분위편차(IQR)를 계산함 * IQR = Q3 - Q1
Q3과 차이가 1.5IQR 이내인 값 중에서 최댓값을 Q3과 직선으로 연결하고, 마찬가지로 Q1과 차이가 1.5IQR이내인 값 중에서 최솟값을 Q1과 연결함
Q3보다 1.5IQR이상 초과하는 값과 Q1보다 1.5IQR 이상 미달하는 값은 점이나 원, 별표 등으로 따로 표시(이상치)

'자격증 > [2021]빅데이터분석기사' 카테고리의 다른 글

제 2회 빅데이터 분석기사 필기시험 합격후기 (0)	2021.05.23
[빅분기D-36] 2021 빅데이터 분석기사 필기 준비 #4. 데이터 탐색 - 고급 (1)	2021.03.12
[빅분기D-45] 2021 빅데이터 분석기사 필기 준비 #2. 데이터 전처리 - 분석 변수 처리 (0)	2021.03.03
[빅분기D-48] 2021 빅데이터 분석기사 필기 준비 #2. 데이터 전처리 - 데이터 정제 (1)	2021.02.28
[빅분기D-48] 2021 빅데이터 분석기사 필기 준비 #1. 프롤로그 (0)	2021.02.28

지똥's 데이터랩

[빅분기D-44] 2021 빅데이터 분석기사 필기 준비 #3. 데이터 탐색 - 기초

PART02. 빅데이터 탐색 - CH02. 데이터 탐색

'자격증 > [2021]빅데이터분석기사' 카테고리의 다른 글

티스토리툴바

[빅분기D-44] 2021 빅데이터 분석기사 필기 준비 #3. 데이터 탐색 - 기초

PART02. 빅데이터 탐색 - CH02. 데이터 탐색

'자격증 > [2021]빅데이터분석기사' 카테고리의 다른 글

'자격증/[2021]빅데이터분석기사' Related Articles

티스토리툴바