PART02. 빅데이터 탐색 - CH02. 데이터 탐색
SECTION 01. 데이터 탐색의 기초
1. 데이터 탐색의 개요
1) 탐색적 데이터 분석(EDA)
: 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정
2) 탐색적 데이터 분석의 필요성
- 데이터 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 담재적 문제에 대해 인식하고 해결안을 도출할 수 있음
- 문제점 발견시 본 분석 전 데이터의 수집 의사를 결정할 수 있음
- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상/패턴을 발견할 수 있음
- 새로운 양상을 발견 시 초기설정 문제의 가설을 수정하거나 새로운 가설을 설립할 수 있음
3) 분석과정 및 절차
- 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인
- 데이터의 문제성 확인 즉, 데이터 결측치의 유무, 이상치의 유무 등을 확인하고 추가적으로 분포상의 이상형태 head 또는 tail 부분을 확인
- 데이터의 개별 속성 값이 예상한 범위 분포를 가지는지 확인(기초통계산출)
- 관계속성 확인 즉, 개별 데이터간의 속성 관찰에서 보지 못한 데이터 간의 속성을 확인
4) 이상치의 검출
: 이상치가 왜 발생했는지 의미를 파악하는 것이 중요함. 그리고 그러한 의미를 파악했으면 어떻게 대처해야 할지(제거, 대체, 유지 등)를 판단. 이상치를 발견하는 기법은 다음과 같음
① 개별 데이터 관찰
- 데이터 값을 눈으로 훑어 보면서 전체적인 추세와 특이사항 관찰
- 데이터가 많다고 앞부분만 봐서는 안 되고, 패턴이 뒤에서 나타날 수도 있으므로 뒤 OR 무작위로 표본을 추출해서 관찰. 단, 이상값은 작은 크기의 표본에 나타나지 않을 수 있음
② 통계값 활용
- 적절한 요약 통계지표 사용
- 데이터의 중심을 알기 위해서는 평균, 중앙값, 최빈값 사용 가능
- 통계 지표를 이용할때는 데이터의 특성에 주의해야함.
평균 -> 이상값에 영향 / 중앙값 -> 이상값에 영향 X
③ 시각화 활용
- 확률밀도 함수, 히스토그램, 점플롯, 워드클라우드, 시계열차트, 지도 등이 있음
④ 머신러닝 기법 활용
- 대표적으로 K-MEANS를 통해 이상치 확인 가능
2. 상관관계분석
1) 변수간의 상관성 분석
: 두 변수간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법으로, 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며, 이때 두 변수간의 관계의 강도를 상관관계라 함.
① 단순상관분석 : 단순히 두 개의 변수가 어느정도 강한 관계에 있는가를 측정
② 다중상관분석 : 3개 이상의 변수 간의 관계강도를 측정
- 편상관계분석 : 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계강도를 측정하는 것
⭐2) 상관분석의 기본 가정
① 선형성 : 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통해 확인 가능
② 동변량성 : X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미. 반의어는 이분산성
- 산포도가 특정 구간에 상관없이 퍼진 정도가 일정할 때 자료가 등분산성을 띤다고 얘기하며, 반대로 그 정도가 일정하지 않으면 이분산성을 보인다고 말함
③ 두 변인의 정규분포성 : 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것임
④ 무선독립표본 : 모집단에서 표본을 뽑을 때 표본 대상이 확률적으로 선정된다는 것
3) 상관분석 방법
① 피어슨 상관계수
- 두 변수 X와 Y간의 선형 상관관계를 계량화한 수치
- 피어슨 상관계수는 +1과 -1사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계 의미
② 스피어만 상관계수
- 데이터가 서열 자료인 경우, 즉 자료의 값 대신 순의를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 자례로 순위를 매겨 서열 순서로 바꾼뒤 순위를 이용해 상관계수를 구함
- 두 변수 간의 연관 관계가 있는지 없는지를 밝혀 주며 자료에 이상점이 있거나 표본크기가 작을 때 유용
- dἰ² : xἰ의 순위와 yἱ의 순위 차이를 나타냄. n은 표본의 개수
03. 기초통계량의 추출 및 이해
자료의 특성을수치적 결과로 나타내는 방법인 중심화경향, 퍼짐정보, 자료의 분포형태 등으로 나타낼 수 있음
① 산술평균
모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적인 평균을 의미함
- 모평균 υ : 모집단 전체 자료의 산술평균
- 표본평균 X(bar) : 모집단 전체 자료의 산술평균
② 기하평균
- N개의 자료에 대해서 관측치를 곱한후 n제곱근으로 표현
- 다기간의 수익률에 대한 평균 수익률, 평균 물가상승률 등을 구할때 사용.
- 각 자료가 동일한 경우 자료에 대한 산술평균값과 기하평균의 값은 같음.
다만 자료가 서로 다를 경우, 기하평균 =<산술평균의 부등식 관계를 가짐.
③ 중앙값
- 중앙값은 자료를 크기 순으로 나열할 때 가운데에 위치한 값임
- 자료의 수를 n이라 할 때, n이 홀수이면 (n+1)/2번째 자료값이 중앙값이 되고, n이 짝수이면, n/2번째와 n/2+1번째 자료의 평균을 중앙값으로 정의함
④ 최빈값
가장 노출 빈도가 높은 자료를 최빈값이라고 함. 최빈값은 질적자료나 양적자료 모두에 사용됌.
⑤ 분위수
분위수는 자료의 위치를 표현하는 수단. 자료를 크기순서대로 배열한 후 그 자료를 분할하는 역할을하는 위치의 수치를 계산한 것.
- 자료를 몇 등분 하느냐에 따라 사분위수, 오분위수, 십분위수, 백분위수 등이 있음
- N개의 자료가 존재할 때 백분위수로 전환되는 분위수의 위치를 나타내는 식은 아래와 같음. 전체 y(%)가 해당 분위수의 하부에 위치
분위수의 위치 = (N+1)*y / 100
⭐2) 산포도
자료의 퍼짐 정도를 나타내는 기초 통계량. 중심 위치의 측도만으로 자료의 분포에 대한 충분한 정보를 얻을 수 없으므로 중심 경향도 수치에서 자료가 얼마나 떨어져 있는지를 측정하는 척도도 필요함.
① 분산, 표준편차
- 분산은 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도이고 표준편차는 분산의 제곱근으로 표현
- 분산의 개개의 자료값과 평균과의 편차의 제곱을 이용하여 표현되므로 자료값의 단위를 제곱한 단위를 사용하게 됨. 분산으로 얻은 수치를 해석하기가 곤란하다는 단점을 보완하기 위하여 제곱근을 취한 척도가 표준편차임.
- 분산의 특성
- 개개의 자료값에 대한 정보 반영
- 수리적으로 다루기 쉬움
- 특이점에 매우 큰 영향을 받음
- 분산이 클수록 각 자료값이 평균으로부터 넓게 흩어진 형태
- 미지의 모분산을 추론할 때 많이 사용함
② 범위
데이터 간의 최댓값과 최솟값의 차이를 나타내는 것으로 동일한 범위를 갖더라도 자료의 분포모양은 다를 수 있음
③ 평균 절대 편차
각 자료값과 표본평균과의 편차의 절댓값에 대한 산술평균을 의미함
- 개개의 자료값에 대한 정보를 반영함
- 특이점에 대한 영향을 범위보다 적게 받음
- 절댓값을 사용하여 수리적으로 다루기 부적절함
- 평균 편차가 클수록 폭넓게 분포함
④ 사분위편차
자료를 크기 순으로 배열 후 자료의 1/4에 해당하는 1사분위수(Q1)를 구하고 3/4에 해당하는 3사분위수(Q3)를 구함. 사분위수 편차는 Q3-Q1으로 정의되며 자료의 50% 범위 내에 위치하게 됨.
⑤ 변동계수(CV:Coefficient of Variance)
- 평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치임
- 측정 단위가 동일하지만 평균이 큰 차이를 보이는 두 자료집단 또는 측정단위가 서로 다른 두 자료집단에 대한 산포의 척도를 비교할 때 많이 사용
- 변동계수가 클수록 상대적으로 넓게 분포를 이룸
(신생아의 몸무게와 산모의 몸무게 > 단위는 같으나, 평균의 차가 큰 경우)
⭐3) 자료의 분포 형태
① 왜도
- 분포가 어느 한쪽으로 치우친 정도를 나타내는 통계적 척도임
- 오른쪽으로 더 길면 양의 값이 되고 왼쪽으로 더 길면 음의 값이 됨. 분포가 좌우 대칭이면 0이 됨.
② 첨도
- 분포의 뾰족한 정도를 나타내는 통계적 척도임
- 첨도의 값이 3미만인 경우는 평평한 분포이고 3이면 정규분포를 나타내며 3이 넘는 경우는 뾰족한 분포의 형태를 가지는 것으로 판단할 수 있음
04. 시각적 데이터 탐색
시각화를 통한 탐색적 자료분석은 기본적으로 전통적 통계차트 및 다이어그램에 의존하는 부분에 대해 설명
1) 통계적 시각화 도구
① 도수분포표 : 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표로 질적자료의 경우는 각 자료값(범주)에 대하여 도수나 상대도수로 표현함
서울지역 초등학생 100명 대상 빙과류선호도 조사 도수분포표
상품 | 도수 | 상대도수 |
콘 | 65 | 65/100=0.65 |
막대 | 25 | 25/100=0.25 |
기타 | 10 | 10/100=0.1 |
계 | 100 | 1.0 |
- 도수 : 질적자료의 경우 각 범주별 빈도
- 상대도수 : 도수/전체자료수
- 양적자료의 경우는 전체자료를 그룹화하고 각 그룹별 속하는 자료의 수를 계산하여 도수 및 상대도수로 표현
② 히스토그램 : 도수분포표를 이용하여 표본의 자료분포를 나타낸 그래프
③ 막대그래프 : 각 자료값에 대한 도수 또는 상대도수를 그림으로 표현한 것
④ 파이차트 : 각 자료값의 상대도수로 기입하여 원의 면접에 각 상대 크기별로 나타낸 그래프
⑤ 산점도 : 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법
⑥ 줄기 잎 그림 :
- 통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 것. 줄기잎 그림은 자료의 정리가 가능할 뿐 아니라 자료의 구조에 대한 정보도 파악이 가능한 도구임
- 줄기 잎 그림 작성 절차
- 원자료를 크기 순으로 정리
- 원자료의 숫자를 두 부분으로 나누어 앞부분은 줄기, 뒷부분은 잎으로 함
- 줄기에 해당하는 숫자를 크기 순으로 나열
- 원자료의 수치를 해당 줄기 우측 뒷부분에 기록
- 한 줄기에 기록된 잎의 수가 너무 많은 경우에는 두 줄로 나누어 잎을 기록할 수 있음
⑦ 상자 수염 그림
- 수치적 자료를 표현하는 그래프. 이 그래프는 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어낸 통계량인 5가지 요약수치를 가지고 그림.
- 5가지 요약 수치 : 최솟값, Q1, Q2, Q3, 최댓값
- 작성방법
- 주어진 데이터에서 각 사분위수 계산
- 그래프에서 Q1과 Q3을 밑변으로 하는 직사각형을 그리고, 2Q에 해당하는 위치에 선분을 그음
- 사분위편차(IQR)를 계산함 * IQR = Q3 - Q1
- Q3과 차이가 1.5IQR 이내인 값 중에서 최댓값을 Q3과 직선으로 연결하고, 마찬가지로 Q1과 차이가 1.5IQR이내인 값 중에서 최솟값을 Q1과 연결함
- Q3보다 1.5IQR이상 초과하는 값과 Q1보다 1.5IQR 이상 미달하는 값은 점이나 원, 별표 등으로 따로 표시(이상치)
'자격증 > [2021]빅데이터분석기사' 카테고리의 다른 글
제 2회 빅데이터 분석기사 필기시험 합격후기 (0) | 2021.05.23 |
---|---|
[빅분기D-36] 2021 빅데이터 분석기사 필기 준비 #4. 데이터 탐색 - 고급 (1) | 2021.03.12 |
[빅분기D-45] 2021 빅데이터 분석기사 필기 준비 #2. 데이터 전처리 - 분석 변수 처리 (0) | 2021.03.03 |
[빅분기D-48] 2021 빅데이터 분석기사 필기 준비 #2. 데이터 전처리 - 데이터 정제 (1) | 2021.02.28 |
[빅분기D-48] 2021 빅데이터 분석기사 필기 준비 #1. 프롤로그 (0) | 2021.02.28 |