PART02. 빅데이터 탐색 - CH02. 데이터 탐색
SECTION 02. 고급 데이터 탐색
01. 시공간 데이터 탐색
1) 시공간 데이터의 개념
- 기본적으로 공간적 데이터에 시간의 흐름이 결합된 다차원 데이터를 다루는 것을 지칭함
- 무선이동 통신기술의 발달로 인해 데이터의 통신 및 처리를 다루는 이동 컴퓨팅 등의 분야에서 관심을 가지는 데이터 분야로 특히 스마트폰의 발전으로 그 중요성이 커지고 있는 상황임
① 시간 데이터
기존 데이터는 어느 한 시점에 대한 스냅샷 정보임. 그래서 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현을 정의함.
- 유효 시간 : 객체가 발생하거나 소멸된 시간
- 거래 시간 : 관리 시스템을 통해 처리된 시간
- 사용자 정의 시간 : 위에서 안되는 것을 사용자가 정의
- 스냅샷 데이터 : 시간의 개념이 필요하지 않아 거래, 유효시간 미지원
- 거래 시간 데이터, 유효 시간 데이터 : 각각 거래, 유효시간만 지원
- 이원 시간 데이터 : 둘 다 지원
② 공간 데이터
기존 데이터베이스보다 복잡하고 다양한 유형의 값을 갖는 공간 데이터를 효율적으로 관리, 저장, 이용하는데 초점
- 비공간 타입 : 기본적인 데이터 유형을 가진 속성
- 래스터 공간 타입 : 신세계에 존재하는 객체의 이미지
- 벡터 공간 타입 : 점, 선, 면 등의 요소로 구성
- 기하학적 타입 : 벡터 타입의 요소로부터 거리, 면적, 길이 등과 같은 유클리드 기하학 계산 값으로 표현
- 위상적 타입 : 공간 객체 간의 관계를 표현하며, 방위, 공간 객체 간의 중첩, 포함, 교차, 분리 등과 같은 위치적 관계
- 대량의 공간을 필요로해서 일반적으로 저장되지 않고 보통 공간객체로부터 동적으로 계산됨
③ 공간 데이터 모델
- 관계형 모델 : 기존 정적 모델로 데이터의 표현이 유연하지 못하며 실세계 공간의 객체의 특징을 적절히 표현하지 못하는 문제점
- 객체지향 모델
- 비 구조적이고 복잡한 데이터를 자연스럽게 표현
- 데이터 계층 구조를 이용한 연산이 쉬움
- 새로운 함수의 확장이 쉬움
- 데이터 무결성 검사가 쉬움
- 설계 단계 모델-구현 단계 모델 사이의 불일치 문제를 줄임
④ 시공간 데이터
시간과 공간 데이터의 결합 형태를 지칭함
- 실제 객체들은 공간적 정보뿐만 아니라 시간적 정보와도 연관이 있음. 기본적으로 위치/영역과 같은 공간 정보는 시간의 흐름에 따라서 변화하기 때문임.
2) 시공간 데이터 분석
① 시공간 데이터에 대한 질의어
- 시공간자료 정의언어 : 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함되어 있음. 이 자료는 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간속성 타입이 추가되어 있음
- 시공간자료 조작언어 : 객체의 삽입, 삭제, 변경 등의 검색문이 있음. 이 문장들은 시간지원 연산자와 공간 연산자를 포함하며 이를 통해 객체에 대한 공간관리와 이력정보를 제공함.
② 시공간 데이터의 연산
- 시공간위상 관계연산 : 공간위상 연산자는 두 객체 간 공간영역상의 관계에 대해서 참/거짓을 반환하는 연산으로 대표적으로 교차(Intersection)연산자는 선과 선의 교차, 선과 면을 교차 여부를 반환하여 시간관계의 경우는 두 객체의 유효시간 정보를 기반으로 선후관계를 평가하여 참/거짓을 반환하는 연산자임.
- 시강곤기하 연산 : 공간기하 연산자 + 시간구성 연산자 결합으로 표현함. 공간기하 연산자는 두 객체 간의 거리 연산을 지칭하며 시간 구성 연산자는 주어진 객체의 유효시간값에 대하여 지정된 시간 혹은 다른 객체의 유효시간값과 계산을 통해 객체의 유효시간값을 변경하는 연산임.
3) 적용 및 응용분야
- 시공간 데이터기술은 지리정보 시스템, 위치기반 서비스, 차량 위치추적 서비스등에 활용됨.
⭐02. 다변량 데이터 탐색
다변량 데이터 탐색은 기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것임. 변수들 간의 상관관계를 이용하여 변수를 축약하거나 개체들을 분류하고 관련된 분석방법 등을 동원하여 데이터를 분석함.
1) 종속변수과 독립션수 사이의 인과관계
① 다중회귀
: 독립변수가 2개 이상인 회귀 모형을 지칭하며 각 독립 변수는 종속변수와 선형관계에 있음을 가정함.
- 장점
- 변수를 추가하여 분석내용의 질적향상을 도모할 수 있음(단순회귀분석의 단점 극복)
- 종속변수를 설명하는 독립변수가 두개일 때 단순회귀모형을 설정한다면 모형설정이 부정확할뿐만 아니라 종속변수에 대한 중요한 독립변수를 누락함으로써 계수 추정량에 대해 편향을 야기시킬 수 있음. 따라서 다중회귀분석을 통해 편향을 제거할 수 있음 - 일반형식
- 종속변수 Y에 대해서 X1, X2, ..., Xk의 독립변수 k개가 존재하여 종속변수를 설명함. 여기서 설명변수는 k개이며 추정해야할 모수는 βi, i=1,2,...,k,β 포함 k+1개임.
- 기본 가정
1. 회귀모형은 모수에 대해 선형
2. 오차항의 평균은 0
3. 오차항의 분산은 모든 관찰치에 대해 σ²의 일정한 분산을 가짐.
4. 서로 다른 관찰치 간의 오차항은 상관이 없음(오차항은 서로독립이며 공분산은 0)
5. 오차항의 각 독립변수 역시 독립인 관계임
6. 오차항은 정규분포를 따르며 N(0,σ²)임 - 분석방법
- 최소자승법을 이용하여 결과를 도출할 수 있음(해당 내용은 PART3에서 더 자세히)
② 로지스틱 회귀
독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되며, 종속변수가 이항형 문제(유효한 범주의 개수가 두 개인 경우)를 지칭할 때 사용됨.
- 특징 : 로지스틱 회귀의 모델은 종속 변수와 독립 변수 사이의 관계에 있어서 선형 모델과 차이점을 지님. 첫 번째 차이점은 이항형인 데이터에 적용하였을 때 종속변수 y의 결과가 범위[0,1]로 제한된다는 것이고 두 번째 차이점은 종속 변수가 이진적이기 때문에 조건부 확률(P(y|x))의 분포가 정규분포 대신 이항 분포를 따른다른 점임.
G(x) = eⁿ/1+eⁿ
로지스틱 모형 함수(시그모이드 함수)
- 독립변수는 실제 값, 이진 값, 카테고리 등 어떤 형태든 될 수 있음. 종속 변수의 형태는 연속 변수(수입, 나이, 혈압) 또는 이산 변수(성별, 인종)로 구분됨. 만약, 특정 이산 변수 값의 후보가 2개 이상 존재한다면 일반적으로 해당 후보들을 임시 변수로 변환하여 로지스틱 회귀를 수행함
③ 분산분석
분산분석은 3개 이상의 표본들의 차이를 표본 평균 간의 분산과 표본 내의 관측치 간 분산을 비교하여 가설을 검정하는 것임
- 일원분산분석 : 단 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석
- 일원분산분석의 특징
- 일원분산분석은 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치의 차이를 검정하는 데 이용
- 일원분산분석을 위해서는 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야하고 요인변수가 정의되어야 함.
④ 다변량 분산분석
측정형 변수, 종속 변수가 2개 이상인 분산분석임.
- 이원분산분석 : 두 개 이상의 인자에 근거하여 여러 수준으로 나누어지는 분석임.
- 이원분산분석의 특징
- 이원분산분석은 일원분산분석과는 달리 독립변인의 수가 둘임
- 만약 연구자의 관심이 한 변수에 따른 종속변수의 영향이 아니라 두 개 이상의 변수, 예를들어 성별변수와 연령변수에 따라 직무만족도가 어떻게 차이나는가를 알아보고자 한다면 이원분산분석을 해야함.
2) 변수 축약
변수들 간의 상관관계를 이용하여 변수를 줄이는 방법으로 변수유도기법이라고도 함.
① 주성분분석(PCA)
- 다변량자료에서 존재하는 비정규성이나 이상치를 발견하기 위하여 변수들의 상관관계가 존재하지 않는 새로운 변수를 구하는 것을 지칭함.
- 주성분 분석은 N개의 변수로부터 서로 독립인 K(<N)개의 주성분을 구해 원변수의 차원을 줄이는 방법임.
② 요인분석
다수의 변수들의 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법으로 이해하면 됌. 즉, 다수의 변수들 간의 정보손실을 최소화하면서 소수의 요인으로 축약하는 것임.
- 요인분석의 특징
- 독립변수와 종속변수의 개념이 없음
- 추론통계가 아닌 기술통계기법에 의해 수행할 수 있음(상관분석 등) - 요인분석의 목적
- 변수축소 : 여러 개의 관련변수가 하나의 요인으로 묶임
- 변수제거 : 요인에 포함되지 않거나 포함되더라도 중요도가 낮은 변수를 찾을 수 있음.
- 변수특성파악 : 관련된 변수들의 묶음으로 상호독립특성을 파악하기 용이해짐.
- 측정항목의 타당성 평가 : 그룹이 되지 않은 변수의 특성을 구분할 수 있게됨.
- 요인점수를 통한 변수생성 : 회귀분석, 군집분석, 판별분석 등에 적용 가능한 변수를 생성할 수 있음.
③ 정준상관분석(Canonical Analysis)
두 변수집단 간의 연관성을 각 변수집단에 속한 변수드르의 선형결합의 상관계수를 이용하여 분석하는 방법임.
스트레스하에 심리적 상황을 나타내는 변수들과 육체적인 변수들이 어떻게 상호작용하는지에 관심이 있다면, 심리적인 것들로 간주되는 불안도, 집중력 정도 등의 변수들과 혈압 맥박, 심전도 등과 같은 육체적 측면의 변수들을 측정하고, 이들 사이의 연관성을 보는 것이 바람직할 것이다. 이때, 각 변수집단에 속하는 변수들의 선형결합은 선형결합들 사이의 상관관게가 최대가 되도록 가중치를 결정하여 구성함.
- 정준 변수 : 새로 만들어진 선형결합임
- 정준 상관계수 : 정준변수들 사이의 상관계수임
두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼 정준변수 상이 만들어질 수 있음
- 정준분석과 회구분석의 차이점
- 회귀분석의 경우 하나의 반응변수를 여러 개의 설명변수로 설명하고자 할때, 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면에 정준분석에서는 이와 같은 인과성이 없음
3) 개체유도
개체들의 특성을 측정한 변수들의 상관관계를 이용하여 유사한 개체를 분류하는 방법임
① 군집분석
변수 또는 개체들이 속한 모집단 또는 범주에 대한 사전정보가 없는 경우에 관측값들 사이의 거리를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집으로 나누는 분석법으로 정의함
- 군집 간의 거리에 대한 정의가 가장 중요한 부분으로 거리의 정의에 따라서 유사성에 대한 척도가 형성됨
- 계층적 방법 : 가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 차례로 분리해 가는 군집방법으로 한 번 병합된 개체는 다시 분리되지 않는것이 특징임
- 비계층적 방법 또는 최적분화 방법 : 다변량 자료의 산포를 나타내는 여러가지 측도를 이용하여 이들 판정기준을 최적화시키는 방법으로 군집을 나누는 방법임. 한 번 분리된 개체도 반복적으로 시행하는 과정에서 재분류될 수 있는것이 특징임
- 조밀도에 의한 방법 : 데이터가 분포한 특성에 따라 군집을 나누는 방법임
- 그래프를 이용하는 방법 : 다차원 자료들을 2차원 또는 3차원으로 축소할 수 있다면 눈으로 자연스러운 군집을 형성할 수 있음
② 다차원 척도법
다차원 척도법은 다차원 관측값 또는 개체들간의 거리 또는 비유사성을 이용하여 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는데 목적이 있음.
- 차원의 축소와 개체들의 상대적 위치 등을 통해 개체들 사이의 관계를 쉽게 파악하고, 공간적 배열에 대한 주관적인 해석에 중점을 두고 있음.
③ 판별 분석
2개 이상의 그룹으로 나누어진 개체에 대해 분류에 영향을 미칠것 같은 특성을 측정하고 이를 이용하여 새로운 개체를 분류하는 방법임.
- 로지스틱 판별분석 : 분류를 하는 도구를 로지스틱 회귀분석을 이용하여 분류하는 방법임.
03. 비정형 데이터 탐색
⭐1) 비정형 데이터
비정형 데이터는 미리 정의된 데이터 모델이 없거나 미리정의된 방식으로 정리되지 않은 정보를 말함.
ⓛ 비정형 데이터의 특징
- 비정형 정보는 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터도 포함될 수 있음.
- 변칙과 모호함이 발생하므로 데이터베이스 칸 형식의 폼에 저장되거나 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만듦
- 데이터의 형태와 데이터 수집간의 관계
형태 | 특징 |
정형 | - 내부시스템인 경우가 대부분이라 수집이 쉬움 - 파일형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬운편임 |
반정형 | - 보통 API형태로 제공되기 때문에 데이터 처리 기술이 요구됨 |
비정형 | - 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집데이터 처리가 어려움 |
② 비정형데이터 관리 및 분석 의미 도출
- 정형 데이터는 데이터 저장의 효율성 측면에서 사전에 정의된 규칙에 따라 저장/관리되었으나 비정형의 경우는 규격화의 어려움이 있어 저장/관리의 어려움이 있음
- 정형 데이터에 비해 차지하는 저장 공간이 넓음
- 정형화되지 않은 데이터로 분석이 용이하지 않은 부분이 있음
2) 비정형 데이터의 분석
① 데이터 마이닝
대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정임
- 데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용함
- 데이터 마이닝 기법은 통계학 쪽에서 발전한 탐색적 자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론이 쓰임
- 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리, On-Line Analytic Processing), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰임
- 적용 분야
- 신용평점 시스템의 신용평가모형 개발, 사기탐지 시스템, 장바구니 분석, 최적 포트폴리오 구축과 같이 다양한 산업 분야에서 광범위하게 사용되고 있음
- 분류 : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론함
- 군집화 : 구체적인 특성을 공유하는 군집을 찾음. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다름
- 연관성 : 동시에 발생한 사건 간의 관계를 정의함
- 연속성 : 특정 기간에 걸쳐 발생하는 관계를 규명함. 기간의 특성을 제외하면 연관성 분석과 유사함
- 예측 : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측함. - 데이터 마이닝의 단점
- 자료에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수가 있음.
② 텍스트 마이닝
전통적인 데이터 마이닝의 한계를 벗어난 방법으로 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어처리 방식을 이용하여 대규모 문서에서 정보추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법임
- 자연어 처리
- 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나임.
- 자연 언어 처리는 연구대상이 언어이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊음
- 구현을 위해 수학적/통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야임. 정보검색, QA시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent등 다양한 응용이 이루어지고 있음.
③ 오피니언 마이닝
오피니언 마이닝은 텍스트 마이닝의 한 분류로서, 특정 주제에 대한 사람들의 주관적 의견을 통계/수치화해 객관적 정보로 바꾸는 빅데이터 분석기술임.
- 텍스트 마이닝과 같은 문장을 분석하기 때문에 자연어처리방법을 사용하지만, 텍스트마이닝은 문장 내 주제를 파악하고 오피니언마이닝은 감정/뉘앙스/태도 등을 판별한다는 차이가 있다. 이 때문에 감정분석 이라고도 불림
- 적용
- 텍스트 내 정보를 파악하기 위해 문장 구조, 문장 간의 관계, 어휘 등을 분석해 키워드와 연관된 감성 어휘의 빈도를 중립/긍정/부정으로 분류하고 그 강도를 평가함
- 특정 서비스 및 상품에 대한 시장 규모 예측, 소비자의 반응, 입소문 분석 등에 활용되고 있으며, 최근 많은 기업이 자사와 자사 상품관련댓글/SNS 등을 실시간으로 분석해 이미지를 파악하고 대응 전략을 세워 사용하고 있음.
④ 웹 마이닝
웹 마이닝 또는 웹데이터 마이닝은 일반적으로 웹으로 통한 모든것을 분석하여 도출해 내는 것을 지칭함.
- 기기 내 쌓이는 로그, 사용자 행동 및 작성 콘텐츠 등 모든것을 포함함. 이러한 데이터를 분석하여 유용한 정보를 추출, 통찰을 얻어내는 것이 핵심임
- 웹마이닝의 특정
- 웹 환경에서 얻어지는 고객의 정보, 특정 행위, 패턴 등의 정보를 이용하여 다양한 활동에 활용할 수 있음
- 데이터 마이닝을 이용하여 문서들과 서비스로부터 정보를 추출할 수 있음
- 대량의 로그기록을 기반으로 정보를 수집하고 자료를 정제함
- 웹상의 고객의 행동기록과 CRM등을 연결하는 등 다양한 서비스에 접목이 가능함 - 웹 마이닝의 유형
- 웹구조 마이닝 : 웹사이트로부터 구조적 요약정보를 추출하는 것임
- 웹내용 마이닝 : 웹사이트 또는 페이지로부터 의미 있는 내용을 추출하는 것
- 웹사용 마이닝 : 웹상의 사용자의 행동 등 패턴으로부터 통찰을 이끌어내는 방법을 말함
'자격증 > [2021]빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 실기] #0. 시험접수, 시험 정보 (0) | 2021.05.24 |
---|---|
제 2회 빅데이터 분석기사 필기시험 합격후기 (0) | 2021.05.23 |
[빅분기D-44] 2021 빅데이터 분석기사 필기 준비 #3. 데이터 탐색 - 기초 (0) | 2021.03.04 |
[빅분기D-45] 2021 빅데이터 분석기사 필기 준비 #2. 데이터 전처리 - 분석 변수 처리 (0) | 2021.03.03 |
[빅분기D-48] 2021 빅데이터 분석기사 필기 준비 #2. 데이터 전처리 - 데이터 정제 (1) | 2021.02.28 |