빅데이터 산업의 이해
- 빅데이터 플랫폼
- 빅데이터 에코시스템
- 빅데이터 서비스 프레임워크
빅데이터 플랫폼
- 데이터 플랫폼의 발전
데이터 웨어하우스(DW)
- 빅데이터 플랫폼의 개념
– 빅데이터를 처리하는 것
– 대량의 데이터를 저장 및 분석, 처리할 수 있는 대용량의 고속 저장 공간과 고성능 계산 능력의 컴퓨팅 인프라를 보유
– 실시간으로 발생하는 빅데이터를 처리 및 분석하여 일관성을 유지하는 데이터 분석도 필요
– 빅 데이터에서 발생하는 개인 정보를 위한 정보 보안 관리체계 지원도 필요
– 빅데이터 플랫폼은 오픈 소스인 하둡을 근간으로 많이 사용
빅데이터 서비스 프레임워크
– 빅데이터 서비스 프레임워크는 빅데이터 시장을 효율적으로 이해하기 위한 것
– 에코시스템(생태계) 안에서 서비스 공급자를 분류하고 서비스 유형과 수준을 파악하는 것이 필요
– 공급하는 서비스의 유형과 수준에 따라 빅데이터 서비스 공급자와 애플리케이션 공급자로 분류
데이터 분석 방법
- 분석 목적에 따른 구분
1) 통계 분석
- 통계 기법에 의한 분석 방법으로 대표적인 유형
2) 예측 분석
- 과거의 데이터와 변수 간의 관계를 이용하여 새로운 변수를 추정
3) 데이터 마이닝 분석
- 많은 데이터 속에 숨겨진 유용한 패턴을 추출
4) 최적화 분석
- 주어진 제한 조건을 만족하면서 목적 함수를 최대화 또는 최소화하는 방법을 찾는다.
빅데이터 분석 접근법
- 하향식 접근법
근본원인을 파악하고 분석 과제를 도출한 뒤 해결방안을 도출
수요 기반 분석 과제 도출 방식
- 상향식 접근법
보유하고 있는 데이터를 분석하여 의미 있는 관계나 패턴을 찾아 지식을 발견하고 문제를 해결하는 방식
데이터 주도 분석 과제 도출 방식
- 프로토타이핑 접근법
불확실성을 고려한 방식
소비자의 요구 사항이나 데이터를 규정하기가 어렵고 데이터 원천도 파악하기 어려운 경우 사용
프로토타입을 만들어 분석을 시도한 뒤 결과를 확인하고 개선하고 이를 반복
데이터 과학 방법론
- 여섯 단계로 구성되며 필요에 따라 특정 단계를 반복해서 수행 가능
연구 목표 설정
[2단계] 데이터 수집
[3단계] 데이터 준비
- 정제 후 사용 가능한 형태로 가공하는 단계
- 오류를 여과 하거나 수정하여 정제
- 데이터를 통합하거나 형태를 변환
[4단계] 데이터 탐색
- 관계나 상호작용을 이해하기 위한 단계
- 변수간 관련성, 데이터의 분포, 편차, 패턴 존재 여부를 확인하는 탐색적 데이터 분석 (EDA)이라고 함
- 그래픽 기법을 많이 사용
데이터 여과
데이터 정제
데이터 통합
데이터 축소
데이터 변환
[5단계] 데이터 모델링
- 프로젝트에 대한 답을 찾는 단계
- 변수를 선택하여 모델을 구성하고 실행 및 평가하는 과정을 반복 수행하여 문제 해결 모델을 완성
- 데이터의 특성과 목적에 따라 모델 유형 선택
[6단계] 결과 발표 및 분석 자동화