본문 바로가기
빅데이터 분석/파이썬 빅데이터 분석

03 데이터 과학 기반의 빅데이터 분석

by udeserveit1 2024. 8. 14.

빅데이터 산업의 이해

- 빅데이터 플랫폼

- 빅데이터 에코시스템

- 빅데이터 서비스 프레임워크

 

빅데이터 플랫폼 

- 데이터 플랫폼의 발전

   데이터 웨어하우스(DW)

  

- 빅데이터 플랫폼의 개념

빅데이터를 처리하는 것

– 대량의 데이터를 저장 및 분석, 처리할 수 있는 대용량의 고속 저장 공간과 고성능 계산 능력의 컴퓨팅 인프라를 보유

– 실시간으로 발생하는 빅데이터를 처리 및 분석하여 일관성을 유지하는 데이터 분석도 필요

– 빅 데이터에서 발생하는 개인 정보를 위한 정보 보안 관리체계 지원도 필요

– 빅데이터 플랫폼은 오픈 소스인 하둡을 근간으로 많이 사용

 

빅데이터 서비스 프레임워크

 

– 빅데이터 서비스 프레임워크는 빅데이터 시장을 효율적으로 이해하기 위한 것

– 에코시스템(생태계) 안에서 서비스 공급자를 분류하고 서비스 유형과 수준을 파악하는 것이 필요

– 공급하는 서비스의 유형과 수준에 따라 빅데이터 서비스 공급자와 애플리케이션 공급자로 분류

 

 

 

 

데이터 분석 방법

 

- 분석 목적에 따른 구분

 1) 통계 분석

   - 통계 기법에 의한 분석 방법으로 대표적인 유형

2) 예측 분석

   - 과거의 데이터와 변수 간의 관계를 이용하여 새로운 변수를 추정

3) 데이터 마이닝 분석

  - 많은 데이터 속에 숨겨진 유용한 패턴을 추출

4) 최적화 분석

 - 주어진 제한 조건을 만족하면서 목적 함수를 최대화 또는 최소화하는 방법을 찾는다.

 

 

빅데이터 분석 접근법

- 하향식 접근법

  근본원인을 파악하고 분석 과제를 도출한 뒤 해결방안을 도출

  수요 기반 분석 과제 도출 방식

- 상향식 접근법

   보유하고 있는 데이터를 분석하여 의미 있는 관계나 패턴을 찾아 지식을 발견하고 문제를 해결하는 방식

  데이터 주도 분석 과제 도출 방식

- 프로토타이핑 접근법

 불확실성을 고려한 방식

 소비자의 요구 사항이나 데이터를 규정하기가 어렵고 데이터 원천도 파악하기 어려운 경우 사용

프로토타입을 만들어 분석을 시도한 뒤 결과를 확인하고 개선하고 이를 반복

 

데이터 과학 방법론

- 여섯 단계로 구성되며 필요에 따라 특정 단계를 반복해서 수행 가능

 

데이터 과학 방법론의 6단계 구성

연구 목표 설정

[2단계] 데이터 수집

 

[3단계] 데이터 준비 

- 정제 후 사용 가능한 형태로 가공하는 단계

- 오류를 여과 하거나 수정하여 정제

- 데이터를 통합하거나 형태를 변환

 

[4단계] 데이터 탐색 

- 관계나 상호작용을 이해하기 위한 단계

- 변수간 관련성, 데이터의 분포, 편차, 패턴 존재 여부를 확인하는 탐색적 데이터 분석 (EDA)이라고 함

- 그래픽 기법을 많이 사용

 

 데이터 여과

데이터 정제 

데이터 통합

데이터 축소

데이터 변환

 

[5단계] 데이터 모델링

- 프로젝트에 대한 답을 찾는 단계

- 변수를 선택하여 모델을 구성하고 실행 및 평가하는 과정을 반복 수행하여 문제 해결 모델을 완성

- 데이터의 특성과 목적에 따라 모델 유형 선택

 

[6단계] 결과 발표 및 분석 자동화