note title

빅데이터 분석 기획

빅데이터를 분석하기 이전에 무엇을 분석할 것인지, 어떻게 분석할 것인지 계획을 가지고 접근하는 것이 좋다. 데이터의 유형이 무엇인지, 그리고 어떻게 해야하는가?

이러한 내용을 기반으로 빅데이터 분석기사 1장에서 설명한다.

중요한 점은 별(⭐️) 로 표시해 두었다.

데이터의 유형

종류내용
정량적 데이터(정형데이터)수치로 표현할 수 있는 숫자, 도형, 기호 등의 데이터를 의미.
정성적 데이터(비정형 데이터)언어, 문자 등의 정형화되지 않은 데이터. 많은 비용과 기술적 투자가 필요.

⭐️⭐ 암묵지와 형식지의 상호작용️

암묵지가 형식지로 표출되고 연결되면 그 상호작용으로 지식이 형성된다.

분류내용
암묵지공통화 / 내면화암묵적으로 인정함
형식지표출화 / 연결화말해야 알아들음

⭐️⭐️⭐️ DIKW 피라미드

데이터 : 의미 없음
정보 : 의미 생김
지식 : 정보를 분류하고 지식으로
지혜 : 창의적 산물

데이터베이스의 특징

총 4개 : 정보 축적 및 전달 / 정보 이용 / 정보 관리 / 정보 기술 발전 / 경제 산업적(인프라)

정보의 축적 및 전달:
기계 가독성 : 대량의 정보를 컴퓨터가 읽음
검색 가능성 : 다양한 방법으로 정보 검색 가능성
원격 조작성 : 원거리에서 온라인으로 가능
정보 이용 측면:
이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득하고 원하는 정보를 찾을 수 있음
정보 관리 측면:
정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고 추가 갱신함
정보 기술 발전 측면:
데이터 베이스는 정보처리 검색 관리 소프트 웨어, 하드웨어, 네트워크 등을 발전하게 끔 함
경제 산업적 측면:
다양한 정보를 필요에 따라 신속 제공 이용 할 수 있는 인프라 특성을 보이기 때문.

사회 기반 구조 데이터 베이스

물류 : CVO서비스 / CALS / PORT-MIS(항만운영정보) / KROIS(철도운영정보)
지리 : GIS(지리정보) / LBS(위치정보) / SIM(공간정보 관리)
교통 : ITS(지능형교통정보) / 교통정보 / 기초자료 및 통계, 대국민 서비스
의료 : 의료정보시스템 / PACS
교육 : 첨단 정보통신기술을 활요한 교육 정보 개발 / 대학 정보화 / NEIS(교육행정정보)

⭐️⭐️⭐️ 빅데이터 특징

빅데이터 3V
크기 (Volume) : 대량의 데이터 증가 발생으로 기존 데이터 수집, 관리 한계
다양성 (Variety) : 비정형 데이터 발생으로 다양한 데이터 형식 증가
속도 (Velocity) : 실시간 정보 발생으로 데이터 유입, 처리 속도 요구

빅데이터 4V
가치 (Value) : 데이터 전체 파악, 패턴 발견의 어려움으로 가치의 중요성 강조
정확성 (Veracity) : 빅데이터 기반의 예측 분석 결과에 대한 신뢰성이 중요.

⭐️⭐️⭐️ 빅데이터에 거는 기대

산업혁명의 석탄, 철 : 세상 전반에 혁명적 변화
21세기 원유 : 필요한 정보를 제공하여 생산성을 향상시킬 것.
렌즈 : 산업 발전에 큰 영향을 줄것
플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물. 다양한 서드파티 비즈니스에 활용.

⭐️⭐️⭐️ 빅데이터 변화

사전처리 > 사후처리
표본조사 > 전수조사
질 >
인과관계 > 상관관계

7가지 빅데이터 활용 기본 테크닉

1. 연관규칙 학습: 변인 간에 상관관계 판단
2. 유형분석: 새로운 사건이 속할 범주를 찾음
3. 유전알고리즘: 최적화가 필요한 문제의 해결책을 자연 선택, 돌연변이 등과 같은 메커니즘을 통해 진화
4. 기계학습 == 머신러닝: 학습 데이터로 부터 학습한 알려진 특성을 활용해 예측
5. 회귀분석: 독립변수를 조작하면서 종속변수과의 변인 관계를 파악
6. 감정분석: 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
7. 소셜 네트워크 분석: 오피니언 리더, 인플루언서를 찾아내고, 고객간 소셜 관계를 파악

빅데이터의 위기 요인과 통제 방안

위기통제
사생활침해동의 > 책임
책임원칙훼손결과 기반 책임 원칙 고수
데이터오용알고리즘 접근 허용

요구되는 역량

하드스킬: 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
소프트스킬: 통찰력있는 분석, 설득력 있는 분석, 다분야 간 협력

가치 패러다임의 변화

디지털화: 아날로그 > 디지털 변화에 의한 가치 창출 원천
연결: 디지털화된 정보와 대상들이 서로 연결되어 효과적이고 효율적으로 제공되느냐
에이전시:

  • 사물인터넷 연결이 증가하고 복잡
  • 복잡한 연결을 얼마나 효과적이고 신뢰있게
  • 데이터 사이언스 역량에 따라 좌우

분석 준비도 평가

분석 업무 파악 / 분석 인력 및 조직 / 분석 기법 / 분석 데이터 / 분석 문화 / IT인프라

분석 성숙도 평가

1단계 : 분석시작, 환경과 시스템 구축
2단계 : 분석 결과를 업무에 적용
3단계 : 전사 차원에서 분석관리, 공유
4단계 : 분석을 진화시켜 혁신 및 성과 향상에 기여

⭐️⭐️⭐️ 준비도 및 성숙도 4분면

분면종류준비도성숙도내용
확산형높음높음지속적 확산 가능 기업
정착형낮음높음분석기법 제한적 사용, 분석 정착 필요
도입형높음낮음준비도가 높아 바로 도입 가능
준비형낮음낮음사전 준비가 필요

note title

분석 조직의 유형

DSCoE 위치가 중요
집중구조 : DSCoE가 마지막.
기능구조 : 부서가 다 분석함
분산구조 : 부서가 모두 DSCoE포함. DSCoE 분산

빅데이터 플랫폼 개념도

에코시스템

빅데이터는 여러가지 기술 및 프레임워크, 솔루션 등을 이용해 플랫폼을 완성하게 되는데 이를 에코시스템라고 한다.

머신러닝 vs 딥러닝

머신러닝 : 데이터 분석, 결정을 내리기 위핸 학습한 내용을 적용
딥러닝 : 인공신경망 분석. 인간의 뇌처럼 학습함.

미래의 인공지능 활용 분야

자율주행, 스마트홈, 메디컬 케어, 인프라, 스마트 농업, 업무 환경 변화

⭐️⭐️⭐️ 마이데이터

  • 마이데이터
    정보의 주체가 개인 정보 권한을 갖고 관리할 수 있게 하자 개인정보에 대한 인간 중심의 비전을 향해 나아가는 것을 목표. 공정하고 지속 가능하며 변영하는 디지털 사회의 조건

  • 개념

자기정보 결정권 + 데이터 경제 활성화
데이터통제 / 데이터제공 / 데이터활용 /

기획의 능력 단위 요소

도메인 이슈 도출, 분석 목표 수립, 프로젝트 계획, 보유데이터 자산 확인

⭐️⭐️⭐️ OSID

  • 하향식 접근법
분석대상분석방법요소
안다안다최적화 Optimization
안다모른다솔루션 Solution
  • 상향식 접근법
분석대상분석방법요소
모른다안다통찰 Insight
모른다모른다발견 Discovery

⭐️ 5단계 빅데이터 분석 방법론

1단게 : 분석기획 > 비즈니스 이해, 프로젝트 정의 및 계획 수립, 프로젝트 위험 계획 수립
2단계 : 데이터 준비 > 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검
3단계 : 데이터 분석 > 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증
4단계 : 시스템 구현 > 설계 및 구현, 시스템 테스티 및 운영
5단계 : 평가 및 전개 > 모델 발전 계획 수립, 프로젝트 평가 및 보고

⭐️ 분석과제 발굴 방법론

분석 대상 안다 > 하향식 > 문제 탐색 > 문제 정의 > 해결방안 탐색 > 타당성 검토
분석 대상 모른다 > 상향식 > 지도 비지도 학습 > 프로토 타입

⭐️⭐️ 하향식 분석과제 발굴 방법론

문제 탐색 단계
규제와감사
업무제품고객
지원인프라

분석기획 발굴의 범위 확장
거시적관점, 경쟁자 분석, 시장의 니즈, 역량 분석
외부 참조 모델 기반의 문제 탐색
분석 유스케이스

⭐️⭐️⭐️ 상향식 분석 발굴 방법

지도학습: 머신러닝, 의사결정트리, 인공신경망 모형
비지도학습: 장바구니분석, 군집분석, 주성분 분석, 다차원 척도
프로토타입: 시행착오 해결법

note title

시급성우선 : 3421
난이도우선 : 3124

⭐️⭐️⭐️데이터 수집 방법

데이터종류수집
정형DBMSETL
반정형HTML,XML,JSON 등웹크롤링,API
비정형소셜데이터,문서,이미지 등웹크롤링,스트리밍

⭐️⭐️⭐️ 데이터 축소 및 차원 축소

데이터 축소 :
같은 정보량을 가지면서 데이터의 크기를 줄이는 방법. 분석의 효율성을 높이기 위해 필요한 변환 과정.
차원축소 :
데이터의 잡음을 제거. 데이터셋을 다루기 쉽게 함. 관계없거나 중복되는 속성을 제거하는 작업으로 최소 집합을 찾아냄

데이터 압축:
데이터 인코딩, 변환과정을 이용해 축소. 무손실압축기법 이라고 하며 BMP포맷있음. 손실압축기법은 JPEG포맷

스타스키마

장점 : 복잡도가 낮아 이해 쉬움. 조인 테이블 적음
단점 : 차원 테이블들의 비정규화로 데이터 중복 발생, 상대적으로 데이터 적재에 시간 많이 소요.

스노우플레이크 스타스키마

장점 : 데이터 중복 제거되면서 데이터 적재시 소요시간 빠름
단점 : 복잡성 증가 > 조인 테이블 개수 증가. 쿼리 난이도 증가

⭐️⭐️⭐️ ETL 프로세스

데이터 원천으로 데이터를 추출(Extraction), 변환(Transform), 적재(Load) 하는 작업이다.

데이터의 원천으로 부터 데이터를 추출 및 변환하여 운영 데이터 스토어, 데이터 웨어하우스, 데이터 마트에 데이터를 적재

ETL vs CDC

ETL : 정해진 시점
CDC : 실시간 혹은 준 실시간

ODS 프로세스

데이터에 추가 작업을 하기 위해 다양한 원천 데이터로부터 데이터를 추출 통합한 데이터 베이스
Operatinal Data Store

⭐️⭐️⭐️ 웨어하우스 vs 레이크

데이터 웨어하우스 :
표준화된 SQL, 정제된 데이터, 저장 처리에 비용 높음, 빠르고 간편, 접근성 제한적, 안전, 동시성과 통합성

데이터 레이크 :
SQL유사 시스템 (HBase, NoSQL), Spark, Map Skyblueuce, YARN, Presto로 액세스, Raw데이터, 저렴한 비용 처리
접근성 매우 높음, 자유로움, 도구 및 저장용량 확장성 좋음, 스트리밍, 빅데이터 분석 솔루션과 연동 편리

⭐️⭐️⭐️ 하둡

내용이 꽤 어렵지만, 알고 모르는거에 점수 차이가 크다.
하둡은 하나의 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러대를 클러스터화여 데이터를 처리하는 것을 목표로 하는 것을 의미한다. 즉, 하둡은 큰 크기의 데이터를 여러대의 컴퓨터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리 오픈소스 프레임워크.

장점 :
오픈소스, 장비 추가에 용이, 일부 장비의 장애시에도 전체에 영향이 미미,
저렴하고 비용대비 빠르게 데이터 처리, 오프라인 배치 프로세싱에 최적화
단점 :
HDFS에 저장된 데이터를 변경할 수 없음. 실시간 데이터 분석과 같이 신속하게 처리해야 하는 작업에는 부적합

⭐️⭐️⭐️ 수집 및 연결 프레임워크

스쿱 Sqoop

하둡과 데이터베이스 간 데이터 이동을 간편하게
하둡에서 데이터를 가져오거나 올릴 때 사용
하둡에서 제공하는 데이터베이스 연결용 맵 인풋 포매터 를 사용

플럼 Flume

반전형 로그 데이터 수집
비정형 데이터 수집
대용량 로그 데이터를 안정성, 가용성을 바탕으로 효율적 수집
다양한 소스로부터 데이터를 수집, 다양한 방식으로 데이터를 전송
최근 국내의 빅데이터 솔루션에서 수집 부분 채택

카프카

데이터 스트림 실시관 관리를 위한 스트리밍 플랫폼
발행/구독모델로 구성
메세지를 파일에 저장
다수의 카프카 서버에서 메세지 분산 처리

스크라이브 Scribe

반정형데이터(로그 데이터) 수집
비정형 데이터 수집
실시간 스트리밍 로그 수집
페이스북 자체 Scaling 작업

척와 Chuckwa

반정형데이터(로그 데이터) 수집
하둡의 서브 프로젝트로 분산 서버에서 로그데이터를 수집, 저장, 분석하기 위한 솔루션
수집된 로그 파일을 HDFS에 저장
지나치게 하둡에 의존

스톰 Storm

실시간 스트리밍처리 서버이자 프레임워크
장애 대응 능력이 뛰어남
장애 노드에 대해서는 복구 처리를 자동으로

아브로 Avro

데이터 직렬화 프레임워크
특정 언어에 종속 x
스키마를 보통 JSON으로 작성하여 바이너리 형태로 인코딩

웹 크롤링

Python : Scrapy
JAVA : Nutch, Crawler4j

⭐️⭐️⭐️분석 및 관리 프레임워크

하이브 Hive

사용자가 SQL로 쿼리를 작성하면 자동으로 맵리듀스 작업으로 변경
기존에 사용하던 RDBMS와 아주 유사한 환경의 분석 플랫폼
자바 기반으로 널리 활용

피그 Pig

PIG Latin 언어 사용
쉬운 프로그래밍
최적화와 효율 굿

임팔라 Impala

HDFS와 직접 통신
하이브 쿼리 언어 HiveQL사용
C++ 기반 실행엔진 속도 빠름

스파크 Spark SQL

데이터프레임으로 변환, 분석작업 용이
구조화된 데이터셋을 가지고 효율적으로 다룰 수 있음
JSON, Parquet, ORC, JDBC, 하이브 호환테이블, 스파크 전용 테이블

타조 Tajo

고려대
하둡 기반의 대용량 데이터를 SQL 형태의 명령을 통해 분산 분석 작업을 진행
하이브랑 비슷. ETL, Low-Latency 지원
자동 최적화 지원

머하웃 Mahout

분산처리 가능, 확장성을 가짐 머신러닝용 라이브러리
비슷한 특성을 가진 데이터를 분류, 정의하는 작업 및 협업 필터링 수행

프레스토 Presto

Hive 보다 빠른 SQL
자바(Java)로 만들어짐. 메모리 처리와 데이터 구조 기술을 적절히 혼합
HDFS와 HBase와 같은 데이터 저장소 외에 뉴스피드 백엔드 속 스토리지 와 쉽게 연결
페이스북 은 프레스토를 여러 지역에서 운영

⭐️⭐️⭐️관리 프레임워크

주키퍼 ZooKeeper

분산 시스템간의 정보 공유 및 상태 체크, 동기화 처리 프레임워크
코디네이션 서비스 시스템
분산 , 분산 로크 등 다양한 기능

우지 Oozie

하둡의 워크플로관리
일정한 시간이 경과하거나 주기적으로 반복해서 실행 되는 잡을 관리
맵리듀스 잡, 피그 잡 등 시작과 완료, 실행 중 에러 등의 이벤트 콜백

휴 Hue

Hue는 코어 하둡, 스파크 하둡 에서 사용 가능한 컴포넌트
하둡 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스
다른 하둡과 함께 그룹화되어 Hive작업 및 스파크 잡 실행

에어플로우 Airflow

데이터 워크플로 관리 도구
Airbnb 개발. 현재는 아파치 Python 을 기반으로 코드 작성
HDFS와 같이 여러대의 노드가 동작해야 하는 환경에 대해서도 지원
웹 UI 기반 강력함

암바리 Ambari

손쉬움 웹 UI, REST API 사용 제공
Linux 기반

H카탈로그 HCatalog

테이블 뷰 제공
Pig, Hive (데이터 처리도구)간의 테이블, 저장공간 관리 계층 제공




참고자료