note title

결과 해석

모델링 이후에 분석한 통계나 딥러닝 모델을 해석하여야 예측되는 결과를 객관적으로 해석할 수 있다.
분류, 회귀에서 어떻게 해결하는지, 그리고 어떻게 활용하는지 알아야 한다.

이러한 내용을 기반으로 빅데이터 분석기사 4장에서 설명한다.

중요한 점은 별(⭐️) 로 표시해 두었다.

군집분석 평가 방법

  • 외부평가

    • 자카드계수 (두 데이터 군집간의 유사도 게산)
    • 분류 모형 평가 방법 응용 (혼돈행렬, ROC)
  • 내부평가

    • 단순 계산법
    • 군집간의 거리를 계산
    • 유클리드, 맨해튼, 민코스피스키, 표준화, 마할라노비스, 캔버라, 체비셰프
    • 엘보메소드

분류분석 평가지표

⭐⭐⭐ 혼돈행렬 평가 지표

  • 정확도

    • Accuracy
    • 전체 데이터에서 올바르게 분류한 데이터의 비율
  • 정밀도

    • Precision
    • Positive로 예측한 것 중 실제 값이 Postive인 비율
  • 재현율

    • Recall, 민감도(Sensitivity), 참 긍정률(TPR)
    • 실제 Positive인 값 중 positive로 분류한 비율
  • 특이도

    • Specificity, 참부정율(TNR)
    • 실제 Negative인 값 중 Negative로 분류한 비율
  • 거짓 긍정률

    • FPR
    • 실제 Negative인 값 중 Positive로 잘못 분류한 비율
  • F1-Score

    • 정밀도와 재현율의 조화 평균.

ROC

  • ROC곡선은 임계값을 다양하게 조절해 분류 모형의 성능을 비교할 수 있는 그래프.
  • TPR을 y, FPR을 x축에 두어 시각화.
  • 면적이 넓을 수로 좋음

⭐⭐ 회귀 평가지표

지표오차상쇄처리이상치
MAE절대값유리
MSE제곱불리
RMSE제곱불리
MAPE절대값유리

⭐ 교차검증

교차검증은 데이터를 나누고 학습하는 과정을 여러 차례 반복함으로써 일반화 성능을 평가

  • K폴드 교차검증
    • 데이터를 K개의 폴드 파티션으로 나누어 k-1을 학습
    • 나머지를 검증용으로 사용
    • K번 학습하여 얻은 결과의 평균을 사용
  • 홀드아웃
    • 가장 단순한 종류의 교차검증 (train-test-split)
  • 리브-P-아웃
    • P개의 관측치만 검증용으로 사용
    • 나머지 관측치는 모두 모형을 학습하는데 사용함.

⭐ 모수 검정과 비모수 검정 비교

  • 모수 검정

    • 가정된 분포의 모수에 대해 가설 설정
    • 표본평균, 표본 분산
    • 검정력 : 강함
  • 비모수 검정

    • 분포의 형태에 대한 가설 설정
    • 순위, 부호
    • 검정력 : 약함

적합도 검정

  • 카이제곱검정
    • 범주형 데이터를 대상으로 관측된 값들의 빈도수기대 빈도수가 의미있게 다른지 비교
  • 샤피로 윌크 검정
    • 데이터가 정규분포로부터 추출된 표본인지
  • 콜모고로프 스미르노프
    • 데이터의 누적분포함수와 임의 분포의 누적분포함 수 간의 최대차이 D를 검정통계량
  • Q-Q플롯
    • 그래픽적으로 데이터의 정규성을 확인하는 가장 간단한 방법

과적합을 방지하는 방법

  • 학습데이터 확보
  • 교차검증
  • 피처수 감소
  • 정규화

⭐ 매개변수 최적화와 경사 하강법

  • 경사하강법
    • 현재 위치에서 기울기를 구해 함수의 값이 급격히 감소하는 방향으로 매개 변수 값을 조정하는 것을 반복, 전역 최솟값을 찾아 나가는 것.
  • 확률적 경사하강법
    • 무작위로 샘플리된 하나의 샘플로 그레이디언트 계산, 매개변수를 업데이트
  • 미니배치확률적경사하강법
    • 한번 매개변수를 업데이트 할 때 마다 전체 데이터셋을 사용하는 방식
  • 모멘텀
    • SGD가 가는 방향에 가속도를 부여
  • AdaGrad
    • 매개변수별 적응 학습률을 사용하는 알고리즘
  • Adam
    • 오래된 기울기의 영향력을 지수적으로 줄여 RMSprop에 모멘텀을 더함

⭐⭐⭐ 앙상블 기법

  • 보팅
    • 서로 다른 알고리즘을 두고 최종 예측 결과를 결정함.
  • 배깅
    • 간단하고 강력한 앙상블 기법
  • 랜덤포레스트
    • 의사결정 트리를 개별 모형으로 사용하는 모형 결합
  • 부스팅
    • 여러 개의 연결된 약한 분석 모형을 순차적으로 학습

BSC 성과관리

  • 고객, 프로세스, 학습과 성장의 관점을 추가해 다각적으로 성과관리

KPI 빅데이터 활용

  • 영업
    • 타깃 세그멘테이션, 마케팅 영역 데이터 분석 활용
  • 사기
    • 보험사기 방지, 코로나 경로 분석
  • 비즈니스
    • 생산 효율화, 공정관리 업무 효율 향상

시각화 분류

  • 데이터 시각화
    • 시각적 표현
    • 속성 변수 단위 포함 정보
    • 명확하고 정확하게 커뮤니케이션 목적
    • 데이터간의 연결과 그루핑 표현
    • 마인드맵
    • 의사결정트리
    • 통계 그래픽
  • 정보 시각화
    • 인터넷 네트워크 관계 등 집합에 대한 시각적 표현 연구
    • 대규모 비수량 정보 시각적 표현
    • 데이터 시각화보다 한 단계 더 정보 형태로 가공
    • 트리맵
    • 분기도
    • 수지도
    • 히트맵 등

⭐시각화 종류

  • 그래프
  • 도표
  • 이미지
  • 인포그래픽
  • 히스토그램
  • 상자그림
  • 산점도 등

⭐시각화 프로세스

  • 구조화 > 시각화 > 시각표현단계
종류주요시각화도구
시각막대그래프, 점, 산점도, 선, 계단식, 영역
공간지도, 등치선도,버블플롯, 도트플롯
분포파이,도넛,트리맵,누적막대/연속그래프
관계산점도,버블,히스토그램,밀도
비교막대,플로팅바,히트맵,체르노프,스타,평행

시각화 단계

  • 특성화 > 추상화 > 상호작용 > 개발




참고자료