결과 해석
모델링 이후에 분석한 통계나 딥러닝 모델을 해석하여야 예측되는 결과를 객관적으로 해석할 수 있다.
분류, 회귀에서 어떻게 해결하는지, 그리고 어떻게 활용하는지 알아야 한다.
이러한 내용을 기반으로 빅데이터 분석기사 4장에서 설명한다.
중요한 점은 별(⭐️) 로 표시해 두었다.
군집분석 평가 방법
-
외부평가
- 자카드계수 (두 데이터 군집간의 유사도 게산)
- 분류 모형 평가 방법 응용 (혼돈행렬, ROC)
-
내부평가
- 단순 계산법
- 군집간의 거리를 계산
- 유클리드, 맨해튼, 민코스피스키, 표준화, 마할라노비스, 캔버라, 체비셰프
- 엘보메소드
분류분석 평가지표
⭐⭐⭐ 혼돈행렬 평가 지표
-
정확도
- Accuracy
- 전체 데이터에서 올바르게 분류한 데이터의 비율
-
정밀도
- Precision
- Positive로 예측한 것 중 실제 값이 Postive인 비율
-
재현율
- Recall, 민감도(Sensitivity), 참 긍정률(TPR)
- 실제 Positive인 값 중 positive로 분류한 비율
-
특이도
- Specificity, 참부정율(TNR)
- 실제 Negative인 값 중 Negative로 분류한 비율
-
거짓 긍정률
- FPR
- 실제 Negative인 값 중 Positive로 잘못 분류한 비율
-
F1-Score
- 정밀도와 재현율의 조화 평균.
ROC
- ROC곡선은 임계값을 다양하게 조절해 분류 모형의 성능을 비교할 수 있는 그래프.
- TPR을 y, FPR을 x축에 두어 시각화.
면적이 넓을 수로 좋음
⭐⭐ 회귀 평가지표
지표 | 오차상쇄처리 | 이상치 |
---|---|---|
MAE | 절대값 | 유리 |
MSE | 제곱 | 불리 |
RMSE | 제곱 | 불리 |
MAPE | 절대값 | 유리 |
⭐ 교차검증
교차검증은 데이터를 나누고 학습하는 과정을 여러 차례 반복함으로써 일반화 성능을 평가
- K폴드 교차검증
- 데이터를 K개의 폴드 파티션으로 나누어 k-1을 학습
- 나머지를 검증용으로 사용
- K번 학습하여 얻은 결과의 평균을 사용
- 홀드아웃
- 가장 단순한 종류의 교차검증 (train-test-split)
- 리브-P-아웃
- P개의 관측치만 검증용으로 사용
- 나머지 관측치는 모두 모형을 학습하는데 사용함.
⭐ 모수 검정과 비모수 검정 비교
-
모수 검정
- 가정된 분포의 모수에 대해 가설 설정
- 표본평균, 표본 분산
- 검정력 : 강함
-
비모수 검정
- 분포의 형태에 대한 가설 설정
- 순위, 부호
- 검정력 : 약함
적합도 검정
카이제곱
검정범주형 데이터
를 대상으로 관측된 값들의빈도수
와기대 빈도수
가 의미있게 다른지 비교
- 샤피로 윌크 검정
- 데이터가 정규분포로부터 추출된 표본인지
- 콜모고로프 스미르노프
- 데이터의 누적분포함수와 임의 분포의 누적분포함 수 간의 최대차이 D를 검정통계량
Q-Q플롯
그래픽적으로 데이터의 정규성을 확인
하는 가장 간단한 방법
과적합을 방지하는 방법
- 학습데이터 확보
- 교차검증
- 피처수 감소
- 정규화
⭐ 매개변수 최적화와 경사 하강법
경사하강법
- 현재 위치에서 기울기를 구해 함수의 값이 급격히 감소하는 방향으로 매개 변수 값을 조정하는 것을 반복, 전역 최솟값을 찾아 나가는 것.
확률적 경사하강법
- 무작위로 샘플리된 하나의 샘플로 그레이디언트 계산, 매개변수를 업데이트
미니배치확률적경사하강법
- 한번 매개변수를 업데이트 할 때 마다 전체 데이터셋을 사용하는 방식
모멘텀
- SGD가 가는 방향에 가속도를 부여
AdaGrad
- 매개변수별 적응 학습률을 사용하는 알고리즘
Adam
- 오래된 기울기의 영향력을 지수적으로 줄여 RMSprop에 모멘텀을 더함
⭐⭐⭐ 앙상블 기법
- 보팅
- 서로 다른 알고리즘을 두고 최종 예측 결과를 결정함.
- 배깅
- 간단하고 강력한 앙상블 기법
- 랜덤포레스트
- 의사결정 트리를 개별 모형으로 사용하는 모형 결합
- 부스팅
- 여러 개의 연결된 약한 분석 모형을 순차적으로 학습
BSC 성과관리
- 고객, 프로세스, 학습과 성장의 관점을 추가해 다각적으로 성과관리
KPI 빅데이터 활용
- 영업
- 타깃 세그멘테이션, 마케팅 영역 데이터 분석 활용
- 사기
- 보험사기 방지, 코로나 경로 분석
- 비즈니스
- 생산 효율화, 공정관리 업무 효율 향상
시각화 분류
- 데이터 시각화
- 시각적 표현
- 속성 변수 단위 포함 정보
- 명확하고 정확하게 커뮤니케이션 목적
- 데이터간의 연결과 그루핑 표현
- 마인드맵
- 의사결정트리
- 통계 그래픽
- 정보 시각화
- 인터넷 네트워크 관계 등 집합에 대한 시각적 표현 연구
- 대규모 비수량 정보 시각적 표현
- 데이터 시각화보다 한 단계 더 정보 형태로 가공
- 트리맵
- 분기도
- 수지도
- 히트맵 등
⭐시각화 종류
- 그래프
- 도표
- 이미지
- 인포그래픽
- 히스토그램
- 상자그림
- 산점도 등
⭐시각화 프로세스
- 구조화 > 시각화 > 시각표현단계
종류 | 주요시각화도구 |
---|---|
시각 | 막대그래프, 점, 산점도, 선, 계단식, 영역 |
공간 | 지도, 등치선도,버블플롯, 도트플롯 |
분포 | 파이,도넛,트리맵,누적막대/연속그래프 |
관계 | 산점도,버블,히스토그램,밀도 |
비교 | 막대,플로팅바,히트맵,체르노프,스타,평행 |
시각화 단계
- 특성화 > 추상화 > 상호작용 > 개발