KDD(Knowledge Discovery in Databases) 분석 방법론과 CRISP-DM






데이터 분석의 유형

데이터 분석에는 '분석 대상'과 '분석 방법'이 존재한다.
분석 대상과 방법에 따라 분석은 4가지 유형으로 나뉜다.

- 분석 대상을 알고, 분석 방법을 아는 경우 => 최적화
- 분석 대상을 알고, 분석 방법을 모르는 경우 => 해
- 분석 대상을 모르고, 분석 방법을 아는 경우 => 인사이트
- 분석 대상을 모르고, 분석 방법도 모르는 경우 => 발견




KDD 분석 방법론

Knowledge Discovery in Databases

데이터를 통해 '통계적 패턴', '지식'을 찾을 수 있도록 정리한 
데이터마이닝 프로세스.


1. Selection
2. Pre-processing
3. Transformation
4. Data Mining
5. Interpretation / Evaluation
의 순서로 진행된다.

순서대로 진행하기 때문에
소프트웨어 개발의 Waterfall 방식과 유사하다.




CRISP-DM

Cross Industry Standard Process for Data Mining


이 방법론 또한 단계가 있긴 하지만
KDD 분석 방법론처럼 순차적으로 진행되지 않고
보완해야 할 것이 있으면 전 단계로 되돌아가는 등의
반복 수행을 통해 분석 품질을 높인다.


- 업무이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개의 단계로 나뉘는데

KDD 분석 방법론과 다른 점은

1. 특정 단계 간에 보완을 하기 위해
전 단계로 되돌아갈 수 있다는 것이다.

2.  '업무 이해', '데이터 이해'와 같이
KDD 분석 방법론의 '데이터 선택'에 해당하는 작업이
더 세분화 되었다.

3. '전개' 단계가 추가되었는데
모니터링과 유지보수 , 보고서 등
실무적인 작업이 더 세분화되었다.








댓글

이 블로그의 인기 게시물

Blogger 커스터마이징 : CSS 수정 (sticky-header)

노마드코더 개발자북클럽 Clean code 완주, 독후감

노마드코더 개발자북클럽 Clean code TIL 7 : 7장. 오류 처리