라벨이 데이터인 게시물 표시

데이터 연구 분야, 기술 통계 vs 추측 통계

이미지
기술 통계 이미 보유하고 있는 데이터에 대해 분석한다. 있는 그대로 요약, 정리, 시각화하여 데이터의 특성을 도출한다. 보유하고 있는 데이터의 모집단과 같이 데이터의 범위를 확장하여 추정하지 않고 가지고 있는 데이터에만 집중한다. 가지고 있는 데이터 그대로의 특성을 분석하므로 불확실성이나 오차와 같은 개념이 없다. 추측 통계 작은 표본을 가지고 전체의 특성을 유추한다. 전수 조사가 불가능할 때 데이터의 일부만 가지고 전체의 특성을 추정하므로 오차가 필연적으로 발생하고 - 확률 - 신뢰 구간 - 예측 모델의 개념이 추가된다. 예측 모델은 과거의 표본을 분석하여 수학적 패턴을 찾아낸다. 대표적인 통계적 모델은 회귀 분석 모델, 로지스틱 회귀, 시계열 분석 모델(ARIMA) 등이 있다. 머신러닝 모델 vs 통계적 모델 통계적 모델들은 수학적인 패턴이 존재하기 때문에 왜 그런 결과가 나왔는지 해석이 가능하다. 최신 머신러닝/딥러닝 모델은 결과에 대한 설명보다는 **"결과를 얼마나 잘 맞히는지(정확도)"**에 올인하기 때문에 속을 알 수 없는 복잡한 구조(블랙박스)인 경우가 많다.

데이터 연구 분야 시뮬레이션 vs 최적화

이미지
시뮬레이션 예시 그림의 유체 역학과 같은 물리적 상호작용을 보여주는 시각적 프로그램 뿐 아니라 현실과 가깝게 만든 모델 을 제작한 뒤 여러 변수를 대입 하여 실험해 보는 행위가 모두 시뮬레이션에 속한다. 가상의 네트워크를 만들어서 네트워크 트래픽을 시뮬레이팅 할 수도 있고 가상의 주식 시장을 만들어서 시장의 변동성을 시뮬레이팅 할 수도 있다. 불확실성이 많은 현실 세계의 도메인에서 시스템의 동작과 흐름을 모방하여 미래를 예측하고 이해한다. 결국 시뮬레이션도 미래를 예측하고 이해하기 위해 사용한다. 이 모델에서 조건을 바꾸면 어떤 일이 일어날 지를 관찰한다. 최적화 목표를 달성하기 위한 가장 좋은   방법 을 찾는다. 방법이라고하면 최소값 or 최대값의 해답을 의미한다. 꼭 값 하나로 귀결 되는 것은 아니며 단일 스칼라 값 외에도 스케줄, 경로, 벡터 행렬 등으로도 표현될 수 있다. 방법을 찾기 위 전제되어야 할 조건은 목표가 명확해야 한다는 것이다. 시뮬레이션과 최적화 최적화 과정을 통해 후보 해를 도출하고 시뮬레이션으로 검증하여 사용한다.

KDD(Knowledge Discovery in Databases) 분석 방법론과 CRISP-DM

데이터 분석의 유형 데이터 분석에는 '분석 대상'과 '분석 방법'이 존재한다. 분석 대상과 방법에 따라 분석은 4가지 유형으로 나뉜다. - 분석 대상을 알고, 분석 방법을 아는 경우 => 최적화 - 분석 대상을 알고, 분석 방법을 모르는 경우 => 해 - 분석 대상을 모르고, 분석 방법을 아는 경우 => 인사이트 - 분석 대상을 모르고, 분석 방법도 모르는 경우 => 발견 KDD 분석 방법론 Knowledge Discovery in Databases 데이터를 통해 '통계적 패턴', '지식'을 찾을 수 있도록 정리한  데이터마이닝 프로세스. 1. Selection 2. Pre-processing 3. Transformation 4. Data Mining 5. Interpretation / Evaluation 의 순서로 진행된다. 순서대로 진행하기 때문에 소프트웨어 개발의 Waterfall 방식과 유사하다. CRISP-DM Cross Industry Standard Process for Data Mining 이 방법론 또한 단계가 있긴 하지만 KDD 분석 방법론 처럼 순차적으로 진행되지 않고 보완해야 할 것이 있으면 전 단계로 되돌아가는 등의 반복 수행을 통해 분석 품질을 높인다. - 업무이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개의 단계로 나뉘는데 KDD 분석 방법론 과 다른 점은 1. 특정 단계 간에 보완을 하기 위해 전 단계로 되돌아갈 수 있다는 것이다. 2.  '업무 이해', '데이터 이해'와 같이 KDD 분석 방법론의 '데이터 선택'에 해당하는 작업이 더 세분화 되었다. 3. '전개' 단계가 추가되었는데 모니터링과 유지보수 , 보고서 등 실무적인 작업이 더 세분화되었다.

이 블로그의 인기 게시물

Blogger 커스터마이징 : CSS 수정 (sticky-header)

노마드코더 개발자북클럽 Clean code 완주, 독후감

노마드코더 개발자북클럽 Clean code TIL 7 : 7장. 오류 처리