Data Lake, Data Warehouse, Data Market의 비교
Data Lake
- 모든 유형의 데이터를 유지하도록 설계된다.
Usage(사용) Primary repository to support operational and performance analytics
Time-to-market(출시 시기) Weeks, days, hours – depending on approach
Cost(비용) Medium-to-High
Users(사용자) High
Data growth(데이터 증가) Low-to-Medium
=========================================================
- Data Warehouse의 하위 집합이다.
- 조직에서 대규모로 다양한 유형의 데이터를 생성한다.
- 데이터에 기반하여 전략적 통찰력을 얻고 결정 하기 위해 데이터를 분석해야 하지만
어떻게 사용할지 확신할 수 없는 경우 사용한다.
어떻게 사용할지 확신할 수 없는 경우 사용한다.
- 데이터를 분석할때는 데이터 엔지니어, 사이언티스트를 필요로 한다.
1.구조화된(관계형 데이터),
1.구조화된(관계형 데이터),
2.반구조화된(CSV 또는 JSON 파일),
3.원시적인(기계 및 센서 데이터) 형태로 저장된 비정형(기계 및 센서 데이터)
를 저장한다.
3.원시적인(기계 및 센서 데이터) 형태로 저장된 비정형(기계 및 센서 데이터)
를 저장한다.
DataLake는 내부 및 외부 소스의 데이터를 집계하고,
많은 다른 사용자에게 접근을 허용하여 보안 침해에 취약하다.
Usage(사용) Advanced predictive analytics (고급 예측 분석)
Time-to-market(출시 시기) Weeks, months
Cost(비용) Very high
Users(사용자) Low
Data growth(데이터 증가) Very high
=========================================================
많은 다른 사용자에게 접근을 허용하여 보안 침해에 취약하다.
Usage(사용) Advanced predictive analytics (고급 예측 분석)
Time-to-market(출시 시기) Weeks, months
Cost(비용) Very high
Users(사용자) Low
Data growth(데이터 증가) Very high
=========================================================
DataWarehouse
- 데이터가 적재되기 전에 구조화된다.
- 보다 쉽게 전문분석가들이 데이터들을 분석할 수 있다.
- 구조화되어있기 때문에 빠른 쿼리에 최적화돼있다.
- 보안성이 강화된다.
- 스키마 온-레드(schema-on-read) 특성으로 기술 인력 부족에도 더 쉽게 분석할 수 있다.
-> 비즈니스 분석가, 마케터 및 재무 팀도 DataWarehouse의 데이터를 쉽게 사용할 수 있다.
Usage(사용) Primary repository to support operational and performance analytics
Time-to-market(출시 시기) Weeks, days, hours – depending on approach
Cost(비용) Medium-to-High
Users(사용자) High
Data growth(데이터 증가) Low-to-Medium
=========================================================
DataMart
- Data Warehouse의 하위 집합이다.
- 특정 운영 부서, 주체의 보고 요구를 충족하도록 설계됨.
- 한 번 더 카테고라이징 된다. (범주화)
- DataWarehouse를 구축하는 방법은 부서 별로 데이터를 통합, 모델링하고 개별 데이터 마트를 만든 다음 하나로 묶어 Enterprise DataWarehouse를 구성하는 것이다.
Usage(사용) Front-line business reporting (프런트 라인 비즈니스 보고)
Time-to-market(출시 시기) Minutes, hours
Cost(비용) Low
Users(사용자) Low
Data growth(데이터 증가) Low
출처 : https://datawarehouseinfo.com/data-warehouse-vs-mart-vs-lake/
Usage(사용) Front-line business reporting (프런트 라인 비즈니스 보고)
Time-to-market(출시 시기) Minutes, hours
Cost(비용) Low
Users(사용자) Low
Data growth(데이터 증가) Low
출처 : https://datawarehouseinfo.com/data-warehouse-vs-mart-vs-lake/
댓글
댓글 쓰기