<공통점>
- Big Data 를 위한 Storage Repository
<차이점>
[Data Lake]
- 딱히 Data Model 없음. 그냥 모든 Raw Data 끌어옴.
- Data 수집 Time 에 지연이 없음. 어떤 조건이나 Filtering 이 없으므로.
- 대규모 Data 용량이지만 상용 Hardware 를 자주 사용하기에, Data Warehouse 보다 Cost 가 저렴.
[Data Warehouse]
- Report(보고) 를 위해 설계된 구조적 Data Model 을 제공.
- Data 를 Data Warehouse 에 저장하기 전, Data를 정제하는 Process는 시간이 오래 걸릴 수 있음(몇 개월~몇 년)
==> Data Lake 처럼 즉시 Data 수집 불가.
- Data 저장 Cost가 상당할 수 있음.
<Data 수집 및 분석 구조 비교>
[Data Lake & Data Warehouse 같이 쓸 경우]
==> Data Lake 에서 Data 를 연결하고, Data를 준비하며, 선택한 Data를 Data Warehouse로 이동 후 Reporting.
[Dataware 만 사용]
==> Data Warehouse 에서 Data를 연결. Data를 분석 후 공유하여 다른 분석 및 Machine Learning Service와 함께 사용.
==> 대량의 Data 를 읽어 Data 전반에 걸친 관계 및 추세를 파악하는 작업이 포함.
<비교 정리 Table>
특징 | Data Warehouse | Data Lake |
Data | Transaction System, 운영 Database 및 사업 부서(LOB) Application 의 관계형 Data | 정형 & 반정형 & 비정형 등 모든 Data |
Schema | 일부 경우 Data Warehouse 를 구현하기 전 설계. 분석과 동시에 Write 가능 |
분석할 때 Write 됨. |
Cost/Performance | Local Storage를 사용하여 가장 빠른 Query 결과를 얻음 |
저렵한 Storage 를 사용하여 Query 결과가 빠르게 제공. Computing 및 Storage 분리 |
Data Quelity | 신뢰할만한 중앙 버전 역할을 하며, 고도로 Curate 된 Data |
Curate 가부와 상관없는 모든 Data. Raw Data |
분석 | Batch Report. BI 및 시각화 | 머신 러닝, Data 검색, 스트리밍, 운영 분석, 프로파일링 |
@@ Data Curation : User가 Information 활용이 가능하도록 Data 집합체를 생성, 체계화, 유지하는 Process.
<참조 1> https://www.redhat.com/ko/topics/data-storage/what-is-a-data-lake
<참조 2> https://aws.amazon.com/ko/data-warehouse/
<참조 3> https://www.techtarget.com/searchbusinessanalytics/definition/data-curation
<참조 4>
'Programing > DB' 카테고리의 다른 글
[MySQL] DISTINCT 조회 (0) | 2023.01.11 |
---|---|
[DB] Hadoop (하둡) (0) | 2022.12.15 |
[DB] Data Warehouse (0) | 2022.12.13 |
[DB] Data Lake (데이터 레이크) (0) | 2022.12.12 |
댓글