본문 바로가기
Programing/DB

[DB] Data Lake vs Data Warehouse 비교

by 꾸압 2022. 12. 14.

 

<공통점>

  - Big Data 를 위한 Storage Repository

 


 

<차이점>

[Data Lake]

  - 딱히 Data Model 없음. 그냥 모든 Raw Data 끌어옴.

  - Data 수집 Time 에 지연이 없음. 어떤 조건이나 Filtering 이 없으므로.

  - 대규모 Data 용량이지만 상용 Hardware 를 자주 사용하기에, Data Warehouse 보다 Cost 가 저렴.

 

[Data Warehouse]

  - Report(보고) 를 위해 설계된 구조적 Data Model 을 제공.

  - Data 를 Data Warehouse 에 저장하기 전, Data를 정제하는 Process는 시간이 오래 걸릴 수 있음(몇 개월~몇 년)

    ==> Data Lake 처럼 즉시 Data 수집 불가.

  - Data 저장 Cost가 상당할 수 있음.

 


 

<Data 수집 및 분석 구조 비교>

[Data Lake & Data Warehouse 같이 쓸 경우]

이미지 출처 : Amazon AWS

  ==> Data Lake 에서 Data 를 연결하고, Data를 준비하며, 선택한 Data를 Data Warehouse로 이동 후 Reporting.

 


 

[Dataware 만 사용]

이미지 출처 : Amazon AWS

  ==> Data Warehouse 에서 Data를 연결. Data를 분석 후 공유하여 다른 분석 및 Machine Learning Service와 함께 사용.

  ==> 대량의 Data 를 읽어 Data 전반에 걸친 관계 및 추세를 파악하는 작업이 포함.

 


 

<비교 정리 Table>

특징 Data Warehouse Data Lake
Data Transaction System, 운영 Database 및 사업 부서(LOB) Application 의 관계형 Data 정형 & 반정형 & 비정형 등 모든 Data
Schema 일부 경우 Data Warehouse 를 구현하기 전 설계.
분석과 동시에 Write 가능
분석할 때 Write 됨.
Cost/Performance Local Storage를 사용하여
가장 빠른 Query 결과를 얻음
저렵한 Storage 를 사용하여 Query 결과가
빠르게 제공. Computing 및 Storage 분리
Data Quelity 신뢰할만한 중앙 버전 역할을 하며,
고도로 Curate 된 Data
Curate 가부와 상관없는 모든 Data.
Raw Data
분석 Batch Report. BI 및 시각화 머신 러닝, Data 검색, 스트리밍,
운영 분석, 프로파일링

 

  @@ Data Curation : User가 Information 활용이 가능하도록 Data 집합체를 생성, 체계화, 유지하는 Process.

 


 

<참조 1> https://www.redhat.com/ko/topics/data-storage/what-is-a-data-lake

<참조 2> https://aws.amazon.com/ko/data-warehouse/

<참조 3> https://www.techtarget.com/searchbusinessanalytics/definition/data-curation

<참조 4>

 

 

'Programing > DB' 카테고리의 다른 글

[MySQL] DISTINCT 조회  (0) 2023.01.11
[DB] Hadoop (하둡)  (0) 2022.12.15
[DB] Data Warehouse  (0) 2022.12.13
[DB] Data Lake (데이터 레이크)  (0) 2022.12.12

댓글