[DB] Data Lake (데이터 레이크)

<설명>

- 대규모의 다양한 Raw-Data(원시 데이터) 집합체를 기본 형식으로 저장하는 Data 저장소 유형.

@@ Raw-Data : 특정 목적을 위해 처리되지 않은 Data

- 구조화, 반구조화, 구조화 되지 않은 대량의 Data 를 저장&처리&보호하기 위한 중앙 집중식 저장소.

- Data 를 기본 형식으로 저장 가능하며, 크기 제한을 무시하고 다양한 Data 처리 가능.

- Data Lake에 있는 Data 는 Query 되기 전까지 정의되지 않음.

- Data Lake 를 통해 모든 Data 가 보존되며, Storage에 저장하기 전에 제거 및 필터링되지 않음.

- 확장성 & 안정성 있는 Platform 제공

- On-premise, Cloud, Edge-Computing 등을 가리지 않고 모든 System의 Data 를 속도 제한 없이 수집

==> 유형 & Amount(양) 에 상관없이 모든 Data 를 고품질로 저장

@@ On-premise :

==> 기업이 자체 시설에서 보유하고 관리하는 Private Data Center.

==> Computer Resource가 Private Cloud 에서와 유사하게 가상화 Private Cloud 실행 가능.

- 실시간 모드 or 일괄 처리 모드로 Data 처리

- SQL, Python, R 및 분석 Application 등을 통해 Data 분석 가능.

- Data Lake 와 Data Warehouse 모두 Big-Data를 위한 저장소라는게 공통점. 이외엔 각기 다른 용도에 맞게 최적화되어 있으므로, 서로 상호 보완적임. (상황에 따라 함께 쓰기도 함)

- 대량의 Big-Data 처리가 필요한 기업에서 보통 Raw-Data 를 변환하지 않고, 일괄 처리나 스트리밍을 통해 Data Lake로 보냄.

- Raw Data 를 사용하고 이에 Access 가능하도록 Governance 를 통해 지속적으로 유지관리해야 함.

==> 안 하면 Data 관리가 어렵고, Cost 소모가 증가하며, 쓸모없는 Access 불가능 Junk가 될 수 있음.

==> 이런 Access 불가 Data Lake 를 Data Swamp (데이터 늪) 이라고 칭함.

<장점>

- 총 소유 비용 절감

- 데이터 관리 간소화

- 인공지능 및 머신러닝 통합에 대비

- 분석 속도 향상

- 보안 및 Data Governance 향상

@@ Data Governance : Data가 처음부터 정확하고, 이후 입력 & 저장 & 조작 & Access & 삭제 과정이 올바르게 처리되도록 시행하는 모든 정책과 절차.

<참조 1> https://cloud.google.com/learn/what-is-a-data-lake?hl=ko

<참조 5>

[DB] Data Lake vs Data Warehouse 비교 (0)	2022.12.14
[DB] Data Warehouse (0)	2022.12.13
[MySQL] Stored Program (0)	2022.12.05
[DB] Data Set (0)	2022.12.01

코딩의, 코딩에 의한, 코딩을 위한