<설명>
- 대규모의 다양한 Raw-Data(원시 데이터) 집합체를 기본 형식으로 저장하는 Data 저장소 유형.
@@ Raw-Data : 특정 목적을 위해 처리되지 않은 Data
- 구조화, 반구조화, 구조화 되지 않은 대량의 Data 를 저장&처리&보호하기 위한 중앙 집중식 저장소.
- Data 를 기본 형식으로 저장 가능하며, 크기 제한을 무시하고 다양한 Data 처리 가능.
- Data Lake에 있는 Data 는 Query 되기 전까지 정의되지 않음.
- Data Lake 를 통해 모든 Data 가 보존되며, Storage에 저장하기 전에 제거 및 필터링되지 않음.
- 확장성 & 안정성 있는 Platform 제공
- On-premise, Cloud, Edge-Computing 등을 가리지 않고 모든 System의 Data 를 속도 제한 없이 수집
==> 유형 & Amount(양) 에 상관없이 모든 Data 를 고품질로 저장
@@ On-premise :
==> 기업이 자체 시설에서 보유하고 관리하는 Private Data Center.
==> Computer Resource가 Private Cloud 에서와 유사하게 가상화 Private Cloud 실행 가능.
- 실시간 모드 or 일괄 처리 모드로 Data 처리
- SQL, Python, R 및 분석 Application 등을 통해 Data 분석 가능.
- Data Lake 와 Data Warehouse 모두 Big-Data를 위한 저장소라는게 공통점. 이외엔 각기 다른 용도에 맞게 최적화되어 있으므로, 서로 상호 보완적임. (상황에 따라 함께 쓰기도 함)
- 대량의 Big-Data 처리가 필요한 기업에서 보통 Raw-Data 를 변환하지 않고, 일괄 처리나 스트리밍을 통해 Data Lake로 보냄.
- Raw Data 를 사용하고 이에 Access 가능하도록 Governance 를 통해 지속적으로 유지관리해야 함.
==> 안 하면 Data 관리가 어렵고, Cost 소모가 증가하며, 쓸모없는 Access 불가능 Junk가 될 수 있음.
==> 이런 Access 불가 Data Lake 를 Data Swamp (데이터 늪) 이라고 칭함.
<장점>
- 총 소유 비용 절감
- 데이터 관리 간소화
- 인공지능 및 머신러닝 통합에 대비
- 분석 속도 향상
- 보안 및 Data Governance 향상
@@ Data Governance : Data가 처음부터 정확하고, 이후 입력 & 저장 & 조작 & Access & 삭제 과정이 올바르게 처리되도록 시행하는 모든 정책과 절차.
<참조 1> https://cloud.google.com/learn/what-is-a-data-lake?hl=ko
<참조 2> https://www.sap.com/korea/insights/what-is-data-governance.html
<참조 3> https://www.hpe.com/kr/ko/what-is/on-premises-vs-cloud.html
<참조 4> https://www.redhat.com/ko/topics/data-storage/what-is-a-data-lake
<참조 5>
'Programing > DB' 카테고리의 다른 글
[DB] Data Lake vs Data Warehouse 비교 (0) | 2022.12.14 |
---|---|
[DB] Data Warehouse (0) | 2022.12.13 |
[MySQL] Stored Program (0) | 2022.12.05 |
[DB] Data Set (0) | 2022.12.01 |
댓글