본문 바로가기
Programing/DB

[DB] Data Lake (데이터 레이크)

by 꾸압 2022. 12. 12.

 

<설명>

 - 대규모의 다양한 Raw-Data(원시 데이터) 집합체를 기본 형식으로 저장하는 Data 저장소 유형.

    @@ Raw-Data : 특정 목적을 위해 처리되지 않은 Data

  - 구조화, 반구조화, 구조화 되지 않은 대량의 Data 를 저장&처리&보호하기 위한 중앙 집중식 저장소.

 

  - Data 를 기본 형식으로 저장 가능하며, 크기 제한을 무시하고 다양한 Data 처리 가능.

  - Data Lake에 있는 Data 는 Query 되기 전까지 정의되지 않음.

  - Data Lake 를 통해 모든 Data 가 보존되며, Storage에 저장하기 전에 제거 및 필터링되지 않음.

 

  - 확장성 & 안정성 있는 Platform 제공

  - On-premise, Cloud, Edge-Computing 등을 가리지 않고 모든 System의 Data 를 속도 제한 없이 수집

    ==> 유형 & Amount(양) 에 상관없이 모든 Data 를 고품질로 저장

    @@ On-premise :

      ==> 기업이 자체 시설에서 보유하고 관리하는 Private Data Center.

      ==> Computer Resource가 Private Cloud 에서와 유사하게 가상화 Private Cloud 실행 가능.

 

  - 실시간 모드 or 일괄 처리 모드로 Data 처리

  - SQL, Python, R 및 분석 Application 등을 통해 Data 분석 가능.

  - Data Lake 와 Data Warehouse 모두 Big-Data를 위한 저장소라는게 공통점. 이외엔 각기 다른 용도에 맞게 최적화되어 있으므로, 서로 상호 보완적임. (상황에 따라 함께 쓰기도 함)

 

  - 대량의 Big-Data 처리가 필요한 기업에서 보통 Raw-Data 를 변환하지 않고, 일괄 처리나 스트리밍을 통해 Data Lake로 보냄.

 

  - Raw Data 를 사용하고 이에 Access 가능하도록 Governance 를 통해 지속적으로 유지관리해야 함.

    ==> 안 하면 Data 관리가 어렵고, Cost 소모가 증가하며, 쓸모없는 Access 불가능 Junk가 될 수 있음.

    ==> 이런 Access 불가 Data Lake 를 Data Swamp (데이터 늪) 이라고 칭함.

 


 

<장점>

  - 총 소유 비용 절감

  - 데이터 관리 간소화

  - 인공지능 및 머신러닝 통합에 대비

  - 분석 속도 향상

  - 보안 및 Data Governance 향상

  @@ Data Governance : Data가 처음부터 정확하고, 이후 입력 & 저장 & 조작 & Access & 삭제 과정이 올바르게 처리되도록 시행하는 모든 정책과 절차.

 

 


 

<참조 1> https://cloud.google.com/learn/what-is-a-data-lake?hl=ko

<참조 2> https://www.sap.com/korea/insights/what-is-data-governance.html

<참조 3> https://www.hpe.com/kr/ko/what-is/on-premises-vs-cloud.html

<참조 4> https://www.redhat.com/ko/topics/data-storage/what-is-a-data-lake

<참조 5>

 

 

'Programing > DB' 카테고리의 다른 글

[DB] Data Lake vs Data Warehouse 비교  (0) 2022.12.14
[DB] Data Warehouse  (0) 2022.12.13
[MySQL] Stored Program  (0) 2022.12.05
[DB] Data Set  (0) 2022.12.01

댓글