본문 바로가기

DB16

[MySQL] Partition 예제 ==> PARTITION 할 때 Column 하나에만 Primary Key 를 걸면 Error 발생. ==> 모든 Column 을 Partition 해야함. CREATE TABLE sales ( sales_id INT, sales_date DATE, amount INT, PRIMARY KEY (sales_id, sales_date, amount) ) PARTITION BY RANGE(YEAR(sales_date)) ( PARTITION p_2015 VALUES LESS THAN (2016), PARTITION p_2016 VALUES LESS THAN (2017), PARTITION p_2017 VALUES LESS THAN (2018), PARTITION p_others VALUES LESS THAN .. 2023. 1. 30.
[DB] Hadoop (하둡) - (ChatGTP 피셜) 대량의 Data 를 Store 및 Process 하는 Software Framework. ==> Scalable(확장 가능)하게 설계되어 대량의 Data 와 User가 Crashing 하거나 느려지지 않게 처리함. - 대량의 Data 를 분산하고 Computing Cluster Node 전반에 걸친 분석 작업을 하여, Data 를 더 작은 Workload로 쪼갬으로써 Parallel 한 동작이 가능하게 함. - Hadoop User 는 높은 가용성 및 장애 시점 탕지 기능을 제공받으며, 상용 Resource를 훨씬 효율적으로 사용 가능. - Big-Data 를 최대로 활용하길 원하는 기업에서 많이 씀. 1) 확장성 - 기존 System 은 Data Storage 를 제한하지만,.. 2022. 12. 15.
[DB] Data Lake vs Data Warehouse 비교 - Big Data 를 위한 Storage Repository [Data Lake] - 딱히 Data Model 없음. 그냥 모든 Raw Data 끌어옴. - Data 수집 Time 에 지연이 없음. 어떤 조건이나 Filtering 이 없으므로. - 대규모 Data 용량이지만 상용 Hardware 를 자주 사용하기에, Data Warehouse 보다 Cost 가 저렴. [Data Warehouse] - Report(보고) 를 위해 설계된 구조적 Data Model 을 제공. - Data 를 Data Warehouse 에 저장하기 전, Data를 정제하는 Process는 시간이 오래 걸릴 수 있음(몇 개월~몇 년) ==> Data Lake 처럼 즉시 Data 수집 불가. - Data 저장 Cost가 상당할.. 2022. 12. 14.
[DB] Data Warehouse - 보다 Information 에 입각한 의사 결정을 내리도록 분석하게 하는 Information 중앙 저장소. - Data 는 Transaction System, 관계형 Database 등을 통해 정기적으로 DW (Data Warehouse) 에 들어감. - DW 는 Data 를 효율있게 저장하여 보고서&대시보드&분석도구 를 강화함. - Data I/O 를 최소화하고 수 만명이 될 수도 있는 User 에게 Query 를 동시에 빠르게 제공. - 대체로 월별 판매 보고서, 직역별 판매 내역, 웹사이트 Traffic 같은 Business 에서 주로 쓰이는 반복적 보고 및 분석 유형에 적합 - Information 에 기반한 의사 결정 - 여러 Source 의 Data 통합 - 과거 Data 분석 - Dat.. 2022. 12. 13.