▶ Data Lake의 탄생 배경 - DW의 한계
거의 모든 기업은 정보시스템을 구축해서 사용하고 있으며 이 정보시스템을 통해 많은
데이터가 생성되고,저장되고,가공되고,분석되고,보고되어 지고 있다.
이 단계중에서 데이터를 분석하는 부분의 기업의 의사결정에 중요한 기준자료가 되기
때문에 많은 기업들이 이 데이터를 분석하기 위한 솔루션 구축에 많은 투자를 하고 있고
대표적으로 DW (Data Warehouse) 를 많이 사용하고 있다.
DW는 기업의 정보시스템(기간계,지원계,채널계..)으로 부터 생성된 데이터 중 분석가치가
있는 데이터를 주제별로 분류해서 ETL을 통해서 수집하고 이 데이터를 정형화해서
데이터 마트(Data Mart)에 쌓아 놓은 후 각종 분석 View Tool (OLAP,SQL)을 이용해서
정형화되고 시각화된 데이터를 (Dashboard 같은) 의사결정자에게 제공을 하고 있다.
하지만 DW를 사용해보신 분은 느끼시겠지만 DW를 사용하기 위해서는 다양한 데이터를
그대로 사용하지 못하고 데이터 마트(Data Mart) 라는 규격화된 그릇에 담을 수 있도록
데이터를 가공,편집하는 정형화 작업이 선행되어야 한다. 이 작업이 만만치 않은 작업이다.
또한 먼가 새로운 항목을 추가하는 등 모델을 변경하는 것은 상당한 어려운 작업이 된다.
그리고 제일 DW의 약점이라고 하면 바로 비정형 데이터를 처리할 수 없다는 것이다.
요즘 정보의 형태는 과거 정형적인 데이터에서 비정형 데이터 즉 SNS, 블로그 포스팅, 제품리뷰
,스트리밍, 디바이스 로그 등 과 같은 형태의 데이터가 더 가치를 가진 정보로 각광받고 있는 시대로 변하고
있다. DW에서는 이러한 비정형 데이터를 처리하는 데 한계가 있다.
이러한 DW의 정보분석의 한계를 극복하고자 나온 것이 바로 "Data Lake" 이다.
▶ Data Lake의 정의 - 잔잔한 호수
Data Lake는 다양한 원천 데이터를 통합된 단일 형식으로 만들어서 저장하는(Schema-on-write)
DW와는 다르게 원천 데이터를 그대로 원래 형식으로 저장을 하고 나중에 읽을 때 (Schema-on-read)
쉽게 분석할 수 있도록 하는 대규모 저장소의 개념이다 .
이 Data Lake 개념을 처음 제안한 사람은 데이비드 바틀렛 이라는 GE 직원이었는데 그는 평소
생물학에 관심이 있어 호수(Lake) 를 보면 잔잔해 보이지만 수면 밑으로는 여러 다양한 생물들과
그들의 상호작용으로 생태계가 유지된다는 측면에서 Data Lake 라는 용어를 사용했다고 한다.
낚시에 비유해 보면 DW는 규격화 되어 있는 양식장에서 양식 광어를 낚는 방식이고, Data Lake
호수에서 바로 물고기를 낚는 거라고 할 수 있다.
▶ Data Lake의 처리방식
Data Lake 에서는 비정형데이터 , 즉 SNS나 로그 같은 데이터를 독립적으로 나누고 다시 취합하는
기법을 사용하는데 보통 이때 사용하는 기술로 하둡(Hadoop) 과 같은 맵리듀스(Map Reduce) 방식의
분산처리기법이다. 독립적으로 나눈 데이터를 하둡분산파일시스템(HDFS)을 통해 분산 서버에
저장하고 , 맵리듀스를 통해 각각의 분산서버에서 병렬처리한다.
▶ Data Lake 의 구성도
구성요소 | 세부설명 | 요소기술 |
Data Source (생성) | 정형/비정형/반정형 Raw Data | |
Ingestion Layer (수집) | Raw Data를 웹서버,파일서버,IoT 이용한 스토리지 수집 |
Database, WebServer,FTP IoT, Storage |
Caching Layer (저장) | 수집된 데이터를 저장 | SQL, NoSQL, Elastic Search |
Processing Layer (처리) | 알고리즘 수행, 요구사항 전처리 | HDFS |
Insight Layer (통찰,활용) | 시스템 모니터링, BI, 평가 | Data Discovery, Data Dashboard |
<출처 : 181회 정보관리기술사 동기화 : 두드림 >
▶ Data Lake 의 장점
1) 데이터의 구조화여부에 상관없이 활용할 수 있다.
2) 원시 Raw Data를 저장할 수 있으며 이 데이터는 작업자의 이해와 Insight Improves (통찰력) 에 의해
재정의 될 수 있다.
3) 물리적으로 분산되어 저장되어 있는 대용량의 Raw Data 를 분석할 수 있다.
4) 유지보수 비용이 적게 든다
▶ Data Lake 와 DW 의 비교
구분 | DW (Data Warehouse) | Date Lake |
스키마 | Schema-on-write 저장시에 규격에 맞게 저장하는 방식 |
Schema-on-read 저장은 Raw Data 를 그대로 저장하고 읽을 때 분석하는 방식 |
접근방법 | 표준화된 SQL이나 BI 를 통해 접근 | SQL, 개발된 프로그램, 빅데이터 분석 Tool 등을 통해서 접근 |
데이터 | Cleansed | Raw and refined |
데이터 복잡성 | 복잡한 통합 (Complex Integration) | 복잡한 처리 (Complex Processing) |
비용 | 높다 | 낮다 |
데이터 유형 | 정형, 구조적 데이터 | 정형, 비정형, 반정형 |
'디지털서비스' 카테고리의 다른 글
R 과 Python 의 비교 (0) | 2019.09.25 |
---|---|
머클트리(Merkle Tree) (0) | 2019.09.19 |
망중립성 (Network Neutrality) (0) | 2019.09.08 |
DID (Decentralized Identifiers) - 탈중앙화 신원확인시스템, 분산ID (0) | 2019.09.07 |
제로레이팅 (Zero Rating) (0) | 2019.09.06 |