728x90
반응형
SMALL

OLTP (On-Line Transaction Processing)

OLTP는 일반적인 IT시스템의 처리 형태로서 사용자가 터미널(단말기)에서 어떤 Action을 하면 
거기에 바로 프로그램이 반응을 보이는 형태라고 할수 있다. 예를 들어 고객이 회원가입 페이지에서
회원정보를 입력한호 저장을 누르면 바로 시스템은 고객이 입력한 정보를 가지고 유효성 체크를
해서 Database에 저장하고 고객에게 회원가입이 완료되었다는 feedback을 바로 주는 프로세스를
말한다.  

OLAP (On-Line Analytical Processing)

반면 OLAP는 고객에게 제공하기보다는 회사에서 OLTP를 통해 저장된 Database의 내용을 다차원적으로 
분석하고자 스냅샵 형식으로 Database의 데이터를 가지고 와서 정제와 가공과정을 거쳐서 마트(Data Mart)에
담아놓고 이를 통해 회사 관리자에게 분석View를 제공하는 프로세스 라고 할수 있다.
보통 SAP BI 같은 DW 솔루션을 많이 이용한다.


OLTP 와 OLAP의 기능적 비교

구분 OLTP OLAP
개념


- Transactioni 중심으로 거래 데이터의 정확한
  처리 기능 제공이 중요


- 요청된 조건에 맞는 대용량 데이터를
  검색하여 다양한 View 제공이 중요

기능원리 - 트랜재션 ACID 준수
(Atomicity, Consistency, Isolation, Durability)
- 중복과 집계, 소트, 차원별 그룹
사용목적 - 단일 Transaction 데이터 저장
- 데이터의 무결성 유지
- 대용량 데이터 조회
- 각 차원별 다양한 View 제공
- 시계열 분석
주요기능 - Insert, Upate, Commit, Rollback - Drill Down/Up, Pivot, Slice, Dice
구현기술 -TP-Monitor , CS , EJB, ODBC - MOLAP, ROLAP, DOLAP

* MOLAP : Multidimensional OLAP / 다차원 OLAP
* ROLAP : Relational OLAP / 관계형 OLAP
* DOLAP : Desktop OLAP / 다차원 데이터 저장 및 프로세싱이 모두 클라이언트에서 이루어지는 OLAP


OLTP 와 OLAP의 데이터 측면 비교

구분 OLTP OLAP
데이터 구조 - 정규화를 통한 데이터 중복성을 최소화 중복 및 집계성 컬럼을 생성
데이터 마트
데이터 모델 ER모델 스타스키마, 스노우 플랙, ER모델
데이터 목적 데이터의 무결성 유지 시계열분석, 그룹분석, 실적집계, 의사결정
데이터 보호 Repeatable Read 레벨
Locking, 병행처리
Read Only
데이터 접근 응용프로그램을 통한 접근
사용자가 직접 접근

 

728x90
반응형
LIST

'IT경영' 카테고리의 다른 글

기술평가  (0) 2019.12.21
CRM 솔루션 소개  (0) 2019.12.05
프로세스 마이닝 (Process Mining) (2/2)  (0) 2019.11.15
프로세스 마이닝 (Process Mining) (1/2)  (0) 2019.11.14
SLM (Service Level Management) 프레임워크  (0) 2019.11.02
728x90
반응형
SMALL

▶ Data Lake의 탄생 배경 - DW의 한계

거의 모든 기업은 정보시스템을 구축해서 사용하고 있으며 이 정보시스템을 통해 많은
데이터가 생성되고,저장되고,가공되고,분석되고,보고되어 지고 있다. 
이 단계중에서 데이터를 분석하는 부분의 기업의 의사결정에 중요한 기준자료가 되기
때문에 많은 기업들이 이 데이터를 분석하기 위한 솔루션 구축에 많은 투자를 하고 있고
대표적으로 DW (Data Warehouse) 를 많이 사용하고 있다.
DW는 기업의 정보시스템(기간계,지원계,채널계..)으로 부터 생성된 데이터 중 분석가치가
있는 데이터를 주제별로 분류해서 ETL을 통해서 수집하고 이 데이터를 정형화해서
데이터 마트(Data Mart)에 쌓아 놓은 후 각종 분석 View Tool (OLAP,SQL)을 이용해서
정형화되고 시각화된 데이터를 (Dashboard 같은) 의사결정자에게 제공을 하고 있다.
하지만 DW를 사용해보신 분은 느끼시겠지만 DW를 사용하기 위해서는 다양한 데이터를 
그대로 사용하지 못하고 데이터 마트(Data Mart) 라는 규격화된 그릇에 담을 수 있도록
데이터를 가공,편집하는 정형화 작업이 선행되어야 한다. 이 작업이 만만치 않은 작업이다.
또한 먼가 새로운 항목을 추가하는 등 모델을 변경하는 것은 상당한 어려운 작업이 된다.
그리고 제일 DW의 약점이라고 하면 바로 비정형 데이터를 처리할 수 없다는 것이다.
요즘 정보의 형태는 과거 정형적인 데이터에서 비정형 데이터 즉 SNS, 블로그 포스팅, 제품리뷰
,스트리밍, 디바이스 로그 등 과 같은 형태의 데이터가 더 가치를 가진 정보로 각광받고 있는 시대로 변하고
있다.  DW에서는 이러한 비정형 데이터를 처리하는 데 한계가 있다.

이러한 DW의 정보분석의 한계를 극복하고자 나온 것이 바로 "Data Lake" 이다.

 Data Lake의 정의 - 잔잔한 호수

Data Lake는 다양한 원천 데이터를 통합된 단일 형식으로 만들어서 저장하는(Schema-on-write)
DW와는 다르게 원천 데이터를 그대로 원래 형식으로 저장을 하고 나중에 읽을 때 (Schema-on-read)
쉽게 분석할 수 있도록 하는 대규모 저장소의 개념이다 . 
이 Data Lake 개념을 처음 제안한 사람은 데이비드 바틀렛 이라는 GE 직원이었는데 그는 평소
생물학에 관심이 있어 호수(Lake) 를 보면 잔잔해 보이지만 수면 밑으로는 여러 다양한 생물들과
그들의 상호작용으로 생태계가 유지된다는 측면에서 Data Lake 라는 용어를 사용했다고 한다.
낚시에 비유해 보면 DW는 규격화 되어 있는 양식장에서 양식 광어를 낚는 방식이고, Data Lake
호수에서 바로 물고기를 낚는 거라고 할 수 있다.

 Data Lake의 처리방식

Data Lake 에서는 비정형데이터 , 즉 SNS나 로그 같은 데이터를 독립적으로 나누고 다시 취합하는
기법을 사용하는데 보통 이때 사용하는 기술로  하둡(Hadoop) 과 같은 맵리듀스(Map Reduce)  방식의
분산처리기법이다.  독립적으로 나눈 데이터를 하둡분산파일시스템(HDFS)을 통해 분산 서버에
저장하고 , 맵리듀스를 통해 각각의 분산서버에서 병렬처리한다.

 Data Lake 의 구성도

<출처 : 181회 정보관리기술사 모임 : 두드림>

구성요소 세부설명 요소기술
Data Source (생성) 정형/비정형/반정형 Raw  Data  
Ingestion Layer (수집) Raw Data를 웹서버,파일서버,IoT 이용한
스토리지 수집
Database, WebServer,FTP
IoT, Storage
Caching Layer (저장) 수집된 데이터를 저장 SQL, NoSQL, Elastic Search
Processing Layer (처리) 알고리즘 수행, 요구사항 전처리  HDFS
Insight Layer (통찰,활용) 시스템 모니터링, BI, 평가 Data Discovery, Data Dashboard

                                  <출처 : 181회 정보관리기술사 동기화 : 두드림 >

▶ Data Lake  의 장점

1) 데이터의 구조화여부에 상관없이 활용할 수 있다. 
2) 원시 Raw Data를 저장할 수 있으며 이 데이터는 작업자의 이해와 Insight Improves (통찰력) 에 의해
    재정의 될 수 있다.
3) 물리적으로 분산되어 저장되어 있는 대용량의 Raw Data 를 분석할 수 있다.
4) 유지보수 비용이 적게 든다

▶ Data Lake 와 DW 의 비교

구분 DW (Data Warehouse) Date Lake
스키마 Schema-on-write
저장시에 규격에 맞게 저장하는 방식
Schema-on-read
저장은 Raw Data 를 그대로 저장하고
읽을 때 분석하는 방식
접근방법 표준화된 SQL이나 BI 를 통해 접근 SQL, 개발된 프로그램, 빅데이터 분석 Tool 등을 통해서 접근
데이터 Cleansed Raw and refined 
데이터 복잡성 복잡한 통합 (Complex Integration) 복잡한 처리 (Complex Processing)
비용 높다 낮다
데이터 유형 정형, 구조적 데이터  정형, 비정형, 반정형

 

728x90
반응형
LIST

+ Recent posts