728x90
반응형
SMALL

빅데이터 분석을 위해서는 다양한 소스의 데이터를 수집, 저장, 분석, 표현, 활용할 수 있는
데이터 통합 아키텍처가 요구된다.
빅데이터 분석 플랫폼에서는 기존 데이터베이스에서 처리하고 있는 정형 데이터 보다는
처리가 불가능한 SNS 데이터같은 반정형, 비정형 데이터가 더 중요한 가치를 가지고 있기
때문에 이러한 Data Type을 저장,분석할수 있는 데이터 아키텍처가 필요로 한다.
 

빅데이터 분석을 위한 데이터 통합 아키텍처의 특징

1. 분석 관점 Bigdata Life Cycle 기반 아키텍처 소스-수집-저장-분석-표현의 모든
과정을 지원해야 함
2. 데이터 관점 Data Type의 다양성 지원 정형,비정형,반정형 등 다양한 Type의 데이터를 처리할 수 있어야 함
3. 인프라 구조관점 Scale-Out 구조 MPP (Massive Parallel Process) 방식의 분산 데이터 처리 가능 구조
- 확장성


빅데이터 분석 플랫폼의 통합 아키텍처 구성도

빅데이터 분석 플랫폼에 필요한 데이터 아키텍처 



빅데이터 분석 플랫폼의  핵심 기술

구분 기술요소 기술설명
원본 데이터 저장 대용량 분산 파일 저장
로그 기반 데이터 포함
Hadoop File System
MapReduce
구조적 데이터 저장 대용량 분산 데이터 저장소 NoSQL, HBase
Cassandra , MongoDB
데이터 마이닝 빅데이터 패턴 분석 및 고객 분석을 위한
알고리즘
군집화, 분류화
기계학습
데이터 분석 알고리즘 데이터 분석을 위한 세부기술 Clique 분석
Centrality  분석

 

Clique 분석

Clique cohesion 분석이란 네트워크(network)를 구성하는 점(node)들간의 결합력(Cohesion)을
바탕으로 해서 군집 구조를 파악하는 분석기법으로. 결합력(Cohesion)은 social network를
구성하는 점(node)들간의 강한(strong) 연결관계를 나타냅니다. Clique은 결합력을 가지는
최소 3개의 점(node)으로 구성되는 그룹(group)을 나타내며 모든 점(node)이 직접적으로
연결되어 있어야만 Clique이 성립됨. 그러므로 Clique은 정의상 완벽한 연관관계와 높은 밀도를
가지게 된다.

왼쪽에는 4개의 빨간색 노드로 이루어진 Clique 하나를 볼수 있다.
오른쪽 5개의 파란색 노도로 이루어진 Clique 하나를 볼수 있다.
Clique는 이 처럼 노드들이 서로 완벽하게 연결되어 있는 것을 말한다.


Centrality 분석

Centrality 란 '중심도' 라고 번역할 수 있는데 어떤 네트워크가 구성되었을 때 이 네트워크에서
가장 중요한 노드를 찾기 위한 일종의 metric 기법이라고 할수 있다.
Centrality분석(사회연결망분석) 은 한 Node가 네트워크에서 얼마나 중심에 위치하는지에 대한
정도를 측정하는 방법이다.다시말해 Node가 특정 Measure에 의해 가질 수 있는 Maxinum값과
현재 네트워크상에서가지는 값의 비율에 대한 분석을 뜻한다. 

1) degree Centrality - 노드별로 직접 연결된 edge의 weight 만을 고려한다. 즉 해당 노드가
                             직접 가진 영향력의 크기는 얼마인가를 측정하는 것을 말함.
2) closeness Centrality - 네트워크의 모든 노드로부터 얼마나 가깝게 위치해있는지를 고려하여
                                centrality를 계산한다.
3) betweenness centrality - 네트워크의 모든 노드 쌍 간의 shortest path가 해당 노드를 지나는지를
                                     고려한 centrality이다.

[출처] 11회 정보관리기술사 기출문제풀이집 (117회 정보관리기술사 모임 - 어울림)

728x90
반응형
LIST
728x90
반응형
SMALL

오픈소스 DB의 바람

현재 데이터베이스의 시장은 전통적인 강자인 Oracle , SQL Server 가 시장 점유율에서 높은 자리를 
차지하고 있다는 건 누구나 아는 사실이다. 
하지만 데이터베이스 시장에 '탈 오라클'을 앞세운 오픈소스 기반의 데이터베이스가 바람을 일을키고
있다. 
최근 마리아DB와 몽고DB 등 인기 오픈소스 DB는 한국 지사를 세워 본격적인 시장 공략에 나섰으며,
아마존웹서비스(AWS)와 구글 등 클라우드 서비스 업체들은 오픈소스 및 이를 기반으로 한 자체 DB
서비스를 강화하는 추세다. 구글 클라우드는 최근 기자간담회를 개최하고, 내년 초 국내에 데이터센터가
들어서면 본격적인 클라우드 DB 서비스 확대를 예상했다.
여기에 큐브리드, 알티베이스와 같은 국내 오픈소스 DB업체까지 가세하며 그야말로 오픈소스 DB의
춘추전국시대를 맞이했다는 평가다. 물론 전세계 DBMS 시장의 60% 이상을 차지하는 오라클의
벽을 깨긴 쉽지 않지만, 점차 오라클의 틈새를 파고들고 있다는 평가다.

데이터베이스 순위

순위 데이터베이스
1 Oracle
2 My SQL
3 SQL Server
4 PostgreSQL
5 몽고 DB
6 IBM DB2
13 마리아 DB

                 DB엔진닷컴 2019년 10월 순위


외산 오픈소스 DB

  몽고 DB 마리아 DB
특징 문서(도큐먼트) 기반으로 NoSQL DB로 클라우드 환경에서 이용할 수 있는 ‘아틀라스’ DB도 제공하는 것이 특징이다. 마이SQL을 개발한 몬티 와이드니어스가 오라클의 마이SQL인수에 반발해 만든 오픈소스 DBMS다
죽, 마이SQL 사용자가 DBMS를 마리아DB로 바꿔도 애플리케이션을 수정할 필요가 없다
트랜잭션 워크로드(OLTP)와 분석 워크로드(OLAP)를 동시에 수행할 수 있는 기능을 제공하는 것이 특징이다
현황 지난해 7월 국내 지사를 설립한 몽고DB의 경우, 9월 국내 첫 사용자 컨퍼런스인 ‘몽고DB 로컬 서울’을 개최하며 적극적인 기술 지원을 약속했다. 몽고DB는 현재 2500만명의 개발자가 이용 중이며, 제품 다운로드 수도 7000만건에 달한다 지난 9월 국내에서 열린 기자간담회에서 마리아DB 측은 “삼성SDS 자회사인 에스코어를 통해 삼성그룹의 그룹웨어 ‘녹스 포탈’에 마리아DB가 20% 이상 사용되고 있다”며 “원래 녹스 포탈은 오라클 DB 기반이지만, 마리아DB 사용 비중이 점차 확대되고 있다”고 설명했다
레퍼런스 네이버와 라인, 카카오, NHN 등 140여개 삼성전자와 삼성SDS, SK텔레콤, 현대·기아차 등 200여 곳


국산 오픈소스 DB

국내 대표 오픈소스DB인 ‘큐브리드’도 최근 공공, 국방분야에서 독보적인 존재감을 드러내고 있다.
지난 2008년 오픈소스로 전환한 큐브리드는 최근 미국 IT솔루션 리뷰업체(굿펌즈)에서 선정한
‘오픈소스 DB 관리 소프트웨어 10선’에 선정되기도 했다.


클라우드 업체의 DB 공세

  AWS(아마존웹서비스) 구글 클라우드
현황 아마존 오로라와 다이나모DB, 레드시프트 등 특정 애플리케이션 활용에 특화된 다양한 DB서비스를 제공하고 있다. 이미 삼성전자와 LG전자, SK, 아모레퍼시픽 등 국내 주요 대기업이 AWS DB서비스를 활용 중이다 클라우드 메모리스토어, 클라우드 빅테이블, 클라우드 스패너, 빅쿼리 등 6가지의 완전 관리형 DB서비스를 제공하고 있다. 또, 레디스, 몽고DB, 엘라스틱, 데이터스택스, 네오4j 등 7개 오픈소스DB를 구글 클라우드 콘솔에서 직접 제공한다



<출처 : 디지털데일리 : https://n.news.naver.com/article/138/0002078070 >

728x90
반응형
LIST

+ Recent posts