728x90
반응형
SMALL

빅데이터 분석을 위해서는 다양한 소스의 데이터를 수집, 저장, 분석, 표현, 활용할 수 있는
데이터 통합 아키텍처가 요구된다.
빅데이터 분석 플랫폼에서는 기존 데이터베이스에서 처리하고 있는 정형 데이터 보다는
처리가 불가능한 SNS 데이터같은 반정형, 비정형 데이터가 더 중요한 가치를 가지고 있기
때문에 이러한 Data Type을 저장,분석할수 있는 데이터 아키텍처가 필요로 한다.
 

빅데이터 분석을 위한 데이터 통합 아키텍처의 특징

1. 분석 관점 Bigdata Life Cycle 기반 아키텍처 소스-수집-저장-분석-표현의 모든
과정을 지원해야 함
2. 데이터 관점 Data Type의 다양성 지원 정형,비정형,반정형 등 다양한 Type의 데이터를 처리할 수 있어야 함
3. 인프라 구조관점 Scale-Out 구조 MPP (Massive Parallel Process) 방식의 분산 데이터 처리 가능 구조
- 확장성


빅데이터 분석 플랫폼의 통합 아키텍처 구성도

빅데이터 분석 플랫폼에 필요한 데이터 아키텍처 



빅데이터 분석 플랫폼의  핵심 기술

구분 기술요소 기술설명
원본 데이터 저장 대용량 분산 파일 저장
로그 기반 데이터 포함
Hadoop File System
MapReduce
구조적 데이터 저장 대용량 분산 데이터 저장소 NoSQL, HBase
Cassandra , MongoDB
데이터 마이닝 빅데이터 패턴 분석 및 고객 분석을 위한
알고리즘
군집화, 분류화
기계학습
데이터 분석 알고리즘 데이터 분석을 위한 세부기술 Clique 분석
Centrality  분석

 

Clique 분석

Clique cohesion 분석이란 네트워크(network)를 구성하는 점(node)들간의 결합력(Cohesion)을
바탕으로 해서 군집 구조를 파악하는 분석기법으로. 결합력(Cohesion)은 social network를
구성하는 점(node)들간의 강한(strong) 연결관계를 나타냅니다. Clique은 결합력을 가지는
최소 3개의 점(node)으로 구성되는 그룹(group)을 나타내며 모든 점(node)이 직접적으로
연결되어 있어야만 Clique이 성립됨. 그러므로 Clique은 정의상 완벽한 연관관계와 높은 밀도를
가지게 된다.

왼쪽에는 4개의 빨간색 노드로 이루어진 Clique 하나를 볼수 있다.
오른쪽 5개의 파란색 노도로 이루어진 Clique 하나를 볼수 있다.
Clique는 이 처럼 노드들이 서로 완벽하게 연결되어 있는 것을 말한다.


Centrality 분석

Centrality 란 '중심도' 라고 번역할 수 있는데 어떤 네트워크가 구성되었을 때 이 네트워크에서
가장 중요한 노드를 찾기 위한 일종의 metric 기법이라고 할수 있다.
Centrality분석(사회연결망분석) 은 한 Node가 네트워크에서 얼마나 중심에 위치하는지에 대한
정도를 측정하는 방법이다.다시말해 Node가 특정 Measure에 의해 가질 수 있는 Maxinum값과
현재 네트워크상에서가지는 값의 비율에 대한 분석을 뜻한다. 

1) degree Centrality - 노드별로 직접 연결된 edge의 weight 만을 고려한다. 즉 해당 노드가
                             직접 가진 영향력의 크기는 얼마인가를 측정하는 것을 말함.
2) closeness Centrality - 네트워크의 모든 노드로부터 얼마나 가깝게 위치해있는지를 고려하여
                                centrality를 계산한다.
3) betweenness centrality - 네트워크의 모든 노드 쌍 간의 shortest path가 해당 노드를 지나는지를
                                     고려한 centrality이다.

[출처] 11회 정보관리기술사 기출문제풀이집 (117회 정보관리기술사 모임 - 어울림)

728x90
반응형
LIST

+ Recent posts