728x90
반응형
SMALL

비정형 데이터란?

형식이 정해지지 않은 데이터. 데이터는 형식이 정해진 정형 데이터(formal data)와 형식이 정해지지 않은 비정형 데이터가 있다. 페이스북, 트위터 등 소셜 네트워킹 서비스(SNS, 누리소통망 서비스)의 확산으로 데이터베이스에 잘 정리된 데이터가 아닌, 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터가 주를 이루고 있다.

[네이버 지식백과] 비정형 데이터 [informal data, 非定型-] (IT용어사전, 한국정보통신기술협회)


비정형 데이터 마이닝의 개념

비정형 데이터를 정련 과정을 통해 정형 데이터로 변환하고 분류, 군집화, 회귀분석, 이상탐지 등의 기법으로
유의미한 정보를 추출하는 기법


비정형 데이터 마이닝의 유형

유형 설명
텍스트 마이닝 자연어 처리 방식을 이용한 정보추출 기법으로 특정 키워드나 문맥을 기반으로 의미를 
추출하는 분석기법
오피니언 마이닝 소셜 미디어에서 긍정/부정/중립을 구분하여 선호도를 판별하는 기술로 분석 대상인
키워드로 빈도수를 측정하는 분석 기법
사회연결망 분석 소셜 네트워크 서비스에 내포된 사용자간의 관계를 분석하는 기법
군집 분석 변화가 많은 대상 집단을 일정한 군집으로 나눠 특성을 분석하고 타 집단과의 지리를
관측하기 위한 분석기법



사회연결망 분석의 개념

  설명
개념 개인과 집단들 간의 관계를 노드와 링크로서 모델링해 그것의 위상구조와 확산 및 진화과정을
계량적으로 분석하는 기법
개념도


사회연결망 분석 표현 방법

구분 설명  
집합론적 방법 집합 X={X1} 관계 쌍 A,B 
A={(X1, X2), (X2, X1),(X4, X2),(X3, X1) }
B={(X1, X2), (X2, X1), (X3, X4),(X4, X3 }
각 객체들의 관계를 관계쌍으로 표시
그래프 이용방법
객체는 노드, 객체간 연결망은
선(Edgee)으로 표현
행렬 이용 방법
각 객체를 행렬의 행과 열에 대칭적
으로 배치



사회연결망 분석 기법

분석기법 유형 설명
중심성
(Centrality)
연결정도 중심성 
(Degree)
- 한도드에 직접적으로 연결된 노드 합으로 얻어진 중심성
- 노드가 중심에 위치하는 정도를 계량화
- 링크에 방향성이 있는 경우 in-degree (내향성), out_degree(외향성)
  로 분류

  𝐶′𝐷(𝑖)=𝐶𝐴(𝑖)/𝑛-1                   ,n:네트워크 내 전체 노드 수
근접(인접) 중심성
(closeness)
- 간접적으로 연결된 모든 노드 간 거리 합산한 지표

  𝐶′𝑐(𝑖)=(𝑛−1)𝐶𝑐(𝑖)
매개(사이) 중심성
(Betweeness)
- 매개자 혹은 중재자 역할의 정도를 측정한 지표

 𝐶′𝐵(𝑖)=𝐶𝐵(𝑖) / (n−1)(n−2)/2
위세 중심성
(Elgevector)
- 연결된 노드의 중요성에 가중치를 부여한 지표
밀도
(Density)
연결정도
(Degree)
- 한 노드와 직접적으로 연결된 노드들의 수
포괄성
(Inclusiveness)
- 한 연결망 내에 서로 연결된 행위자들의 수
- 한 연결망의 전체 노드수에 격리된 점들의 수를 제외하고 남은
  수로 계산
중심화(집중도)
(Centralization)
연결정도 (Degree)
근접, 중개 중심화
- 네트워크 전체 연결망의 형태가 중앙에 집중된 정도를 분석

 

728x90
반응형
LIST
728x90
반응형
SMALL

비정형 데이터란?

형식이 정해지지 않은 데이터. 데이터는 형식이 정해진 정형 데이터(formal data)와 형식이 정해지지 않은 비정형 데이터가 있다. 페이스북, 트위터 등 소셜 네트워킹 서비스(SNS, 누리소통망 서비스)의 확산으로 데이터베이스에 잘 정리된 데이터가 아닌, 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터가 주를 이루고 있다.

[네이버 지식백과] 비정형 데이터 [informal data, 非定型-] (IT용어사전, 한국정보통신기술협회)


비정형 데이터 마이닝의 개념

비정형 데이터를 정련 과정을 통해 정형 데이터로 변환하고 분류, 군집화, 회귀분석, 이상탐지 등의 기법으로
유의미한 정보를 추출하는 기법


비정형 데이터 마이닝의 유형

유형 설명
텍스트 마이닝 자연어 처리 방식을 이용한 정보추출 기법으로 특정 키워드나 문맥을 기반으로 의미를 
추출하는 분석기법
오피니언 마이닝 소셜 미디어에서 긍정/부정/중립을 구분하여 선호도를 판별하는 기술로 분석 대상인
키워드로 빈도수를 측정하는 분석 기법
사회연결망 분석 소셜 네트워크 서비스에 내포된 사용자간의 관계를 분석하는 기법
군집 분석 변화가 많은 대상 집단을 일정한 군집으로 나눠 특성을 분석하고 타 집단과의 차리를 관측
하기 위한 분석기법



텍스트 마이닝 개념

개념 다양한 문서형태의 비정형 데이터를 가져와 문서의 단어별 행렬을 만들어 추가적인 분석이나 데이터
마이닝 기법을 적용하여 의사결정을 지원해주는 방법
기능 문서요약 (summarization) 문서의 내용을 추출하여 요약
문서분류 (classification) - 문서의 내용을 주어진 키워드에 따라 자동으로 구조화
  분류
- 지도학습
문서군집 (clustering) - 문서들을 분석하여 동일한 내용의 문서들을 묶는
  기법
- 자율학습`
특성추출 (feature extraction)

- 문서내 사용자가 원하는 정보, 특성을 자동으로 
  추출
- 메타데이터 추출

위에 표로 텍스트 마이닝에 대해서 정의를 했지만 그리 맘에 와닿지는 않는 설명이다.
대신 사례를 들어서 살펴보면 확실하게 개념이 잡힐것으로 기대한다.
이 텍스트 마이닝은 이미 여러 분아에서 많이 사용되고 있는 기법이다. 주로 광고,정치,관광 분아에서 많이 이 
기법을 사용해서 여러가지 정책이나 아이디어, 여론분석등에 사용하고 있다.

텍스트 마이닝

위 그림은 산업통상자원부의 7월 수출입 동향, 전력 공급 능력, 유통업체 매출 동향 등 3개의 뉴스의 키워드를 뽑아내
만든 그림이다.
. 뉴스에서 가장 많이 언급된 단어들을 빈도에 따라 크기를 달리해 표현하고 있는데
이 그림으로 20187월 한 달간 수출입 동향, 전력 수급, 반도체에 대한 내용이 산업부의 주요 쟁점이었다는 것을 알 수 있다. 이것이 바로 텍스트 마이닝이다. 

[출처] 빅데이터 기술의 숨은 조력자, 텍스트 마이닝|작성자 산소

이런 텍스트 마이닝을 수행할려면 당연히 주제에 해당하는 문서,기사,SNS 등의 Text 내용을 수집해야겠죠.
그런다음 이 Text의 내용을 정제하는 즉, 조사 같은걸 없앤다던지.. 특정 패턴을 제거한다던지..하는 전처리작업을
진행해야 한다.  그 다음에는 유사단어나 공통어간을 단어들을 통합하고 여기서 단어(word) 들을 뽑아내는
단계를 거치게 된다. 그리고 이 추출된 단어들간의 연관성분석(예, prioir분석) 등을 해서 최종 시각화작업을
통해 사용자에게 제공하게 된다.
아래 내용은 이러한 과정을 R을 기준으로 표로 다시 정리해봤다.


텍스트 마이닝의 기본 분석절차 (R 기준)

분석절차 기술요소 (R 사례) 설명
데이터 수집 HTML Parsing, API 분석에 사용 가능한 텍스트 데이터 수집
전처리 및 가공 Corpus 데이터 정제, 통합, 선택, 변환하는 구조화 작업 수행
데이터가 구조화된 단계로 더 이상의 절차 없이 데이터 마이닝
알고리즘에서 활용하는 상태
tm_map Corpus 데이터 전처리및 가공
(문장부호 제거, 특정 패턴 제거 및 대체)
Stop word 분석 시 의미없는 특정 단어(조사) 제거
자연어 처리 Stemming 공통 어간을 가지는 단어 통합
KoNLP 한글 텍스트 데이터에서 단어 추출
TDM 구축 Term Document Matrix 분석 대상의 문장, 단어를 열과 행의 매트릭스로 표현
Dictionary 분석할 단어를 별도의 매트릭스 사전으로 정의
분석 및 시각화 Assortion 특정 단어간 연관성 분석, Apriori 분석
워드 클라우드 메타 데이터에서 얻어진 단어들을 분석하여 중요도나 인기도등을
고러하여 시각적으로 웹사이트에 표시하는 방법
감성분석 단어의 긍정, 부정 여부에 따른 추이 분석, 오피니언 마이닝

[출처] 118회 정보관리기술사 기출문제풀이집 (117회어우림동기회)

728x90
반응형
LIST
728x90
반응형
SMALL

빅데이터 분석을 위해서는 다양한 소스의 데이터를 수집, 저장, 분석, 표현, 활용할 수 있는
데이터 통합 아키텍처가 요구된다.
빅데이터 분석 플랫폼에서는 기존 데이터베이스에서 처리하고 있는 정형 데이터 보다는
처리가 불가능한 SNS 데이터같은 반정형, 비정형 데이터가 더 중요한 가치를 가지고 있기
때문에 이러한 Data Type을 저장,분석할수 있는 데이터 아키텍처가 필요로 한다.
 

빅데이터 분석을 위한 데이터 통합 아키텍처의 특징

1. 분석 관점 Bigdata Life Cycle 기반 아키텍처 소스-수집-저장-분석-표현의 모든
과정을 지원해야 함
2. 데이터 관점 Data Type의 다양성 지원 정형,비정형,반정형 등 다양한 Type의 데이터를 처리할 수 있어야 함
3. 인프라 구조관점 Scale-Out 구조 MPP (Massive Parallel Process) 방식의 분산 데이터 처리 가능 구조
- 확장성


빅데이터 분석 플랫폼의 통합 아키텍처 구성도

빅데이터 분석 플랫폼에 필요한 데이터 아키텍처 



빅데이터 분석 플랫폼의  핵심 기술

구분 기술요소 기술설명
원본 데이터 저장 대용량 분산 파일 저장
로그 기반 데이터 포함
Hadoop File System
MapReduce
구조적 데이터 저장 대용량 분산 데이터 저장소 NoSQL, HBase
Cassandra , MongoDB
데이터 마이닝 빅데이터 패턴 분석 및 고객 분석을 위한
알고리즘
군집화, 분류화
기계학습
데이터 분석 알고리즘 데이터 분석을 위한 세부기술 Clique 분석
Centrality  분석

 

Clique 분석

Clique cohesion 분석이란 네트워크(network)를 구성하는 점(node)들간의 결합력(Cohesion)을
바탕으로 해서 군집 구조를 파악하는 분석기법으로. 결합력(Cohesion)은 social network를
구성하는 점(node)들간의 강한(strong) 연결관계를 나타냅니다. Clique은 결합력을 가지는
최소 3개의 점(node)으로 구성되는 그룹(group)을 나타내며 모든 점(node)이 직접적으로
연결되어 있어야만 Clique이 성립됨. 그러므로 Clique은 정의상 완벽한 연관관계와 높은 밀도를
가지게 된다.

왼쪽에는 4개의 빨간색 노드로 이루어진 Clique 하나를 볼수 있다.
오른쪽 5개의 파란색 노도로 이루어진 Clique 하나를 볼수 있다.
Clique는 이 처럼 노드들이 서로 완벽하게 연결되어 있는 것을 말한다.


Centrality 분석

Centrality 란 '중심도' 라고 번역할 수 있는데 어떤 네트워크가 구성되었을 때 이 네트워크에서
가장 중요한 노드를 찾기 위한 일종의 metric 기법이라고 할수 있다.
Centrality분석(사회연결망분석) 은 한 Node가 네트워크에서 얼마나 중심에 위치하는지에 대한
정도를 측정하는 방법이다.다시말해 Node가 특정 Measure에 의해 가질 수 있는 Maxinum값과
현재 네트워크상에서가지는 값의 비율에 대한 분석을 뜻한다. 

1) degree Centrality - 노드별로 직접 연결된 edge의 weight 만을 고려한다. 즉 해당 노드가
                             직접 가진 영향력의 크기는 얼마인가를 측정하는 것을 말함.
2) closeness Centrality - 네트워크의 모든 노드로부터 얼마나 가깝게 위치해있는지를 고려하여
                                centrality를 계산한다.
3) betweenness centrality - 네트워크의 모든 노드 쌍 간의 shortest path가 해당 노드를 지나는지를
                                     고려한 centrality이다.

[출처] 11회 정보관리기술사 기출문제풀이집 (117회 정보관리기술사 모임 - 어울림)

728x90
반응형
LIST

+ Recent posts