728x90
반응형
SMALL

비정형 데이터란?

형식이 정해지지 않은 데이터. 데이터는 형식이 정해진 정형 데이터(formal data)와 형식이 정해지지 않은 비정형 데이터가 있다. 페이스북, 트위터 등 소셜 네트워킹 서비스(SNS, 누리소통망 서비스)의 확산으로 데이터베이스에 잘 정리된 데이터가 아닌, 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터가 주를 이루고 있다.

[네이버 지식백과] 비정형 데이터 [informal data, 非定型-] (IT용어사전, 한국정보통신기술협회)


비정형 데이터 마이닝의 개념

비정형 데이터를 정련 과정을 통해 정형 데이터로 변환하고 분류, 군집화, 회귀분석, 이상탐지 등의 기법으로
유의미한 정보를 추출하는 기법


비정형 데이터 마이닝의 유형

유형 설명
텍스트 마이닝 자연어 처리 방식을 이용한 정보추출 기법으로 특정 키워드나 문맥을 기반으로 의미를 
추출하는 분석기법
오피니언 마이닝 소셜 미디어에서 긍정/부정/중립을 구분하여 선호도를 판별하는 기술로 분석 대상인
키워드로 빈도수를 측정하는 분석 기법
사회연결망 분석 소셜 네트워크 서비스에 내포된 사용자간의 관계를 분석하는 기법
군집 분석 변화가 많은 대상 집단을 일정한 군집으로 나눠 특성을 분석하고 타 집단과의 차리를 관측
하기 위한 분석기법



텍스트 마이닝 개념

개념 다양한 문서형태의 비정형 데이터를 가져와 문서의 단어별 행렬을 만들어 추가적인 분석이나 데이터
마이닝 기법을 적용하여 의사결정을 지원해주는 방법
기능 문서요약 (summarization) 문서의 내용을 추출하여 요약
문서분류 (classification) - 문서의 내용을 주어진 키워드에 따라 자동으로 구조화
  분류
- 지도학습
문서군집 (clustering) - 문서들을 분석하여 동일한 내용의 문서들을 묶는
  기법
- 자율학습`
특성추출 (feature extraction)

- 문서내 사용자가 원하는 정보, 특성을 자동으로 
  추출
- 메타데이터 추출

위에 표로 텍스트 마이닝에 대해서 정의를 했지만 그리 맘에 와닿지는 않는 설명이다.
대신 사례를 들어서 살펴보면 확실하게 개념이 잡힐것으로 기대한다.
이 텍스트 마이닝은 이미 여러 분아에서 많이 사용되고 있는 기법이다. 주로 광고,정치,관광 분아에서 많이 이 
기법을 사용해서 여러가지 정책이나 아이디어, 여론분석등에 사용하고 있다.

텍스트 마이닝

위 그림은 산업통상자원부의 7월 수출입 동향, 전력 공급 능력, 유통업체 매출 동향 등 3개의 뉴스의 키워드를 뽑아내
만든 그림이다.
. 뉴스에서 가장 많이 언급된 단어들을 빈도에 따라 크기를 달리해 표현하고 있는데
이 그림으로 20187월 한 달간 수출입 동향, 전력 수급, 반도체에 대한 내용이 산업부의 주요 쟁점이었다는 것을 알 수 있다. 이것이 바로 텍스트 마이닝이다. 

[출처] 빅데이터 기술의 숨은 조력자, 텍스트 마이닝|작성자 산소

이런 텍스트 마이닝을 수행할려면 당연히 주제에 해당하는 문서,기사,SNS 등의 Text 내용을 수집해야겠죠.
그런다음 이 Text의 내용을 정제하는 즉, 조사 같은걸 없앤다던지.. 특정 패턴을 제거한다던지..하는 전처리작업을
진행해야 한다.  그 다음에는 유사단어나 공통어간을 단어들을 통합하고 여기서 단어(word) 들을 뽑아내는
단계를 거치게 된다. 그리고 이 추출된 단어들간의 연관성분석(예, prioir분석) 등을 해서 최종 시각화작업을
통해 사용자에게 제공하게 된다.
아래 내용은 이러한 과정을 R을 기준으로 표로 다시 정리해봤다.


텍스트 마이닝의 기본 분석절차 (R 기준)

분석절차 기술요소 (R 사례) 설명
데이터 수집 HTML Parsing, API 분석에 사용 가능한 텍스트 데이터 수집
전처리 및 가공 Corpus 데이터 정제, 통합, 선택, 변환하는 구조화 작업 수행
데이터가 구조화된 단계로 더 이상의 절차 없이 데이터 마이닝
알고리즘에서 활용하는 상태
tm_map Corpus 데이터 전처리및 가공
(문장부호 제거, 특정 패턴 제거 및 대체)
Stop word 분석 시 의미없는 특정 단어(조사) 제거
자연어 처리 Stemming 공통 어간을 가지는 단어 통합
KoNLP 한글 텍스트 데이터에서 단어 추출
TDM 구축 Term Document Matrix 분석 대상의 문장, 단어를 열과 행의 매트릭스로 표현
Dictionary 분석할 단어를 별도의 매트릭스 사전으로 정의
분석 및 시각화 Assortion 특정 단어간 연관성 분석, Apriori 분석
워드 클라우드 메타 데이터에서 얻어진 단어들을 분석하여 중요도나 인기도등을
고러하여 시각적으로 웹사이트에 표시하는 방법
감성분석 단어의 긍정, 부정 여부에 따른 추이 분석, 오피니언 마이닝

[출처] 118회 정보관리기술사 기출문제풀이집 (117회어우림동기회)

728x90
반응형
LIST

+ Recent posts