비정형 데이터란?
형식이 정해지지 않은 데이터. 데이터는 형식이 정해진 정형 데이터(formal data)와 형식이 정해지지 않은 비정형 데이터가 있다. 페이스북, 트위터 등 소셜 네트워킹 서비스(SNS, 누리소통망 서비스)의 확산으로 데이터베이스에 잘 정리된 데이터가 아닌, 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터가 주를 이루고 있다.
[네이버 지식백과] 비정형 데이터 [informal data, 非定型-] (IT용어사전, 한국정보통신기술협회)
비정형 데이터 마이닝의 개념
비정형 데이터를 정련 과정을 통해 정형 데이터로 변환하고 분류, 군집화, 회귀분석, 이상탐지 등의 기법으로
유의미한 정보를 추출하는 기법
비정형 데이터 마이닝의 유형
유형 | 설명 |
텍스트 마이닝 | 자연어 처리 방식을 이용한 정보추출 기법으로 특정 키워드나 문맥을 기반으로 의미를 추출하는 분석기법 |
오피니언 마이닝 | 소셜 미디어에서 긍정/부정/중립을 구분하여 선호도를 판별하는 기술로 분석 대상인 키워드로 빈도수를 측정하는 분석 기법 |
사회연결망 분석 | 소셜 네트워크 서비스에 내포된 사용자간의 관계를 분석하는 기법 |
군집 분석 | 변화가 많은 대상 집단을 일정한 군집으로 나눠 특성을 분석하고 타 집단과의 차리를 관측 하기 위한 분석기법 |
텍스트 마이닝 개념
개념 | 다양한 문서형태의 비정형 데이터를 가져와 문서의 단어별 행렬을 만들어 추가적인 분석이나 데이터 마이닝 기법을 적용하여 의사결정을 지원해주는 방법 |
|
기능 | 문서요약 (summarization) | 문서의 내용을 추출하여 요약 |
문서분류 (classification) | - 문서의 내용을 주어진 키워드에 따라 자동으로 구조화 분류 - 지도학습 |
|
문서군집 (clustering) | - 문서들을 분석하여 동일한 내용의 문서들을 묶는 기법 - 자율학습` |
|
특성추출 (feature extraction) |
- 문서내 사용자가 원하는 정보, 특성을 자동으로 |
위에 표로 텍스트 마이닝에 대해서 정의를 했지만 그리 맘에 와닿지는 않는 설명이다.
대신 사례를 들어서 살펴보면 확실하게 개념이 잡힐것으로 기대한다.
이 텍스트 마이닝은 이미 여러 분아에서 많이 사용되고 있는 기법이다. 주로 광고,정치,관광 분아에서 많이 이
기법을 사용해서 여러가지 정책이나 아이디어, 여론분석등에 사용하고 있다.

위 그림은 산업통상자원부의 7월 수출입 동향, 전력 공급 능력, 유통업체 매출 동향 등 3개의 뉴스의 키워드를 뽑아내
만든 그림이다.. 뉴스에서 가장 많이 언급된 단어들을 빈도에 따라 크기를 달리해 표현하고 있는데
이 그림으로 2018년 7월 한 달간 수출입 동향, 전력 수급, 반도체에 대한 내용이 산업부의 주요 쟁점이었다는 것을 알 수 있다. 이것이 바로 텍스트 마이닝이다.
[출처] 빅데이터 기술의 숨은 조력자, 텍스트 마이닝|작성자 산소
이런 텍스트 마이닝을 수행할려면 당연히 주제에 해당하는 문서,기사,SNS 등의 Text 내용을 수집해야겠죠.
그런다음 이 Text의 내용을 정제하는 즉, 조사 같은걸 없앤다던지.. 특정 패턴을 제거한다던지..하는 전처리작업을
진행해야 한다. 그 다음에는 유사단어나 공통어간을 단어들을 통합하고 여기서 단어(word) 들을 뽑아내는
단계를 거치게 된다. 그리고 이 추출된 단어들간의 연관성분석(예, prioir분석) 등을 해서 최종 시각화작업을
통해 사용자에게 제공하게 된다.
아래 내용은 이러한 과정을 R을 기준으로 표로 다시 정리해봤다.
텍스트 마이닝의 기본 분석절차 (R 기준)
분석절차 | 기술요소 (R 사례) | 설명 |
데이터 수집 | HTML Parsing, API | 분석에 사용 가능한 텍스트 데이터 수집 |
전처리 및 가공 | Corpus | 데이터 정제, 통합, 선택, 변환하는 구조화 작업 수행 데이터가 구조화된 단계로 더 이상의 절차 없이 데이터 마이닝 알고리즘에서 활용하는 상태 |
tm_map | Corpus 데이터 전처리및 가공 (문장부호 제거, 특정 패턴 제거 및 대체) |
|
Stop word | 분석 시 의미없는 특정 단어(조사) 제거 | |
자연어 처리 | Stemming | 공통 어간을 가지는 단어 통합 |
KoNLP | 한글 텍스트 데이터에서 단어 추출 | |
TDM 구축 | Term Document Matrix | 분석 대상의 문장, 단어를 열과 행의 매트릭스로 표현 |
Dictionary | 분석할 단어를 별도의 매트릭스 사전으로 정의 | |
분석 및 시각화 | Assortion | 특정 단어간 연관성 분석, Apriori 분석 |
워드 클라우드 | 메타 데이터에서 얻어진 단어들을 분석하여 중요도나 인기도등을 고러하여 시각적으로 웹사이트에 표시하는 방법 |
|
감성분석 | 단어의 긍정, 부정 여부에 따른 추이 분석, 오피니언 마이닝 |
[출처] 118회 정보관리기술사 기출문제풀이집 (117회어우림동기회)
'디지털서비스' 카테고리의 다른 글
스마트 그리드 (Smart Grid) (0) | 2019.12.14 |
---|---|
비정형 데이터 마이닝 - 사회연결망 분석 (0) | 2019.12.03 |
클라우드 (Cloud) 컴퓨팅의 정의 및 필요성 (0) | 2019.11.16 |
멀티 모달 인터페이스 (Multi Modal Inferface) (0) | 2019.11.08 |
시맨틱웹(Semantic Web) 구축을 위한 Linked Open Data (LOD) :2탄 (0) | 2019.10.27 |