728x90
반응형
SMALL

Apriori 알고리즘을 이용한 연관규칙 도출방법을 보면 빈발항목중에서 후보집합을 선정하는 기준으로
지지도(Support) 를 사용한다.  이처럼 연관규칙분석을 할ㅣ때 후보집합을 결정하려면 먼가 후보선정/탈락
측정기준이 있어야 하는데..주로 쓰이는게 3가지 기준이 있다.

측정기준 설명 수식
지지도
(Support)
전체 거래중에서 품목 A와 B가 동시에 포함된 거래의 수
예) 마트에서 고객이 구매한 거래내역중에서 빵과,우유를 동시에
     구매한 거래 건수

                    우유,빵 모두 포함된 거래 (A∩B)
    Support =  -----------------------------------
                              전체 거래수(N)
                 A∩B 
A∩B / N = ------
                   N
신뢰도
(Confidence)
품목 A가 구매되었을 때 품목 B가 추가로 구매될 확률
(조건부 확률)

                        우유,빵 모두 포함된 거래 (A∩B)
   Confidence =   ----------------------------------
                             우유가 포함된 거래수 (A)
                 A∩B 
A∩B / A = ------
                   A
향상도
(Lift
/Improvement)
품목 A를 구매할 때 B도 구매하는지 서로 간의 연관성을
파악하는 비율

                             우유.빵 모두 포함된 거래수
                           --------------------------------
                                       전체거래수
Lift  =  -------------------------------------------------------- 
             우유가 포함된 거래수            빵이 포함된 거래수
             ----------------------    X   ----------------------
                 전체거래수                        전체거래수
 
           우유.빵 모두 포함된 거래수 x 전체거래수       
      =   --------------------------------------------- 
           우유가 포함된 거래수 x 빵이 포함된 거래수     

            A∩B x N
      =  -------------
              A x B 


                           > 1 이면 양의 상관관계
                           = 1 이면  독릭접인 관계
                          < 1  이면  음의 상관관계
         A∩B x N
       ------------
           A x B 


예제

문제) 우유와 빵을 함께 구매한 거래가 10%이고,우유를 구매한 거래의 20%가 빵도 구입했을 때
        우유->빵의 상관관계는 ?  (전체거래중 빵을 구입한 거래는 10%이다)

(풀이) 상관관계란 향상도를 뜻한다.  향상도가 > 1 이면 양의 상관관계이다.
         만약 전체거래(N) = 10 이라고 가정하면

         지지도 = 10% = 1/10                즉 우유,빵 함께 구매한 거래가 1건
         신뢰도 = 20% = 1/우유 구매수   즉 우유 구매수 = 5 건
         빵구입이 10% 이므로               즉 빵 구매수 =  1건

                            우유.빵 거래수 X N           1 x 10
          향상도     -------------------------    = --------  =  2
                           우유거래수 x 빵거래수        5 x 1 


Apriori  알고리즘 설명

Apriori알고리즘은 지지도를 이용해서 연관규칙을 찾는 기법중에 하나이다.
  - 연관규칙를 찾아주는 알고리즘 중에서 가장 먼저 개발되었고, 또 가장 많이 사용된다.
  - 연관성규칙의 첫 번째 단계는 항목들 간의 연관성을 나타내기 위한 후보가 되는 
     모든 규칙들을 생성
  - 구매 데이터베이스 내에서 단일 항목들, 2개로 된 항목들, 3개로 된 항목들. 기타 등등의
     모든 조합을 발견
  - 그러나 항목들이 늘어나면 이러한 모든 조합들을 생성하기 위한 계산시간은 기하급수적으로
    증가함.
  - 데이터베이스 내에서 높은 빈도를 갖는 조합 (빈발 항목집합 : Frequent item sets) 을
    찾아내는 것
  - 빈발 항목집합 결정 도구 :지지도(Support)

<출처 : https://www.youtube.com/watch?v=mxXCBFwRGPk >

 위 그림에서 ID 101,102...  가 고객번호라고 생각하고 그 고객이 구매한 상품들이  items 이라고 하자.
[1단계]  단일항목 즉 단일항목 기준으로 해서 구매 빈도수(sup/지지도)를 구해보면 A 항목은 101, 103 고객이 
           구매했으니깐  2 이고, B항목은 3, C항목도 3 ... 이런식으로 구매된 횟수를 카운트 한 결과가  C1 이다. 
           이때 기준 횟수를 2 즉 구매횟수가 2미만인 항목은 제외를 한다 라는 기준을 세운다. (최소 지지도)
           이 기준에 의하면 C1 테이블에서 제외할 항목은 구매횟수가 1인  D 항목이고 D 항목을 제외한 새로운 
           후보집합 L1 을 도출할 수 있다.

[2단계]  L1 후보집합을 기준으로 2개항목 조합을 해서 구매빈도수 즉 지지도를 구한다. 
           그러면 C2 테이블을 만들 수 있다. 이 조합중에서 최소지지도인 2를 충족하지 못하는 (A,B) , (A,E) 조합을
           제외하면 L2 라는 새로운 후보집합을 도출할 수 있다

[3단계] 마찬가지로 L2 후보집합을 기준으로 이번에는 3개항목을 조합해서 구매빈도수(지지도)를 구해본다.
          (A,B,C) , (A,B,E), (A,C,E) ,(B,C,E) 조합이 나올수 있는데 이때 2단계에서 최소지지도에 못미쳐서 제외된 조합이
          (A,B), (A,E) 였기 때문에 (A,B,C) , (A,B,E), (A,C,E) 조합들에서   (A,B), (A,E) 조합이 부분집합으로 포함된 건
          제외해야 하기 때문에 결국 (B,C,E) 조합만 남게 된다. 
          (B,C,E) 조합의 지지도를 구해보면 2 가 되고 이는 최소지지도를 충족하므로 후보집합이 될 수 있다.

728x90
반응형
LIST
728x90
반응형
SMALL

연관규칙(Association Rule) 분석기법중에 대표적인 알고리즘이 Apriori 이다.
Apriori 알고리즘은 지지도를 이용해서 연관규칙을 찾는 기법이라고 할수 있다.
  - 연관규칙를 찾아주는 알고리즘 중에서 가장 먼저 개발되었고, 또 가장 많이 사용된다.
  - 연관성규칙의 첫 번째 단계는 항목들 간의 연관성을 나타내기 위한 후보가 되는 
     모든 규칙들을 생성
  - 구매 데이터베이스 내에서 단일 항목들, 2개로 된 항목들, 3개로 된 항목들. 기타 등등의
     모든 조합을 발견
  - 그러나 항목들이 늘어나면 이러한 모든 조합들을 생성하기 위한 계산시간은 기하급수적으로
    증가함.
  - 데이터베이스 내에서 높은 빈도를 갖는 조합 (빈발 항목집합 : Frequent item sets) 을
    찾아내는 것
  - 빈발 항목집합 결정 도구 : 지지도(Support)

Apriori  알고리즘 설명

<출처 : https://www.youtube.com/watch?v=mxXCBFwRGPk >

 위 그림에서 ID 101,102...  가 고객번호라고 생각하고 그 고객이 구매한 상품들이  items 이라고 하자.
[1단계]  단일항목 즉 단일항목 기준으로 해서 구매 빈도수(sup/지지도)를 구해보면 A 항목은 101, 103 고객이
           구매했으니깐  2 이고, B항목은 3, C항목도 3 ... 이런식으로 구매된 횟수를 카운트 한 결과가  C1 이다. 
           이때 기준 횟수를 2 즉 구매횟수가 2미만인 항목은 제외를 한다 라는 기준을 세운다. (최소 지지도)
           이 기준에 의하면 C1 테이블에서 제외할 항목은 구매횟수가 1인  D 항목이고 D 항목을 제외한 새로운
           후보집합 L1 을 도출할 수 있다.

[2단계]  L1 후보집합을 기준으로 2개항목 조합을 해서 구매빈도수 즉 지지도를 구한다. 
           그러면 C2 테이블을 만들 수 있다. 이 조합중에서 최소지지도인 2를 충족하지 못하는 (A,B) , (A,E) 조합을
           제외하면 L2 라는 새로운 후보집합을 도출할 수 있다

[3단계] 마찬가지로 L2 후보집합을 기준으로 이번에는 3개항목을 조합해서 구매빈도수(지지도)를 구해본다.
          (A,B,C) , (A,B,E), (A,C,E) ,(B,C,E) 조합이 나올수 있는데 이때 2단계에서 최소지지도에 못미쳐서 제외된 조합이
          (A,B), (A,E) 였기 때문에 (A,B,C) , (A,B,E), (A,C,E) 조합들에서   (A,B), (A,E) 조합이 부분집합으로 포함된 건
          제외해야 하기 때문에 결국 (B,C,E) 조합만 남게 된다. 
          (B,C,E) 조합의 지지도를 구해보면 2 가 되고 이는 최소지지도를 충족하므로 후보집합이 될 수 있다.

           
           
 

 

728x90
반응형
LIST
728x90
반응형
SMALL

연관규칙이란....

연관규칙분석(Association Rule Analysys)이란 그냥 나열되어 있는 원본 데이터들에 대해서 데이터들간의 연관관계를 탐색하는 무방향성 데이터마이닝 기법중에 하나이다.
보통 마트의 고객들이 구매한 상품간의 연관관계를 찾을 때 많이 사용되는 분석기법이라서 '장바구니 분석' 이라고도 한다.  예를 들어.. 남성 고객이 마트에 가서 구매한 품목을 보니깐 맥주와 기저귀를 같이 구매하는 경우가 많이 나타나면 마트 진열대에 맥주와 기저귀를 같이 배치하는 한다던지 (매장진열), 또 라면을 살때 스윙칩을 같이 사는 형태가 많이 발견된다면 이 두 상품을 합친 패키지 상품을 개발한다던지..(GS25의 오모리김치찌게맛 스윙칩) 여성 고객은 편의점에서 주로 우유와 커피라서 편의점에 들어가면 진열대 가장 잘 보이는 곳에 우유와 커피 제품을 진열하는 것을 볼수 있는데 이런 것들이 모두 연관규칙분석을 통해 효과적인 매장 진열, 패키지상품의 개발, 교차판매 전략수립에 많이 이용된다.
다시 연관규칙을 정의한다면 "데이터들에 대한 발생빈도를 기반으로 데이터간에 연관관계를 찾는 데이터마이닝 기법" 이라고 할수 있다.

데이터마이닝 (Data Mining)

데이터마이닝이란 어떤 데이터들에 대해서 패턴,유사성 등의 관계를 찾아내서 모델을 만든 다음에 새로운 신규 데이터가 들어오는 경우 이 모델에 넣어서 결과를 도출하는 것을 말한다.

데이터마이닝이란 데이터내에서 어떠한 방법(순차 패턴, 유사성 등)에 의해 관심 있는 지식을 찾아내는 과정을 말하는 것으로 대용량의 데이터 속에서 유용한 정보를 발견하는 과정이며, 기대했던 정보뿐만 아니라 기대하지 못했던 정보를 찾을 수 있는 기술을 의미한다. 데이터 마이닝을 통해 정보의 연관성을 파악함으로써 가치있는 정보를 만들어 의사결정에 적용함으로써 이익을 극대화시킬 수 있다. 기업이 보유하고 있는 일일 거래 데이터, 고객 데이터, 상품 데이터 혹은 각종 마케팅 활동의 고객 반응 데이터 등과 이외의 기타 외부 데이터를 포함하는 모든 사용 가능한 Raw 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙 등을 발견하고, 이를 실제 비즈니스 의사 결정 등을 위한 정보로 활용하고자 하는 것. 데이터 마이닝의 적용 분야로 가장 대표적인 것은 데이터베이스 마케닝 분야이다.
[네이버 지식백과] 데이터 마이닝 [data mining] (컴퓨터인터넷IT용어대사전, 2011. 1. 20., 전산용어사전편찬위원회)


연관규칙의 특징

특징 설명
장바구니 분석 구매 내역 분석을 통해 동시에 구매될 가능성이 있는 상품의 연관관계를 찾는다.
또는 A제품을 구매 후 B제품을 구매할 가능성이 높은 경우 해당 제품들을 나란히
진열을 하는 경우.
자율학습기법
(Unsupervised Learning)
자율학습의 반대말인 지도학습을 먼저 설명하면 지도학습(supervised Learning)이란 이미 목표변수, 목표값이 정해진 상태에서 데이터를 분석하는 것을 말하며, 자율학습이란 목표변수, 결과값을 모르는 상태에서 데이터를 분석해서 데이터간의 관계를 분석해서 결과값을 도출해내는 분석기법이다. 자율학습기법에 대표적인 것이 바로 연관규칙분석이다.  
   1) 자율학습기법 (Unsupervised Learning)
        - 연관규칙분석
        - 군집분석 :  수많은 데이터들을 2개그룹, 3개그룹 등으로 분류
   2) 지도분석기법 (Supervised Learning)
        - 신경망 분석
        - 의사결정나무 분석
        - 사례기반
        - 로지스틱 회귀분석
탐색적 기법 조건반응(if then else)으로 표현되므로 이해가 쉬윔
 - 만일 A가 일어난다면 B가 일어난다. 
 - 상품 A를 구매하면 상품 B도 구매를 한다.
 - 어떤 Item 집합의 존재가 다른 Item 집합의 존재를 암시
즉 함께 구매하는 상품의 조합이나 패턴을 파악
목적변수 미존재 목적변수(Target Variable) 없이 특성의 조합으로 규칙을 표현하며, 특정한 변수가 아닌 모든 변수 또는 특성에 대하여 예측
규칙간의 독립성 규칙들 간에는 서로 영향을 주지 않기 때문에 하나의 고객이 여러 개의
규칙에 해당 될 수 있음


연관규칙 도출과정


연관규칙 측정기준

< 출처 : 정보관리기술사 118회 모임 - 두드림 >

  *  지지도/신뢰도/향상도에 대한 자세한 설명은 다음 편에서....


연관규칙의 결과 유형

결과유형 설명
Useful Result 분석결과가 마케팅 측면에서 유용한, 쓸만한 결과가 나옴.
예) 맥주와 기저귀 상품과의 구매관계
Trivial Result 어떤 새로운 분석결과가 아닌 기존 마케팅 정책에 의해 연관성이 높게 나온 경우
먼가 새롭게 발견된 구매패턴이 아니고 기존 마케팅 활동 결과로서 예상이 되는
결과를 말함.
예) 정비계약을 맺은 고객이 많은 설비를 구매하더라..  -> 이는 정비계약에 의해
     자연스럽게 따라오는 설비 구매 형태일뿐
Inexplicable Result
(설명할수 없는 결과)
의미를 발견하기 위해 많은 고민이 필요한 경우
예) 새로 철물점을 개업하면 화장시 문고리가 많이 팔림.. -> 연관관계가 있는건지
     고민이 필요함..



활용분야

분야 내용
교차판매 (Cross Selling)
묶음판매 (Bundling)
A제품을 구매한 고객이 B제품을 추가로 구매할 수 있도록 유도하는 전략에 사용
예) 맥주와 기저귀, 양복과 넥타이
상품진열 고객의 구매패터을 고려하여 매대상품을 진열
예) 편의점에 제일 잘보이는 곳에 우유와 커피를 나란히 진열
부정탐지 (Fraud Detection) 신용카드나 보험금 수령 패턴을 분석하여 도난카드나 보험사기 행위를 적발
Catalog Design 상품의 배치문제, 패키지 상품의 구성, 쿠폰발행, 카탈로그의 구성, 신상품의카테고리 설정 등에 활용 가능
첨부 우편물 우편물 내용과 첨부파일과이 관계분석


연관규칙의 주의점

1. 연관규칙분석은 원인과 결과 즉 인과관계를 찾는 게 아니라는 것이다. 맥주가 원인이고 기저귀가 결과라는
   뜻이 아니라 , 맥주와 기저귀가 같이 조합을 이룬다는 뜻이다..
2. 연관규칙 즉 자율탐색기법(Unsupervised Learning) 은 목표변수(Target Variable) 이 없다.. 이 말이  
   무슨 말이냐면.. 연관규칙 분석에 의해 나온 결과값에 대해서 맞다, 안맞다 를 판단하는게 아니라는
   뜻이다. 예를 들어 맥주를 산 고객은 기저귀를 같이 구매를 한다 라고 결과가 나왔지만 이 것이
   정답이 아닐수도.. 즉 맥주를 산 고객이 무조건 기저귀를 사는 것은 아니라는 뜻이다.

728x90
반응형
LIST

+ Recent posts