728x90
반응형
SMALL

K-익명성

공개된 데이터에 대한 연결공격(linkage attack) 등 취약점*을 방어하기 위해 제안된 프라이버시 보호 모델

  취약점 설명
공개된
데이터의
취약점


개인정보를 포함한 공개 데이터  - 일반적으로 활용하는 데이터에는 이름, 주민등록번호 
  등과 같이 개인을 직접 식별할 수 있는 데이터는 삭제
     (예: <표 1>)
- 그러나 활용 정보의 일부가 다른 공개되어 있는 정보
  등과 결합하여  개인을 식별하는 문제(연결공격)가
  발생 가능
     (예: <표 2>)
연결공격(linkage attack) - 예를 들어, <표 1>의 의료데이터가 <표 2>의 
  선거인명부와 지역 코드, 연령, 성별에 의해
  결합되면,  개인의 민감한 정보인 병명이
  드러날 수 있음   
      (ex) 김민준 (13053, 28, 남자)→ 환자 레코드 1번→ 전립선염 


이러한 연결공격을 막기위해 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여
쉽게 다른 정보로 결합할 수 없도록 데이터를 구성하는 것을 'K-익명성' 모델이라고 한다.
-  데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한(구별되지 않는) 
   k-1개 이상의 레코드를 가짐
-  예를 들어, <표 1>의 의료 데이터가 비식별 조치된 <표 3>에서 1~4, 5~8, 9~12 레코드는 서로 구별되지 않음
      ▶ 아래 <표 3> 에 의해서는  김민준이 1~4 구간에 속한다는걸 일수는 있지만
       정확히 전립선염인지 고혈압인지 식별이 불가능하다.
- 여기서, 같은 속성자 값들로 비식별된 레코드들의 모임을 ‘동일 속성자 값 집합
  (equivalent class, 이하 동질 집합)’이라고 함

 

L-다양성

  k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델

정의 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도  
 L개의 서로 다른 민감한 정보를 가져야 함 
-  비식별 조치 과정에서 충분히 다양한(L개 이상) 서로 다른 민감한 정보를 갖도록 동질  
   집합을 구성 
   정보가 충분한 다양성을 가지므로 다양성의 부족으로 인한 공격에 방어가 가능하고,
   배경지식으로 인한 공격에도 일정 수준의 방어능력 

 

  취약점 설명
K-익명성의 취약점 동질성 공격
(Homogeneity attack)
k-익명성에 의해 레코드들이 범주화 되었더라도
일부 정보들이 모두 같은 값을 가질 수 있기
때문에 데이터 집합에서 동일한 정보를 이용
하여 공격 대상의 정보를 알아내는 공격
예) <표 3>에서 레코드 9~12의 질병정보는
     모두 ‘위암’이므로 k-익명성 모델이
     적용되었음 에도 불구하고 그 질병정보가
     직접적으로 노출됨
 배경지식에 의한 공격
(Background knowledge attack)
주어진 데이터 이외의 공격자의 배경 지식을
통해 공격 대상의 민감한 정보를 알아내는 공격
예) <표 2>와 <표 3>에서 공격자가 ‘이지민’의
    질병을 알아내려고 하면 정보의
   결합(13068, 29, 여)에 따라 ‘이지민’은
   <표 3>의 1~4 레코드 중 하나이며 질병은
   전립선염 또는 고혈압임을 알 수 있음
   이 때, ‘여자는 전립선염에 걸릴 수 없다’라는
   배경 지식
 에 의해 공격 대상 ‘이지민’의 질병은
   고혈압으로 쉽게 추론 가능함


이러한 K-익명성의 취약점을 보완하기 위해서
주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도  ℓ개의 서로 다른 
민감한 정보를 가지도록 구성하는 것을 'L-다양성' 모델이라고 함.
- <표 3>과 같이 동일한 질병으로만 구성된 동질 집합이 존재하지 않음
-  공격자가 질병에 대한 배경지식(예: 여자는 전립선염에 걸리지 않음)이 있더라도 어느 
   정도의 방어력을 가지게 됨(예: 여성 이지민이 속한 동질 집합 2, 3, 11, 12에서
   전립선염을 제외하더라도 고혈압, 위암 중 어느 질병이 이지민의 것인지 여전히 알 수 없음)

 

T-근접성


 ℓ-다양성의 취약점*(쏠림 공격유사성 공격)을 보완하기 위해 모델

  취약점 설명
L-다양성의
취약점
쏠림 공격 (skewness attack) 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이
프라이버시를 보호하지 못함
예) 임의의 ‘동질 집합’이 99개의 ‘위암 양성’ 레코드와
    1개의 ‘위암 음성’ 레코드로 구성되어 있다고 하면
    공격자는 공격 대상이 99%의 확률로 ‘위암 양성’
   이라는 것을 알 수 있음
 유사성 공격 (similarity attack) 비식별 조치된 레코드의 정보가 서로 비슷하다면
|ℓ-다양성 모델을 통해 비식별 된다 할지라도
프라이 버시가 노출될 수 있음
예) <표 5>는 3-다양성(ℓ=3) 모델을 통해 비식별 된
    데이터이다.
    ① 레코드 1,2,3이 속한 동질 집합의
       병명이 서로 다르기때문에 L-다양성은
       충족하지만 병명들의 의미가 서로 유사함
       (위궤양, 급성 위염, 만성 위염)
       공격자는 공격 대상의 질병이 ‘위’에 관련된
       것이라는 사실을 알아낼 수 있음
   ② 또 다른 민감한 정보인 급여에 대해서도
      공격 대상이 다른 사람에 비해 상대적으로
      낮은 급여 값을  가짐을 쉽게 알아낼 수 있음
       (30 ~ 50백만원)
 


이러한 L-다양성의 취약점을 보완하기 위해
 ‘정보의 분포’를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지하는
  것을 'T-근접성' 모델이라고 한다.

- <표 6>에서 t-근접성 모델에 따라 레코드 1, 3, 8은 하나의 동질 집합
-  이 경우, 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포
   (30 ~ 110)와 큰 차이가 나지 않음
-  또한, 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 
   다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의
   질병임을 유추하기 어려움
-  따라서 <표 5>의 경우와 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 
   어려워짐




728x90
반응형
LIST

'정보보안' 카테고리의 다른 글

디지털 포렌식  (0) 2019.12.22
FIDO (Fast Identity Online)  (0) 2019.12.15
개인정보 비식별 조치방법 - 일반적 기법  (0) 2019.12.12
비식별화 조치 - 개념 및 단계별 조치  (0) 2019.12.11
위험분석 방법  (0) 2019.12.08

+ Recent posts