K-익명성
공개된 데이터에 대한 연결공격(linkage attack) 등 취약점*을 방어하기 위해 제안된 프라이버시 보호 모델
취약점 | 설명 | |
공개된 데이터의 취약점 |
개인정보를 포함한 공개 데이터 | - 일반적으로 활용하는 데이터에는 이름, 주민등록번호 등과 같이 개인을 직접 식별할 수 있는 데이터는 삭제 (예: <표 1>) - 그러나 활용 정보의 일부가 다른 공개되어 있는 정보 등과 결합하여 개인을 식별하는 문제(연결공격)가 발생 가능 (예: <표 2>) |
연결공격(linkage attack) | - 예를 들어, <표 1>의 의료데이터가 <표 2>의 선거인명부와 지역 코드, 연령, 성별에 의해 결합되면, 개인의 민감한 정보인 병명이 드러날 수 있음 (ex) 김민준 (13053, 28, 남자)→ 환자 레코드 1번→ 전립선염 |
이러한 연결공격을 막기위해 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여
쉽게 다른 정보로 결합할 수 없도록 데이터를 구성하는 것을 'K-익명성' 모델이라고 한다.
- 데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한(구별되지 않는)
k-1개 이상의 레코드를 가짐
- 예를 들어, <표 1>의 의료 데이터가 비식별 조치된 <표 3>에서 1~4, 5~8, 9~12 레코드는 서로 구별되지 않음
▶ 아래 <표 3> 에 의해서는 김민준이 1~4 구간에 속한다는걸 일수는 있지만
정확히 전립선염인지 고혈압인지 식별이 불가능하다.
- 여기서, 같은 속성자 값들로 비식별된 레코드들의 모임을 ‘동일 속성자 값 집합
(equivalent class, 이하 동질 집합)’이라고 함
L-다양성
k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델
정의 | 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 L개의 서로 다른 민감한 정보를 가져야 함 - 비식별 조치 과정에서 충분히 다양한(L개 이상) 서로 다른 민감한 정보를 갖도록 동질 집합을 구성 정보가 충분한 다양성을 가지므로 다양성의 부족으로 인한 공격에 방어가 가능하고, 배경지식으로 인한 공격에도 일정 수준의 방어능력 |
취약점 | 설명 | |
K-익명성의 취약점 | 동질성 공격 (Homogeneity attack) |
k-익명성에 의해 레코드들이 범주화 되었더라도 일부 정보들이 모두 같은 값을 가질 수 있기 때문에 데이터 집합에서 동일한 정보를 이용 하여 공격 대상의 정보를 알아내는 공격 예) <표 3>에서 레코드 9~12의 질병정보는 모두 ‘위암’이므로 k-익명성 모델이 적용되었음 에도 불구하고 그 질병정보가 직접적으로 노출됨 |
배경지식에 의한 공격 (Background knowledge attack) |
주어진 데이터 이외의 공격자의 배경 지식을 통해 공격 대상의 민감한 정보를 알아내는 공격 예) <표 2>와 <표 3>에서 공격자가 ‘이지민’의 질병을 알아내려고 하면 정보의 결합(13068, 29, 여)에 따라 ‘이지민’은 <표 3>의 1~4 레코드 중 하나이며 질병은 전립선염 또는 고혈압임을 알 수 있음 이 때, ‘여자는 전립선염에 걸릴 수 없다’라는 배경 지식 에 의해 공격 대상 ‘이지민’의 질병은 고혈압으로 쉽게 추론 가능함 |
이러한 K-익명성의 취약점을 보완하기 위해서
주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른
민감한 정보를 가지도록 구성하는 것을 'L-다양성' 모델이라고 함.
- <표 3>과 같이 동일한 질병으로만 구성된 동질 집합이 존재하지 않음
- 공격자가 질병에 대한 배경지식(예: 여자는 전립선염에 걸리지 않음)이 있더라도 어느
정도의 방어력을 가지게 됨(예: 여성 이지민이 속한 동질 집합 2, 3, 11, 12에서
전립선염을 제외하더라도 고혈압, 위암 중 어느 질병이 이지민의 것인지 여전히 알 수 없음)
T-근접성
ℓ-다양성의 취약점*(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
취약점 | 설명 | |
L-다양성의 취약점 |
쏠림 공격 (skewness attack) | 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함 예) 임의의 ‘동질 집합’이 99개의 ‘위암 양성’ 레코드와 1개의 ‘위암 음성’ 레코드로 구성되어 있다고 하면 공격자는 공격 대상이 99%의 확률로 ‘위암 양성’ 이라는 것을 알 수 있음 |
유사성 공격 (similarity attack) | 비식별 조치된 레코드의 정보가 서로 비슷하다면 |ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이 버시가 노출될 수 있음 예) <표 5>는 3-다양성(ℓ=3) 모델을 통해 비식별 된 데이터이다. ① 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르기때문에 L-다양성은 충족하지만 병명들의 의미가 서로 유사함 (위궤양, 급성 위염, 만성 위염) 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음 ② 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음 (30 ~ 50백만원) |
이러한 L-다양성의 취약점을 보완하기 위해
‘정보의 분포’를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지하는
것을 'T-근접성' 모델이라고 한다.
- <표 6>에서 t-근접성 모델에 따라 레코드 1, 3, 8은 하나의 동질 집합
- 이 경우, 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포
(30 ~ 110)와 큰 차이가 나지 않음
- 또한, 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로
다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의
질병임을 유추하기 어려움
- 따라서 <표 5>의 경우와 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱
어려워짐
'정보보안' 카테고리의 다른 글
디지털 포렌식 (0) | 2019.12.22 |
---|---|
FIDO (Fast Identity Online) (0) | 2019.12.15 |
개인정보 비식별 조치방법 - 일반적 기법 (0) | 2019.12.12 |
비식별화 조치 - 개념 및 단계별 조치 (0) | 2019.12.11 |
위험분석 방법 (0) | 2019.12.08 |