공부의 즐거움

데이터 프라이버시 문제에 대한 통계적 접근과 관련 이슈 본문

데이터 프라이버시, 저작권, 정보윤리

데이터 프라이버시 문제에 대한 통계적 접근과 관련 이슈

yoosue 2020. 12. 5. 21:47

* 내맘대로 요약한 내용입니다. 정확한 정보는 꼭 원본을 확인하시기 바랍니다.

--------------------------------------------------------------------------------------------------

데이터 프라이버시 문제에 대한 통계적 접근과 관련 이슈.pdf
3.36MB

데이터 프라이버시 문제에 대한 통계적 접근과 관련 이슈

(Issues in Statistical Approaches to Data Privacy)

 
박아연(한국보건사회연구원 부연구위원), 오미애(한국보건사회연구원 연구위원)

보건복지포럼(2018. 8)

 

1. 서론

데이터 프라이버시(data privacy)란 데이터의 수집(collection), 보급(dissemination, or publishing), 기술(technology), 프라이버시에 대한 대중의 기대(the public expectation of privacy), 법적·정치적 쟁점들(the legal and political issues) 간의 관계를 의미, 정보 프라이버시(information privacy)라고도 함.
(https://en.wikipedia.org/wiki/Information_privacy 2018. 7. 20. 발췌, 번역).

 

프라이버시 침해는 데이터 수집과 보급 각 단계에서 발생

- 수집 과정에서 프라이버시 보장하려면 통계기관(curator)이 믿을 만해야 함

- 보급 과정에서 프라이버시 침해는 데이터 사용자에 의해 발생

 

프라이버시 모형(privacy models)은 프라이버시를 보호하는 기술로, 본고에서는 보급 과정에서 발생하는 프라이버시 침해 방지를 위한 기술들임.

 

2. EU- GDPR(일반개인정보보호규정)의 비식별조치 기법
(제목은 이런데, 실제 GDPR에서 어떤 기법을 썼는지는 논문에 안 쓰여 있다고..)

 

GDPR(General Data Protection Regulation): 기존의 개인정보보호지침(Directive 95/46/EC)을 대체하는 규정

 

GDPR 적용 대상

- 살아있는 자연인의 개인정보(위치정보, IP 주소 등 온라인 식별자 정보 포함)

- 민감정보는 특별한 유형의 개인정보로, 정보주체에게 명시적 동의를 획득한 경우를 제외하고 원칙적으로 처리 금지

- 민감정보(GDPR 52조): 인종·민족, 정치적 견해, 종교·철학적 신념, 노동조합 가입 여부, 유전자 또는 생체정보, 건강, 성생활 또는 성적 취향을 포함

 

GDPR 주요 원칙

- 적법성(lawfulness)

- 공정성(fairness)

- 투명성(transparency)

- 목적 제한(purpose limitation)

- 개인정보 처리 최소화(data minimisation)

- 정확성(accuracy)

- 보존기한 제한(storage limitation)

- 무결성 및 기밀성(integrity & confidentiality)

- 책임성(accountability)

 

개인정보 비식별 처리기법 : 가명화(pseudonymization)와 익명화(anonymization)로 구분

- 가명화

. 시스템에 개인정보가 저장될 때 해당 정보들이 가명화되어 저장되어야 한다는 것

. 가명처리된 자료는 추가적인 정보를 사용하지 않고서는 더 이상 원래의 개인정보를 알아볼 수 없어야 함

 

- 익명화

. 개인정보에 익명 처리 기술을 적용하여 개인을 식별할 수 없는 정보로 처리하는 방식

. 대표적인 기술로 데이터에서 특정한 정보를 없애는 데이터 마스킹이 있음.

  . 마스킹은 이해가 용이하다는 장점이 있어 널리 이용되고 있으나, 정보 손실과 노출 위험의 최적 수준을 객관적으로 선택하기 어렵다는 단점이 있음.

  . 국소 감추기(local suppression), 전반적 재코딩(global recoding), 국소 통합(micro-aggregation), 잡음 추가(noise addition)이라고도 함.

. 차등정보 보호(differential privacy)재현자료(synthetic data) 기법이 있음. (본고에서 다루는 기법)

 

3. 마이크로데이터 정보보호 기법

국가통계기관은 데이터를 기존 매크로데이터에서 마이크로데이터 형식으로 직접 제공

- 매크로데이터(macro data)

 . 수집한 데이터 바탕으로 만들은 합산표

 . 모집단에 대한 심층 분석 사실상 불가능하여 정보의 유용성이 크게 떨어짐

- 마이크로데이터(micro data)

. 개별 정보주체의 원자료로 구성

. 공공자료 활용범위와 유용성 증가하나, 개인정보 노출(disclosure) 위험 커짐

 

-> 여기에서는 마이크로데이터 제공시 개인정보 보호를 위한 통계적 전략 및 활용사례 소개함

 

통계학에서 개인정보 보호를 목적으로 자료에 변형을 가하는 행위를 노출 제한(disclosure control/limitation)이라고 함.

마이크로데이터 제공시 정보의 손실을 줄이면서(유용성 확보), 노출 위험을 최소화(개체식별로 인한 개인정보 노출위험)하는 상충되는 목표의 최적의 균형점 모색이 요구됨

 

전통적 개별 정보보호 전략 중 하나인 ‘이용자의 접근을 물리적으로 규제하는 전략’은 이용자의 요청에 대해 공공정보 제공 기관이 직접 분석 결과를 만들어 제공하는 방법과 입출입이 제한된 데이터센터에서만 자료에 대한 접근을 허용하는 방법 등 포함

- 이러한 물리적 규제 전략은 정보 손실 없이 노출 위험을 제어할 수 있다는 장점이 있지만 시공간적 제약이 많고 행정비용이 증가한다는 단점

 

이러한 단점을 보완하기 위해 원자료에 적절한 변환을 가하여 식별정보를 숨기는 마스킹 기법이 널리 사용되어 왔으나, 최근에는 마스킹 기법을 대체할 수 있는 방법들이 등장. 그중 여기에서는 차등정보 보호와 재현자료를 중심으로 개념 및 활용 사례 소개함(그러나 깊숙히는 모르겠다는..)

 

가. 차등정보 보호

Dwork(2006)는 한 개체가 전체 자료에 추 로 포함될 때 증가하는 노출 위험을 ‘차등정보 보호’라 정의하고 이를 수학적으로 측정하는 방법 제안.

- 차등정보 보호란 주어진 쿼리(query)를 한 개체만 차이 나는 두 개의 데이터베이스에 적용했을 때, 결과물의 차이 를 제어하여 해당 개체에 대한 정보 유출을 제한 하는 것(응?)

 

나. 재현자료

재현자료는 원자료와 다르지만 원자료와 동일한 분포를 따르도록 통계적으로 생성한 자료

(Reiter, 2005; Reiter & Raghunathan, 2007)

 

이하는 모르겠음. 그래도 이 논문 덕분에 여기까지의 개념정리는 쉽게 했음. 오늘 공부 여기까지 끝.