서울시와 민간 3사(통신사, 카드사, 신용평가사) 간 가명정보 결합을 통해 확보한 가명정보 결합 데이터를 원본 데이터로 하여, 통계적 특성이 유사하고 실제 원본 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 가상으로 재현한 데이터를 생성하였습니다.
서울시민 라이프스타일 재현데이터는 두 가지 주제로 테이블을 구성하고 데이터를 재현하였습니다.
첫 번째 데이터셋은 서울 시민의 금융 생활 분석을 위한 재현데이터로, 전체 가명정보 결합데이터에서 서울 시민의 자산, 대출, 카드 사용이력, 사업자 정보 컬럼들로 원본 테이블을 구성하고, 원본 데이터 분포를 고려하여 데이터를 재현하였습니다.
두 번째 데이터셋은 서울 시민의 소비 패턴 및 이동 이력 분석을 위한 재현 데이터로, 전체 가명정보 결합데이터에서 통신사, 카드사 정보 컬럼을 활용하여 서울 시민의 소비 정보, 이동 정보 분석이 가능한 원본 테이블을 구성하였고, 이를 기반으로 데이터를 재현하였습니다.
※ 기존 가명정보 결합 데이터 정보
- 재현 대상 데이터 수집 시점 : 2022년 3분기
- 컬럼별 가명 처리 : 일부 컬럼은 특이값 노출 위험 제거를 위해 상단 0.1% 또는 상단 0.01% 기준으로 상한값 일괄 처리하였습니다.
※ 재현 데이터 생성 과정
- 재현 대상 원본 데이터는 전체 서울시민 데이터가 아닌 약 10% 규모로 추출한 일부 샘플만으로 축소하였고, 이를 재현 알고리즘을 통해 최종 재현 데이터셋을 생성하였습니다.
- 재현 데이터는 R의 Synthpop 라이브러리를 활용하여 '순차적 재현' 방식으로 재현하였습니다.
※ 최종 재현 데이터
- 최종 생성된 재현데이터에서 실제 원본 데이터와 일치하는 데이터를 전부 삭제 처리하였습니다.
- k-익명성 적용을 통해 k=5 기준으로 데이터를 일부 삭제 처리하였습니다. (기준 준식별자 : 자치구명+생년월일+성별+직업군 컬럼 활용)
- 최종 재현 데이터셋과 원본 실제 데이터셋의 분포 비교 결과, 컬럼별 평균값 간 오차는 평균 약 4% 수준으로 발생하였습니다.