본문 바로가기 주메뉴 바로가기
경제/금융
  • TXT

서울시민 라이프스타일 재현 데이터

서울시와 민간 3사(통신사, 카드사, 신용평가사) 간 가명정보 결합을 통해 확보한 가명정보 결합 데이터를 원본 데이터로 하여, 통계적 특성이 유사하고 실제 원본 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 가상으로 재현한 데이터를 생성하였습니다.

서울시민 라이프스타일 재현데이터는 두 가지 주제로 테이블을 구성하고 데이터를 재현하였습니다. 

첫 번째 데이터셋은 서울 시민의 금융 생활 분석을 위한 재현데이터로, 전체 가명정보 결합데이터에서 서울 시민의 자산, 대출, 카드 사용이력, 사업자 정보 컬럼들로 원본 테이블을 구성하고, 원본 데이터 분포를 고려하여 데이터를 재현하였습니다.
두 번째 데이터셋은 서울 시민의 소비 패턴 및 이동 이력 분석을 위한 재현 데이터로, 전체 가명정보 결합데이터에서 통신사, 카드사 정보 컬럼을 활용하여 서울 시민의 소비 정보, 이동 정보 분석이 가능한 원본 테이블을 구성하였고, 이를 기반으로 데이터를 재현하였습니다.

※ 기존 가명정보 결합 데이터 정보 
- 재현 대상 데이터 수집 시점 : 2022년 3분기
- 컬럼별 가명 처리 : 일부 컬럼은 특이값 노출 위험 제거를 위해 상단 0.1% 또는 상단 0.01% 기준으로 상한값 일괄 처리하였습니다.
※ 재현 데이터 생성 과정
- 재현 대상 원본 데이터는 전체 서울시민 데이터가 아닌 약 10% 규모로 추출한 일부 샘플만으로 축소하였고, 이를 재현 알고리즘을 통해 최종 재현 데이터셋을 생성하였습니다.
- 재현 데이터는 R의 Synthpop 라이브러리를 활용하여 '순차적 재현' 방식으로 재현하였습니다.
※ 최종 재현 데이터
- 최종 생성된 재현데이터에서 실제 원본 데이터와 일치하는 데이터를 전부 삭제 처리하였습니다.
- k-익명성 적용을 통해 k=5 기준으로 데이터를 일부 삭제 처리하였습니다. (기준 준식별자 : 자치구명+생년월일+성별+직업군 컬럼 활용) 
- 최종 재현 데이터셋과 원본 실제 데이터셋의 분포 비교 결과, 컬럼별 평균값 간 오차는 평균 약 4% 수준으로 발생하였습니다.

데이터 상세 항목 - 제공 기관, 적재주기, 공간 범위, 시간 범위, 등록 일자, 최종 수정 일자, 자료 목록이 포함된 표
제공 기관 서울시 적재주기 -
공간 범위 서울전역 시간 범위 2022.07 ~ 2022.09
등록 일자 2024.02.21 수정 일자
자료 목록 서울 시민의 금융 생활 재현 데이터.csv
서울 시민의 소비 및 이동 패턴 재현 데이터.csv

※샘플데이터는 데이터의 이해를 돕기위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*)처리가 되어 있을 수 있습니다.

샘플데이터 미리보기