서울특별시 빅데이터 캠퍼스

본문 바로가기 주메뉴 바로가기

이용자 지원

반출 정책
확인하기 데이터
설명서

추천 데이터

01서울시 집계구단위 내외국인 생활인구

02서울시민의 업종별 카드소비 데이터

03서울시 대중교통 및 지하철 1회권 승하차 데이터

04수도권 생활이동(수단) 데이터

05수도권 생활이동 데이터

06서울 관광데이터

07서울시 CJ대한통운 택배 유형별 월 데이터

08스마트서울 도시데이터 센서(S-DoT) 2분단위 환경정보

09서울시민 라이프스타일 재현 데이터

10서울시 자치구단위 CJ택배차량 운행량 월별 통계

11서울시 업종별 내외국인 신한카드 매출데이터

12서울시민 KCB 생활금융 통계

13서울시 19년도 소비행태분석을 위한 신한은행 금융정보

14서울시 연립 다세대 매매 예측시세

15서울시 블록별 롯데멤버스 상품판매 데이터

HOME>

반출정책

서울시 빅데이터 캠퍼스 반출정책 1~2페이지 자세한 내용은 다음 확인

서울시 빅데이터 캠퍼스 반출정책 2019.12. 서울시 빅데이터 캠퍼스 (서울특별시 스마트 도시 정책관)

빅데이터캠퍼스 반출

반출 기본 사항: 원칙적으로 캠퍼스 내에서 분석을 완료하기를 권장함; 분석 완료 후 분석결과요약서 등을 다른 사람들과 공유함이 원칙임; 중간산출물 혹은 최종결과물은 반출심사를 거쳐 외부로(개인에게) 제공됨; 반출이 가능한 형태는 원본데이터와 분석산출물로 구분됨; 반출요청서에 반출 신청한 자료 각각에 대해 출처와 산출과정을 자세히 명시해야 심사 가능

용어 정의: 반출신청 : 원본데이터 또는 분석산출물을 캠퍼스 외부로 제공하도록 신청; 본데이터 : 분석산출물이 아닌 단순 내부 자료(원본데이터를 신청하는 경우를 단순 자료 제공으로 처리함); 분석산출물 : 캠퍼스에서 제공하는 데이터를 활용하여 도출해 낸 중간결과나 분석하여 작성한 소스코드, 데이터 및 결과보고서 등 문서. 분석산출물을 작성하는 방식은 발췌처리와 기초통계처리, 통계처리로 정의함.; 발췌처리 : 원본데이터를 형태 그대로 일부분을 추출 처리; 기초통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 합계, 평균 등 기초통계처리; 통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 검정값, 범주화, 지수화 등 처리

반출 가능 여부

원본데이터 반출

반출 가능

사이트에 기공개되어 있는 원본데이터(단, 기공개된 외부 홈페이지들을 통해 다운로드 권장)
[표1]~[표8]까지의 목록 중 원본데이터 반출이 가능한 경우
길단위 추정 유동인구(도로명주소 도로링크 단위)는 원본데이터 반출이 불가하나 예외적으로 보고서용 등 꼭 필요한 경우에 한해서 동단위 일부(3~4개동)의 반출신청 시 제공처에 문의 후 반출가능여부 판단(단, 개인(팀)당 한번으로 제한함)
열린데이터 광장 데이터셋(http://data.seoul.go.kr에서도 다운로드 가능)
지역경계 shp파일 중 통계청 폴더의 시, 구, 행정동, 집계구 경계, 행정안전부 폴더

반출 불가능

반출이 제한되어 있는 원본데이터
지역경계 shp파일 중 통계청 폴더의 기초단위구
서울시 배경지도

서울시 빅데이터 캠퍼스 반출정책 3~4페이지 자세한 내용은 다음 확인

서울시 빅데이터 캠퍼스 반출정책 2019.12. 서울시 빅데이터 캠퍼스 (서울특별시 스마트 도시 정책관)

빅데이터캠퍼스 반출

반출 기본 사항: 원칙적으로 캠퍼스 내에서 분석을 완료하기를 권장함; 분석 완료 후 분석결과요약서 등을 다른 사람들과 공유함이 원칙임; 중간산출물 혹은 최종결과물은 반출심사를 거쳐 외부로(개인에게) 제공됨; 반출이 가능한 형태는 원본데이터와 분석산출물로 구분됨; 반출요청서에 반출 신청한 자료 각각에 대해 출처와 산출과정을 자세히 명시해야 심사 가능

용어 정의: 반출신청 : 원본데이터 또는 분석산출물을 캠퍼스 외부로 제공하도록 신청; 본데이터 : 분석산출물이 아닌 단순 내부 자료(원본데이터를 신청하는 경우를 단순 자료 제공으로 처리함); 분석산출물 : 캠퍼스에서 제공하는 데이터를 활용하여 도출해 낸 중간결과나 분석하여 작성한 소스코드, 데이터 및 결과보고서 등 문서. 분석산출물을 작성하는 방식은 발췌처리와 기초통계처리, 통계처리로 정의함.; 발췌처리 : 원본데이터를 형태 그대로 일부분을 추출 처리; 기초통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 합계, 평균 등 기초통계처리; 통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 검정값, 범주화, 지수화 등 처리

반출 가능 여부

원본데이터 반출

반출 가능

사이트에 기공개되어 있는 원본데이터(단, 기공개된 외부 홈페이지들을 통해 다운로드 권장)
[표1]~[표8]까지의 목록 중 원본데이터 반출이 가능한 경우
길단위 추정 유동인구(도로명주소 도로링크 단위)는 원본데이터 반출이 불가하나 예외적으로 보고서용 등 꼭 필요한 경우에 한해서 동단위 일부(3~4개동)의 반출신청 시 제공처에 문의 후 반출가능여부 판단(단, 개인(팀)당 한번으로 제한함)
열린데이터 광장 데이터셋(http://data.seoul.go.kr에서도 다운로드 가능)
지역경계 shp파일 중 통계청 폴더의 시, 구, 행정동, 집계구 경계, 행정안전부 폴더

반출 불가능

반출이 제한되어 있는 원본데이터
지역경계 shp파일 중 통계청 폴더의 기초단위구
서울시 배경지도

서울시 빅데이터 캠퍼스 반출정책 5~6페이지 자세한 내용은 다음 확인

서울시 빅데이터 캠퍼스 반출정책 2019.12. 서울시 빅데이터 캠퍼스 (서울특별시 스마트 도시 정책관)

빅데이터캠퍼스 반출

반출 기본 사항: 원칙적으로 캠퍼스 내에서 분석을 완료하기를 권장함; 분석 완료 후 분석결과요약서 등을 다른 사람들과 공유함이 원칙임; 중간산출물 혹은 최종결과물은 반출심사를 거쳐 외부로(개인에게) 제공됨; 반출이 가능한 형태는 원본데이터와 분석산출물로 구분됨; 반출요청서에 반출 신청한 자료 각각에 대해 출처와 산출과정을 자세히 명시해야 심사 가능

용어 정의: 반출신청 : 원본데이터 또는 분석산출물을 캠퍼스 외부로 제공하도록 신청; 본데이터 : 분석산출물이 아닌 단순 내부 자료(원본데이터를 신청하는 경우를 단순 자료 제공으로 처리함); 분석산출물 : 캠퍼스에서 제공하는 데이터를 활용하여 도출해 낸 중간결과나 분석하여 작성한 소스코드, 데이터 및 결과보고서 등 문서. 분석산출물을 작성하는 방식은 발췌처리와 기초통계처리, 통계처리로 정의함.; 발췌처리 : 원본데이터를 형태 그대로 일부분을 추출 처리; 기초통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 합계, 평균 등 기초통계처리; 통계처리 : 원본데이터의 (시간, 공간 등) 단위 보다 크거나 상이한 단위로 검정값, 범주화, 지수화 등 처리

반출 가능 여부

원본데이터 반출

반출 가능

사이트에 기공개되어 있는 원본데이터(단, 기공개된 외부 홈페이지들을 통해 다운로드 권장)
[표1]~[표8]까지의 목록 중 원본데이터 반출이 가능한 경우
길단위 추정 유동인구(도로명주소 도로링크 단위)는 원본데이터 반출이 불가하나 예외적으로 보고서용 등 꼭 필요한 경우에 한해서 동단위 일부(3~4개동)의 반출신청 시 제공처에 문의 후 반출가능여부 판단(단, 개인(팀)당 한번으로 제한함)
열린데이터 광장 데이터셋(http://data.seoul.go.kr에서도 다운로드 가능)
지역경계 shp파일 중 통계청 폴더의 시, 구, 행정동, 집계구 경계, 행정안전부 폴더

반출 불가능

반출이 제한되어 있는 원본데이터
지역경계 shp파일 중 통계청 폴더의 기초단위구
서울시 배경지도

반출 정책 다운로드

온라인강의목록-강의명,조회수,등록일자로 구성된 표
강의명		조회수	등록일자
	정형 · 비정형데이터 R 기초분석 1차 (2) ○ 교 육 명 : [서울시 빅데이터캠퍼스 정형 · 비정형데이터 R 기초분석 교육] 빅데이터캠퍼스에서 빅데이터에 관심있으신 기초 분석가들을 위하여 정형데이터(축제 분석 데이터 활용)와 비정형 데이터(민원 데이터 활용)를 분석 개요부터 데이터의 이해 및 분석실습과정을 연계 교육으로 8월 23일과 9월 6일 각 4시간에 걸쳐 아래와 같은 교육과정으로 실시하였습니다. 앞으로도 빅데이터캠퍼스의 데이터분석 교육의 많은 관심과 신청 바랍니다. 감사합니다. ○ 교육과정 교육 과정 내용 1차 정형 데이터 기초분석 교육 데이터 분석 개요 데이터 조작 및 기초 탐색 이해 데이터 시각화 이해 축제 분석 실습 2차 비정형 데이터 기초분석 교육 Text 분석 개요 Text 분석 수행 방법 Text 데이터 조작 방법 이해 민원 데이터 분석 실습 [정형 ·비정형데이터 R 기초분석 교육 교안 다운로드] (스크립트) 0:02 자 시작을 좀 해보도록 하겠습니다 혹시 지금 vdi 혹시 바탕 0:08 화면에 바탕 화면 좀 잠깐 혹시 봐주시면 좋겠는데요 바탕 화면에 여기 0:15 지금 명칭이 있는 데이터셋 조회 리라는 텍스트 파일이 지금 각자들 0:21 있으십니까 자 그거를 뭐냐면 저희가 실습을 할 때 쓸 0:27 데이터가 지금 뭐 이렇게 저희가 연습하는 것처럼 한 150건 이런게 아니라 한 160만 건을 가지고 0:34 연습을 해 볼 거예요 그래서 그 데이터를 좀 읽고 오는 작업을 할 건데 지금 여기 계신 그 모든 0:42 선생님이 동시에 해 버리면 여기에 지금 부하가 줄 수도 있어서 좀 시간을 나눠서 지금 먼저 일부 먼저 0:50 데이터를 읽어 드리는 작업 좀 하려고 그래요 그래서 여기 앞에 두 줄만 두 줄에 계시는 0:56 선생님들만 그 지금요 바탕화면에 있는 데이터 조에 데이터셋 조의 리라는요 1:02 메모장을 열어 주시고 여시면 라이브러리 dbi 그다음에 1:10 라이브러리 R 요렇게 써 있는 것들이 있을 겁니다 여기까지요 strr 전까지만 1:17 요렇게 긁으라고 컨트롤 c 하신 다음에 요거를 R 스튜디오에 컨트롤 1:25 V 좀 해 주시면 됩니다 그러니까 1:32 요렇게 긁으러 하시고요 컨트롤 c 1:39 하시고 자 R 스튜디오 여셔서 자 여기 컨트롤 V 해서 이렇게 붙여 1:46 주시면 되고요 자 요거를 붙이신 다음에요 전체를 요렇게 반전시켜 1:54 가지고 이런 실행 명령을 눌러 주시면 돼요 2:00 자 그러면 제가 알아서 이제 데이터가 처리될 때까지 잠깐 좀 2:06 작업이 돌 겁니다 스튜디오에서 이게 뭐냐면 간단하게 말씀만 드리고 2:13 넘어갈게요 잠 아까 그 irs 데이터라는 거는을 설치하면 기본적으로 깔려 있는 데이터 셋이에요 2:20 근데 지금이 명령은 뭐냐면 지금 선생님들이 앉아는 2:27 자리에는 데이터베이스에 환경이 돼 있어요 그럼 여기서 쓰고 2:32 있는 데이터베이스는 우리가 이제 돈을 주고 사야 되는 데이터베이스가 오라클도 있고 mssql 있고 2:39 인포믹스 있고 dbt 있고 여러 가지가 있습니다 근데 여기 지금 빅데이터 캠퍼스에서 쓰고 있는 2:46 데이터베이스는라는 데이터베이스를 쓰고 있어요 얘는 이제 공짜입니다 그 2:52 마라는 데이터베이스를 아하고 접속을 먼저 시켜주는 작업을 해야 돼요 연결을 시켜주는 작업을 해야 되거든요 2:59 연결을 하기 위해서 저 dbi 아는 패키지 라이브러리 하고 그다음에 R 3:07 my SQ 라이브러리가 있어야 mysql 데이터베 접속을 할 수가 3:13 있어요 자 그다음에 여기 co 해놓고 DB 커넥터라는 3:18 거는 데이터베이스는 만들어져 있으면 아무나 접속하면 안 되잖아요 데이터베이스를 3:24 접속하려면 우리가 어느 홈페이지에 로인 하려면 유저 아이디 패스워드 치듯이 그 데이터베이스에 접속을 3:31 하려면 그 데이터베이스에 접속할 수 있는 정보를 넣어 줘야 되거든요 그거를 가지고 연결을 먼저 시키는 3:37 작업을 합니다 그게 DB 커넥터라는 명령이고 연결이 되고 나면요 지금 3:44 가로열고 이렇게 셀렉트 막 써 있잖아요 이게 데이터베이스에서 쓰는 3:50 csql이에요이 명령문을 통해서 데이터베이스에 있는 데이터를 읽고는 겁니다 3:57 지금 그래서 에계시는 에 계시는 선생님들만 먼저 요걸 컨트롤 c 하고 4:02 컨트롤 R 스튜에 붙여 주신 다음에 전체 반전하고 한번 실행만 좀 눌러 4:09 주십시오 자 뒤에 두 줄에 계시는 선생님들은 조금 이따가 요거를 한번 4:15 좀 해도록 할 겁니다 예 그래서 요거를 제가 이제 저희가 대표 4:20 값이라는 걸 설명하는 사이에 그 데이터가 먼저 읽혀지는 작업을 하기 위해서 렇게 좀 먼저 진행을 좀 해 4:27 주셨으면 좋겠습니다 [음악] 4:45 예 대표 값이라는 부분 이제이어서 좀 해 보겠습니다 저희가 첫 번째이 오늘 4:52 이제 수업 시작하기 직전에 데이터를 바라보는 시각 하면서 기술 통계 4:57 관점으로 요약하는 부분 그다음에 대측 모형 뭐 추론하는 방법 이런 것 좀 잠깐 말씀드렸는데 그러면 좌측에 5:04 있었던 데이터의 특성을 파악하는 접근 방식에서 그 기본적으로 알아야 될 5:09 용어들이 있어서이 장표를 만든 거예요 사실이 용어들은 통계적으로 5:15 많이 쓰는 용어들이 합니다 그 데이터 분석이라는 걸 하려면 사실 통계하고가 5:20 밀접한 관계가 있고요 뭐 머신러닝이나 딥러닝을 한다고 하더라도 통계에 대한 5:27 부분들이 많이 좀 누가 있습니다 그래서 이제요 용어 정도는 일단 5:32 일차적으로 아셔야 되기 때문에요 용어를 좀 설명 먼저 5:38 드리겠습니다 자 각각에 대한 용어 명칭이 있고요 그거에 대한 설명을 5:44 달아 놨고요이 개별적인 용어 명칭에 대해서 아에서 그러면 어떤 함수를 5:49 가지고 쓰는지 그거에 대해 옆에서 렇게 표현을 좀 해놨습니다 그래서 5:55 혼자 학습을 하시더라도요 우측에 있는 활용 예시를 쳐 보시면서 아 이게 좌측에 있는 6:03 대표 명칭에 대한 값을 찾을 때 이렇게 연결하면 되는구나 렇게 보시면 될 거 같아요 6:09 우선 평균 뭐 일반적으로 다 아는 거니깐요 근데 평균도 여러 가지가 있죠 산술 평균 조합 평균 뭐 기화 6:16 평균 여러 가지가 있는데 저희가 일단 바라보는 무조건 평균은 산술 평균만 6:21 보시면 됩니다 자 그다음에 분산과 표준편차 자 분산과 표준편차는 평균을 6:28 중심으로 얼마만큼 있냐의 정도를 나하는 도인데 용어 사실은 이게 6:33 중요한 용어 합니다 개별적으로 중요한게 아니라 다른 거하고 묶여서 쓸 때 중요하게 6:39 쓰거든요 그래서 우선 분산 분산은 제곱을 한 거고 표준 편차는 분산에 6:46 루트 씌운게 표준 차다요 정도만 하고 넘어갈게요 자 그다음에 중앙값 자 6:53 중앙값이 거를 왜 써야 되는지 평균하 자주 비교 대상이 됩니다 한번 볼게 7:06 자 데이터를 분석기를 하다 보면 데이터 값이 왜곡되는 현상들이 많이 7:14 나와요 자 간단한 예로 7:21 볼게요 자 데이터가 지금 1 2 3 4 5 6만 이렇게 들어가 있어요 7:26 자이 평균 계산하면 숫자값이 히 큰 값이 나올 거 아니에요 근데 큰 값이 7:33 평균이라는 대표 값으로만 바라보면 굉장히 큰 값이 나와 버리고 그 큰 7:39 값은 데이터들이 대부분 직금 값들을 대상 구성하고 있는데 그 평균이라는 7:44 관점만 봤을 때는 그 큰 값이 나오는 거는 얘네들을 대표할 수 있는 값이라고 표현하기 좀 하거든요 그래서 7:52 데이터를 작은 거부터 큰 거로 나열했을 때 가장 중앙에 있는값 4라는이 값이 오히려 보다이 8:00 데이터의 속성을 더 명확하게 짚어줄 수 있는 대표 값이 되는 거죠 이게 8:06 중앙값이 자 그다음에 최소값은 제일 작은값 최댓값은 제일 큰값 그다음에 8:12 범위라는 거는 최댓값 마이너스 최소값 이고요 자 빈값이 8:23 거는 뭐 이렇게 데이터가 1 2 3 3 3 4 4 5 6 있다 이러면은 8:29 가장많이 나오는 걸 값이라고 하는 겁니다 자 그다음에 1분수 3 4분수 8:36 아큐라 용어 요거는 들어보셨 수도 있을 거고 안 들어보신 분들도 있으실 8:52 텐데 자 1부터 99까지의 숫자가 있다고 할게요 데이터를 자여기이 8:58 데이터 1부 가지 숫자중에서 중앙값 한번 딱 찾아보면 얘가 중앙값이 9:06 그든 가장 전 가운데 50% 해당되는 위치값 1 4분 수라는 값은 이렇게 9:13 나열을 했을 때 25% 위치해 있는값 요겁니다 9:22 요거 1분 자 그다음에 데이터를 이렇게 9:27 열를 했을 때 75% 위치에 [음악] 9:32 있는값 얘를 3 4분위 수라고 얘기를 해요 자 그다음에 iqr이라는 용어는 9:40 뭐냐면이 3사분위 수에서 9:45 3사분위수 빼기 1사 분위 수의 값 요거를 iqr이라고 용어를 9:54 씁니다 자요 지금 대표 값에 대한 지금 저희가 명칭과 설명을 간단하게 드렸어요 자 10:01 이거 어디서 써먹는지 한번 볼게요 다음 페이지 보시면 10:10 됩니다 자 이거를 박스 10:16 플러쉬라이트 10:25 작은 거부터 큰 데로 쫙 나열을 해 보면 만이라는 10:30 숫자는 이쪽에 항상 이쪽에 와 있어요 근데 이거 이쪽에 있다고 해서 10:36 뭔 의미야라고 할 수 있어요 왜 이거를 쓰느냐 데이터를 보다 보면은 10:42 이상치 들어난게 있어요 이상치 이상치를 찾아낼 때 박스 플이라 걸 이용을 합니다 그러면이 박스 플이라 10:50 것이 무엇인지 개념을 먼저 알고 방금 전 페이지에 봤던 대표값을 연결해서 10:55 보려고 하는게 요건요 장표의 취지입니다 자 우선 데이터를 큰 거부터 좌대로 11:02 쫙 나열 했어요 자 정 가운데 있는게 중앙 값이에요 자 그다음에 데이터를 11:09 쫙 나열했을 때 25% 있는 걸 분수라고 말씀드렸어요 자 여기에 11:16 해당됩니다 75% 있는 걸 3 4분 수입입니다 자 그다음에 3 4분수 11:22 빼기 1 4분위수를 IQ 용어를 쓰는 겁니다 자 그다음에 11:29 3 4분수 여기 여기서부터 시작을 해서 iqr 값 곱하기 1.5를 한 11:35 값을 iqr * 1.5 한 값을 34분 에다가 더해주면 더해 줘서 11:42 새로운 값이 나오게 되는데요 기준점을 내 벽이라고 용어를 11:48 씁니다 자 그다음에이 내 벽이라는 기준점을 구하면 여기 어떤 값이 하나 있을까 아니에요 자 여기에다가 다시 11:55 1.5 * rq 또 더해 줘요 그거를 외벽이라 하는 겁니다 그러면 데이터를 12:03 작은거부터 큰거까지 쫙 나열했는데 아까 1 2 3 4 5 6 만 그렇게 있으면 만이라는 숫자는 12:09 이쪽에 있거든요 한참 이쪽에 외벽 중에서도 한참 나와 있어요 자 이상치란 데이터를 보는 12:17 관점을 이제 배우려고 하는 거예요 데이터가 대부분들이 작은 값들 있데 어느 값이 큰 값이 갑자기 딱 12:23 튀어나오면 아까 평균은 원래 데이터의 속성을 왜곡하지아요 12:29 중앙값은 그래도 대표 값을 표현할 수도 있겠죠 하지만 데이터들이 1 2 12:34 3 4 5 6 이런 것들이 한 10억 건 있어요 뭐 100만 건 있다고 할게요 그러다가 12:41 갑자기 대부분의 데이터들이 미만이에요 근데 200만이라는 숫자가 하나 12:46 있어요 그때 평균 구하면 200만이라는 값 때문에 나머지 값들이 평균값이 왜곡되지 않을 12:53 거예요 그럴 때 이상치 아는 걸 확인하기 위해서 이런 박스플러스 이용하는 겁니다 데이터를 쫙 나열해 13:01 봤는데요 내벽이 기준 잡고 외벽이라 기준 잡고 자이 13:06 외벽보수 있다면 걔는 이상치 아고 보는 겁니다 그래서 보통 내벽 넘어가는 13:16 거를이 상시로 볼 때도 있고 데이터를 외벽 넘어가는 것까지를이 상시로 13:21 보기도 합니다 이거에 관련된 함수들을 쓰는게 쉬운 게또 있습니다 그지만 13:27 박스 플러스의 개념을 알아야 함수를 쓰더라 이해가 되실 것 같아서 13:32 자 대표값 하고 묶어서 볼 수 있는 시각화 이거는 박스 플롯입니다 13:38 자 간단하게 한번 제가 사례로 한번 보여 13:45 드릴게요 자 지금 보여드릴 사례는 그 지금 교재에는 없는 13:51 부분이라 냥 간단하게 한번만 봐 주시면 되겠습니다 14:19 자 지금 제가 22라 있에 t 해놓고도 쓰고 1 2 3 4 5 6 14:24 하고 을을 썼어요 이게 뭐냐면 야 라는 14:30 변수에 요런 값들을 넣어라 이런 의미입니다 사실은 저희는 dpy이라는 패키지만 14:37 쓰다 보니까을 설치했을 때 고유하게 있는 기능들은 저희가 지금 수업을 한 건 14:43 아니거든요 지금 제가 2라인에 쓴 거는 아래 있는 고유한 기능입니다 14:48 원래이 화살표 반대로 돼 있는 요게 우측에 있는 걸 좌측에이라는 14:54 변수에 넣어 달라 이런 얘기예요 그리고 라는 거는 15:00 뭐냐면 어 컨케이트 뭐니까이 영어로 뭐 연결이라는 의미 됩니다 15:06 그래서이 C 아는 용어를 쓰면서 1 2 3 4 5 6 1000을 하나의 벡터로 연결해서 넣어 줘 이런 15:13 용어에 자 이거를 한번 제가 자라는 변수에 한번 담았어요 자 박스 플이라 15:20 걸 한번 그려 볼게요 15:30 자 지금 이게 밑에 지금 0 각가의 숫자들이 많아서 그런데 좀 숫자를 좀 늘릴게요 보기 15:51 편하시게 요것도 모양은 이쁜 건 아니지만 그래도 15:56 아까보다 여기가 지금 이게 박스입니다 이게 박스 박스 플롯에 그리고 여기 지금 이렇게 선 16:03 하나 위에 있고 또 아래 하나 있잖아요 요게 내 벽입니다 내벽 그다음에 지금 데이터 값이 1 16:10 2 3 4 5 뭐 이런 거 있다가 천 하나 있었잖아요 그것 때문에 데이터가 저위에 숫자 하나 지금 점치 킨 16:16 거예요 저게 이상치 아는 얘기예요 그래서 파워포인트로 박스 플레이라는게 16:22 뭔지 개념을 지금 설명을 드린 거거든요 이런 시각화를 많이 해야 됐고요 좀 있다 저희가 해 볼 거예요 16:30 자 자 이게 지금까지 했던게 이제 대표 값입니다 자 다음 페이지 그 16:36 넘어가겠습니다 20페이지를 봐 16:43 주세요 자 데이터 조작을 했어요 dpy이라는 아에서 쓰는 SQL 16:48 가지고 데이터 조작을 했습니다 데이터를 조작을 하고 직계도 만들어 16:53 보고 그니까 그룹바이 해가지고 카운터도 해보고 했어요 그것까지는 이제 숫자로서 보는 의미가 있었어요 17:00 하지만 데이터를 누군가 하고 데이터에 대해서 확인을 시키거나 이해를 시키는 17:05 작업을 하려면 숫자로 표현된 데이터보다 그래프로 딱 나와서 이거에 17:11 대해서 특성을 설명을 하는게 더 명확할 거 아니에요 자 그래서 시각화가 필요한 겁니다 그리고 보다 17:17 보면은 포드라는 걸 좀 있다 그릴 텐데 그런 걸 보시면서 또 보는 시각도 키워야 되긴 해요 한번 집접 17:24 해 보겠습니다 첫 번째로 17:58 자 지지 플로라는 패키지를 저희가 쓸 거예요 아까 dpy 아는 아에서 18:05 설치해서 쓰는 패키지가 그런 것처럼 시각화를 위해서 쓸 수 있는 패키지가 18:10 따로 또 있습니다 근데 그게지지 플러이라는 패키지예요 자 그거를 이제 저희가 18:17 설치를 이제 지금 각각에 선생님들이 앉아 있는 자리는 돼 있고 자 그거를 이제 이용할 거예요 자 지지플이라는 18:25 걸 쓰려면 첫 번째로 지지피 고 무조건 첫 번째로 무조건 이제이 18:30 문장이 있어야 돼요 그다음에 가로 열고 여기 지금 제가 좀 표현을 좀 18:36 해놨네요 ggt 하고 가로 열고 데이터 어떤 데이터셋을 쓸 건가 18:42 거기를 먼저 정의를 해 줘야 돼요 그다음에 뭐를 해주냐 여기 두 번째 18:48 줄에 있는 AS 이게 어세 뭐 이런 거 약어입니다 뭐 영어로적인 이런 18:54 약을 해요 그 어라는 걸 써가지고 뭐 표현하자면 x 축에는 어떤 항목을 19:01 넣을 건가 y 축에는 어떤 항목을 넣을 건가 그다음에 색깔은 무슨 19:07 색으로 할 건가 그다음에 데이터들을 개별적으로 데이터들 이렇게 그래프를 그린 다음에 19:14 텍스트를 찍을 건데 그 레이블을 뭐로 찍을 건가 이런 거 정의하는게 AS 19:19 안에다 넣는 겁니다 자 요게 기본으로 항상 있어야 19:24 되고요 요거에이 기본이 갖춰진 뒤에는 밑에 있는지지 플로트 함수 목록 이걸 19:32 갖다가 이제 붙이시면 시화가 돼요 근데이 지지플 2라는이 19:38 패키지는 아까 저희가 DPR 할 때 irs 퍼 세 퍼 더바이 그리고 무슨 19:46 항목 주고 또 퍼 세 퍼 뭐 이렇게 했잖아요 얘도 계속 붙여서 할 수 19:53 있어요 근데 지러 이런 거는 처음에 대 그래프를 그린 다음에 거 20:00 위에 점 그래프도 그릴 수도 있고 그 위에 선도 그릴 수도 있고 뭐 이렇게 계속 할 수 있어요 이게 어떤 20:09 개념이 투명 유리판이 있다라고 할게요 투명 유리판을 처음에 하나 깔은 20:15 거예요 그 위에 새로운 유리판에 뭔가 또 그렸어요 그걸 덮어 씌운 거예요 20:20 또 그래서 첫 번째 층 두 번째 층 세 번째 층네 번째 층 계속 이렇게 20:26 이어붙일 수 있다 얘기예요 그게이 시각화 키지의 장점입니다 20:32 그러면이 시각화 패키지를 할 건데이 시각화 패키지만 돌릴 수도 있고 20:38 저희가 앞에서 배웠던 데이터 조작 패키지인 dpl 같이 붙여서 할 수도 20:44 있어요 근데 우선 연결해서 하는 거 먼저 배도록 하겠습니다 자 개별적으로 이것도 20:53 똑같이 항로 정리를 해놨기 때문에 그거랑 21:00 묶어서 보시면 됩니다 자 페이지수를 22페이지 봐 주시면 21:14 됩니다 자 22페이지 21:20 자 첫 번째로 g 바 그래프입니다 21:29 자 바그래프 하고 그 옆에 보면은 gom 히스토그램 이런게 있어요 자 21:35 첫 번째로 바그래프고 히스토그램의 차이를 먼저 아셔야 되는데 바 21:41 그래프는 저희가 아까 통계적으로 데이터를 분류할 때 명목 서열 등간 비율 이렇게 얘기 드렸잖아요 21:48 GE 먼저 바 그래프는 명목 도일 때 즉 예를 들어서 남성은 몇 명이고 21:54 여성은 몇 명인지 뭐 이런 거 할 때 축에 항목 그냥 명칭을 잡고 그 21:59 명칭에 해당되는 건수가 몇 건인지 막대 그래프 형태로 보여 22:05 주는게 바 그래프이고 자 히스토그램은 x 22:10 축이 특정한 범위 값을 갖고 있어요 예를들어서 이런 거죠 연령 데이터 22:16 같은 경우 0에서 5세 6세부터 10세 11세부터 15세 이런 식으로 22:23 x 축에 범위를 잡은 다음에 그 범위 안에 들어가 있는 빈도수 즉 카운터를 22:30 세 가지고 그거를 막대 그래프로 표현한게 히스토그램 있니다 자 한번 직접 한번 쳐보도록 22:41 하겠습니다 자 제가 이제 먼저 쳐보고 한번 설명 부여 설명을 드릴게요 23:11 자 지금 우측 하단에 우측 하단에 아 우측 하단에 지금 그래프가 23:18 지금 나와 있고요 저 우측 하단에 있는 나와 있는 그래프를 크게 보려고 하면요 줌을 누르게 되면 이게 별도로 23:25 이제 커져서 별도로 뛰어 나오게 돼요 자 명령문 관점만 먼저 23:33 보겠습니다 자 irs 데이터셋으로 붙어 시각화를 할 거예요 자 지지플이라는 거는 꼭 써야 23:42 된다고 말씀드렸어요 그래서 지지플 해놓고 irs 쓸 거기 때문에이 23:48 파이프라인 요거를 파이프라인 기라고 하거든요 퍼센트 세 퍼센트를 연결자 23:53 자 irs 데이터로부터 시각화를 할 건데 23:59 어세 적으로 요게 항목을 하나만 쓰면 축이에요 그래서 세 스라는 걸 x 24:06 축에 깔아주고이 각각의 세스의 값들을 카운터 막대 그래프를 그려줘 24:15 이런어요 그렇게 했을 때 원래 세 스라는이 값은 숫자 값이에요 24:22 숫자인데 숫자이지만 카운트되지 못하는 법은 없잖아요 그래서 숫자값 카운터를 24:29 세 가지고 막대 그래프를 그려 줘 한 거고요 DPR yr 그래는 퍼센트 24:35 거세 퍼트라 걸 가지고 연결자 썼어요이 시각화에서지지 플이라이 24:41 시각화에서 연결자 퍼센트 커세 퍼센트를 쓰는게 아니라 얘는 더하기를 24:47 씁니다게 차이입니다 자 요거 한번 쳐 쳐 보시겠습니다 24:58 자 한번 쳐 보시고 우측 하단에 그래프 나오는 것도 한번 보시면 좋을 것 25:07 같습니다 자 요거 한번 쳐봐 주시고요 자 그 사이에 제가 좀 미리 25:13 히스토그램을 좀 준비를 좀 해 놓겠습니다 25:42 자 요거 이제 되신 분들은 조금만 편리하겠습니다 저희가 25:48 좀 실습을 해보려면 왜냐면 저희가 조금 전에 dyr 할 때 데이터 조임 부분에 25:54 대해서는 설명만 드리고 실습 안 해봤거든요 그 이제 뒤에 저희가 25:59 마지막 4장 쪽에 실질적으로 축제 데이터를 가지고 실질적으로 160만 26:05 건을 가지고 데이터를 처리를 해 볼 건데 그때 존이라는 거 써보기 위해서 한번 지금 좀 빨리 해보려고 하는 26:11 겁니다 자 히스토그램 있니다 자 제가 히스토그램에 지금 26:17 교재에는 지금 이제 goa 원더바 히스토그램 해놓고 뭐라고 써 있을 거예요 근데 지금 아무것도 안 쓴 26:23 상태에 히스토그램을 먼저 했어요 자 이렇게 했더니 빨간 것로 뭐가 26:30 나왔는데이 빈스이 30을 이용해 했다 이렇게지 표현이 돼 있어요 빨간색으로 26:35 이게 26:49 뭐냐면 빈스 이렇게 3 이게 돼 있는 건 런 항목 기들을 알이 알아서지가 26:56 알아서 30개로 만들어서 를 잡았다 얘기예요이 축을 조종할 수 있잖아요 27:03 조종해야 되거든요 필요에 따라서는 아까 0세부터 5세 6세부터 10세 27:09 이렇게 할 수도 있고 어떨 때는 0세부터 10세 이렇게 할 수도 있잖아요이 폭을 조정할 필요도 있는 27:14 거죠 그때 조종하는게 여러분들 선생님이 갖고 계시는 자료에 써 있는 27:20 문장입니다 제가 한번 조정을 한번 해 볼게요 27:29 여기에 저는 그냥 빈스 해볼게요 빈스 해놓고 3을 27:35 줘 버릴게요 어떻게 하는지 한번 봐주세요 자 이렇게 세 칸으로 나오는 27:43 겁니다 축의 범위가 넓어지는 거죠 자 데이터에 대해서 가장 많이 봐야 될 27:51 시각화 중에 하나가 바그래프 히스토리입니다 자 요런 식으로 쓰는게 27:58 히스토그램이라는 함수 자 그 뒷장을 이제 한번 또 28:04 보겠습니다 23 28:10 페이지입니다 자이라는이 패키지 안에서 막대그래프를 28:15 그릴 수 있는 기능은 딱 세 가지가 있어요 바그래프 히스토그램 그다음에 그니까 g 바 28:22 bar 바 g 더바 히스토그램 그다음에 g 라는 함수가 28:29 있습니다 자 gom 바나 gom 히스토그램은 x 축만 딱 정의를 28:37 해주면지가 알아서 카운터를 세 가지고 막대 그래프를 그려 줘요 근데 28:43 데이터를 만지다 보면은 X 축과 Y 축을 제가 값을 다 구해 놓고 걔를 28:49 가지고 바 그래프를 그고 싶을 때가 있거든요 그때 쓰는게 더라는 28:55 함수입니다 지금 저희가 이제 해보려고 하는 게 그 함수입니다 자 한번 보겠습니다 제가 29:02 한번 쳐 볼게요 29:12 [음악] 29:39 자 제가 친 명령에 대해서 한번 설명을 드리고가 보겠습니다 자 dpy고 그대로 29:46 연결해서 그냥 쓴 겁니다 자 irs 데이터로부터 먼저 스페시스 항목으로 29:53 그룹을 잡 잡은 다음에 몇 건씩 있는지 카운터를 해 본 거예요 자 카운터를 했다 30:00 보니까 여기 서머라이즈 거만 해가지고 실행을 시키면 결과값은 스페시스 항목별로 몇 건씩 30:08 있는지 그게 두 개지 데이터 값만 나오거든요 자 제가 지금 이렇게 긴 30:13 문장을 쳤지만 문장을 치다 보면은 가끔 에러가 할 때도 있어요 그럴 30:19 때는 부분부분 끊어서 해 볼 수도 있습니다 한번 볼게요 제가 30:25 지금이 문장을 이렇게 썼어요 자 선까지만 한번 렇게 30:30 반전시켜서 얘만 제대로 나오는 건지 이렇게 돌려봐도 돼요 그래서 지금 돌려보니까 스시라 30:39 항목고 n이라는 항목 두 개가 이제 딱 잡힌 거잖아요 자 그러면은 얘를 30:45 X 축을 y 축으로 한 다음에 바 그래프를 그리고 싶은 거예요 그래서 30:51 go 원더바라는 함수를 쓰면 같이 묶어서 돌리면 X 축 y 30:58 축 다 그려진 바 그래프가 나오는 31:04 거죠 연 연월 별로 연월 별로 유동 인구수가 어떻게 되는지 이렇게 카운터 31:10 해 가지고 x 축에 연월 y 축에 유동 인구수 뭐 아니면은 월별로 카드 31:19 사용 금액 러면 x 축에 월 y 축에 카드 사용 금액 이렇게 데이터를 구한 31:25 다음에 시각화를 하면 되는 거죠 자 이게 원 co 대는 31:34 함수입니다 자 그다음에 포인트를 한번 해 31:41 볼게요 자 포인터는 스케트 플이라 용어들 쓰는데 점도는 굉장히 중요한 31:48 시각과 패키지 중에 또 하나입니다 함수 중에 자 제가 산점도를 직접 한번 31:54 지금 교재에 있는 그대로 한번 쳐보겠습니다 a 32:43 자 산정도 두 개를 좀 비교를 할 텐데요 자 32:50 지금 자 이게 첫 번째 산전동 window 자 보시면 전부 색깔이 32:56 검정색이에요 그렇죠 자 얘네들을 특정한 그룹별로 특정한 집단별로 색깔을 달리 쓰기 해서 33:04 명령문을 준게 선생님들이 갖고 있는 교재에 컬러라고 돼 있고 스시라고 써 33:11 있는 부분이 있어요 그거를 주면 여기에 이제 점도의 색상들이 달리 33:16 표현이 되는 거예요 그라는 그 부분에 쓰는게 아까 33:21 X 축 좌표 x 항목축 항목 그다음에 컬러 33:28 그다음에 막대 그래프 색깔 라벨 뭐 이런 거를 쓰는 거예요 자 한번 33:33 컬러스고 줬을 때 똑같이 한번 교재 있는 거 똑같이 한번 쳤을 때 어떻게 되는지 볼게요 자 요렇게 색상별로 33:40 나옵니다 자 33:46 그러면 자요 산점도를 봤어요 그려봤어요 33:55 잠깐만요 자 산점도를 그렸습니다 어 그렸어 이거 근데 뭐지 그렸으면 된 34:03 거 아니야라고 하면 안 됩니다 자 보세요요 빨간색 세토 34:10 사예 자 그다음에요 초록색이 버지 하려고요 청색의 비그 34:17 니에요 산점도 분명히 그렸어요 자 근데 빨간색 34:23 세토는 다른 붓꽃 종류에 비해서 꽃받침과 34:30 꽃이가 확연이 다르잖아요 그러 숫자값을 가지고 34:36 얘가 세토사 버칼 비지 명확하게 얘는 구할 수 있단 얘기예요 그렇게 34:43 해석하는게 필요한 거예요 자 그다음에요 나머지 34:51 비하고 칼라 같은는 중간에 교차되는 분이 34:56 있어요 건가 고민해야 되는 거예요 데이터들을 이렇게 이런 거 35:03 한번 생각해 볼까요 35:09 세수대야에 콩도 놓고 돌 덩어리도 놓고 그다음에 뭐 35:14 좁쌀도 놓고 막 섞어 있어요 자 데이터를 분류를 해야 35:20 돼요 이거를 분류를 할 때 세수 대에 물론 담겨 있지만 이거를 35:32 [음악] 35:41 자 요런 통에다가 다 옮겼다고 할게요 세수 대가 있는 거를 자이 35:48 통을 막 돌린다고 할게요 회전을 한다고 할게요 자 그러면 제일 35:53 무거운게 밑에 오겠죠 자 제일 가벼운게 위로 오겠죠 지금 버디 니하고 비클 지금 섞여 36:00 있어요 중간에 저 데이터들을 어떻게 돌리던 뭐 하던간에 36:07 요렇게 중간 무거운 거 제일 무거운 거 가장 가벼운 걸 이렇게 분류를 해놨을 때 가벼운 끼리는 지네들끼리 36:15 지금 잘 뭉쳐 있을 거 아니에요 집단으로 뭔가의 특성을 분류를 할 때 같은 집단의 36:23 끼리는 결이 잘되게 해놓고 집고 간의 관계는 멀리 떨어뜨려 놔야 되는 거야 36:30 이거를 숫자상으로 표현하면 내부 집단끼리 평균을 중심으로 분산이 표준 36:38 편차가 가깝게 해줘야 되고 36:56 집단고소 원래 데이터는 이렇게 왔어요 이거 이제 분류해야 되잖아요 그러면 37:02 필요에 따라서 이런 개별적인 값들에 제곱을 하던지 아니면 로그를 씌우던 루트를 37:10 씌워보고 산점도를 그려봐서 집단들간에 자 분류가 되는지를 해봐야 되는 거예요 이런 것들이 아까 처음에 37:18 데이터 분석 방법론 말씀드릴 때 모디파이라는 과정이 있었어요 그런 37:23 접근할 때 이런 걸 쓰는 겁니다 데이터들 에는 명확하게 뭔가 37:29 분류할 수 있는 기준점을 마련해야 그 데이터를 대변할 수 있는 속성값이 되는 37:34 거거든요 자 그런 관점에서 산점도를 먼저 그려보고 데이터에 탐색 이해를 하는 작업을 하는 37:44 겁니다 예 다음 페이지 한번 [음악] 37:51 보겠습니다 자 30 2페이지는 좀 쉽게 하나만 도록 하겠습니다 이건 38:00 뭐냐면이이 그래프 상에 x 축으로 선을 하나 글 거냐 y 축으로 선을 38:05 그 거냐 이겁니다 선을 하나도 그 수도 있고 몇 개도 그릴 수 있어요 근데 선 직선을 하나 그냥 임의의 38:13 위치에 그니까 뭐 특정한 값 위치에 선 하나 그리겠다 y 축에 선 하나 그리겠다 38:19 이게 V 라인 H 라인 이렇게 표현한 겁니다 V 라인은 버티컬 라인 H 38:25 리탈 라인이 해서 것뿐입니다 하나만 실습을 좀 38:32 해보겠습니다 자 산점도로 있는 걸 가지고 한번 실습을 해 보겠습니다 그래서 24페이지 오른쪽 거죠 리존 38:45 라인 자 제가 한번 그대로 한번 쳐 볼게요 39:25 자 제가 지금 39 인의 지금 반전한 부분입니다 한번 해석좀 한번 같이 39:31 하고 가겠습니다 자 irs 아는 데이터로 붙어 시각화를 하는데 x 축에는 세팔 39:39 랭스 y 축에는 페 랭스를 가지고 잡아주고 시각화는 산점도로 해 줘라고 39:47 해서 포인트라는 함수를 쓴 거예요 자 그럼 3도까지 그래프가 나왔겠죠 점들은 아까 했을 때 여기 컬러라는 39:54 부분이 있었어요 자 색상을 집어넣는게 두 가지 방식이 있어요 요렇게 40:01 개별적으로 컬러 뭐 아까 스펙 컬러스 뭐 이렇게 쓴 거 있었잖아요 그거를 40:06 저희는 파라미터는 용어를 씁니다 컴퓨터에서 전산 아시는 분들은 파라미터는 용어를 40:12 쓰는데 색 색깔과 관련된 파 색상과 관련된 파라미터는 두 가지가 있습니다 40:18 컬러스 아는 이거 영국식 발음으로 컬러스고 쓰기도 하고요 그냥 컬러라고 써도 돼요 40:24 미국식으로로 써도 되고요 컬러스고 써도 상관없어요 그다음에 40:38 필이라인전이나 선의 색깔을 넣 때는 컬러라고 쓰는 거고요 막대그래프에서 40:43 색상을 넣을 때는 피를 쓰는 거예요 거만 기억을 하시면 돼요 자 40:49 그래서 우선 바 그래프를 그니까 히스토그램을 그렸고 아 스케트 플롯을 40:55 그렸고 거기에 h 리존 라인을 그릴 거예요 그러니까 리존 라인은 x 축이 41:02 아니라 y 축 기준으로 손을 그리는 거기 때문에 x 인터트 x 상수값을 잡은 41:09 거예요 거기에 상수값 어떤 값을 대입을 했냐면 irs 스라는 값의 41:16 평균값으로 그냥이 상수를 잡아 줘라고 쓴 거예요 그리고 색상은 빨간색으로 칠해 41:23 줘 세팔 랭스의 평균도 한번 구해서 41:30 이렇게 선 그릴 수도 있고 테팔 랭스의 평균값 구해서 이렇게 선 그릴 수 있잖아요 41:36 그러면 각각의 x 축의 항목의 평균값 y 축의 항목의 평균값 들 기준으로 41:43 선이 하나씩 그려지니까네 개의 면이 나올 거 아니에요네 개의면 중에 데이터의 분포가 어떻게 있을까 이렇게 41:49 또 생각도 해 볼 수 있는 거예요 그러면서 계속 찾아보는 겁니다 이런게 41:54 탐색이라는 과정에 걸쳐야 될 과정들이 그 하나입니다 42:01 자 요거 이제 한번 넘어가 보도록 42:06 하겠습니다네 gom 텍스트는 일단은 있는 거로 한번 42:11 보도록 하겠습니다 교재에 있는 거로 그래서 25라 이의 자축을 보시게 되면 자 irs 이제 명령문 있는 42:19 데를 봐주세요 irs 퍼 세 퍼 해놓고 지지플 해놓고 AS 축에는 42:27 세스 y 축에는 페스 그다음에 레이블 레이블이라고 주게 되면 어떤 명 42:34 텍스트를 이제 문자를 글자를 쓸 건데 레이블에 어떤 거를 글자로 쓸 건가를 42:40 정의를 해 주는 겁니다 항목 명칭을 정의를 해 주는 거예요 그런 다음에 42:46 g 원더바 포인트에서 산점도를 먼저 찍고 텍스트를 쓸 때는 원더 텍스트라 42:53 또 함수를 가지고 쓰는 것뿐이에요 근데 거기에 제가 찌 언더바 x 42:58 해놓고 0.2 잡아 놓은게 있어요 이게 뭐냐면지 언더바 x = 0.2를 안 43:05 쓰면 그 점 위에 글씨가 찍혀요 그거를 약간 옆으로 피해기 하기 43:11 위해서지다 x 걸 쓴 겁니다 예 그렇게만 봐 43:18 주시고요 우측에 있는 박스플러스 한번 그려 보겠습니다 예 아까 저희가 박스 43:24 플이라 의미를 왜 쓰는지를 한번 설명을 드렸으니까 박스 플이라 걸 한번 43:30 그려보겠습니다 자 120 그니까 25 라인에 자 스페이스라는 개벽이 43:36 항목별로 스페시스 세 가지가 있었어요 그 항목별로 세팔 랭스는 거에 대해서 43:43 박스 플러 시각화를 해 보는 겁니다 44:25 아 지금 제가 쓴 거하고 여분 선생님들이 지금 보 쓰실 44:30 거하고는 좀 다른 부분이 좀 있습니다 자 44:38 지금 교재 있는 부분은 자 여기까지만 돼 44:43 있어요 요거죠 요거 자 이거로 했을 때 박스 플러 그리 데는 전혀 문제가 44:49 없습니다 이렇게 나오면 되니깐요 자 그다음에 지금 여기 버러 쪽에 검정색 44:55 점하나 있어 칩니다 굉장히 낮은 값이 뭔가 다른 것들은 큰데 얘는 낮다라는 얘기예요 45:02 근데 제가 지금 요런 명령을 부 45:07 붙어요지지 플러트이 시각화 안에는 여러 가지 함수들이 또 이게 45:13 시각에 관련된 시각화에 관련된 함수들이 많이 있습니다 근데 첫 번째는 여기에 지금 45:18 선들이요 이렇게 뭔가 그려진게 없이 그냥 끊어졌으니 요게 서을 좀 45:24 표현하고 싶은 거예요 걸 라고 얘기를 합니다 라바 그래서 여기에 라바를 좀 45:32 표현을 하려고 여기 stat 언더바 박스 45:37 플러 해놓고 g이 놓고 라바 이렇게 하면 저기 선들이 45:43 커져요 그니까이 에스트라는게 스태틱의 약어입니다 통계적인 박스 플러 통계적으로 박스 45:52 플을 그려서 넣는데 라바를 넣어달라 45:57 라고 병어를 쓴 거예요 이거를 돌리면이 시각화의 46:03 위치에 x 축에 선들이 이제 그려져서 나타나게 46:08 됩니다 자 요렇게 표현이 되는 46:16 겁니다 예 그렇게 되고요 다음 페이지로 한번 보겠습니다 46:27 다음 페이지 두 개는 설명을 하고 넘어가도록 하겠습니다 자 스라는 거는 46:33 지금 저희가 시각화를 했는데 시각화를 했는데 지금 영문으로 스시스 그다음에 46:40 세스 이렇게 잡힌다 이거죠 x 명칭을 붓꽃 종류 축의 명칭을 46:49 뭐 꽃바침 뭐이 뭐 이런 식으로 한글 명칭으로 바꾸거나 할 때 46:55 또는 에 여기 타이틀을고 싶을 때 또 47:01 서브타이틀을고 싶을 때 이럴 때 용어를 쓰는게 스라는 함수를 붙여서 47:06 쓰면 되는 겁니다 아까도 말 플로트는 층을 계속 쌓는 거예요 그니까 47:12 여기까지 시각화를 해서 층을어요 거기에다가 스라는 걸 한을 싼 거예요 47:18 그렇게 해서 나타난다는 거죠 그다음에 우측에 있는교 측에 47:25 있는 과은 x 축의이 구간을 더 넓힐 거냐 47:34 얼마부터 얼마까지 보여주게 할 거냐이 좌표값의 범위를 잡는 겁니다 디폴트로 저희는 지금 X 47:41 축하고 Y 축을 구터 해 줘 이런 얘기를 안 했거든요 아무것도 안 하다 47:46 보니까지가 알아서 시카가 x 축의 최소값 얼만지를 구하고 하마 y 축의 47:51 최댓값 얼만지 구하고 이런 식으로 해서 그렸을 거예요 근데 이거를 뭐 0부터 그리게 하고 싶다 47:58 꼭짓점을 0부터 시작하고 싶다 그러면은 이제 xli y 축도 꼭짓점 시작하고 싶다 48:03 그면 yli 이런 식으로 값을 조정해서 시각화를 보여주는게 우측에 있는 48:11 함수입니다 예 여기까지가 사실 제가 준비한 시각과 패키지인데요 시각화 48:17 패키지가 지금 설명드린 거가 꼭 아셔야 되는 시들만 먼저 설명을 드린 48:23 거예요 부수적인 시각 패키지들이 있습니다 함수들이 좀 많이 어요 근데 그런 48:28 부분들은 긴 시간이 요하기 때문에 시각화는요 정도까지만 48:37 하고요 늘 제가가 많은 분들 앞에서 이제 이렇게 48:43 강의하는 거를 많이 안 해 받기도 했지만 48:49 아 그 지금 설명드리는게 제가이 시각화까지 하는 것도 보통 48:59 한 20시간 정도 작업을 해야 되는 과정이에요 49:04 제가 예전에 이제 그 데이터 분석과 관련된 학원 49:12 주말에 이렇게 수업 금하게 했다는 경험 속 있어서 말씀을 드리는데 이게 지금 제대로 하려면 좀 오래 걸립니다 49:20 근데 그중에서 정말 꼭 이거 정도만 알아도 우선 해볼 수 있는 거만인 49:26 지금 계시는 내용들이에요 그래서 그 부분에 대해서만 먼저 집중적으로 설명을 드리는 49:33 거고요 하간 지금까지 했던 부분들을 가지고 이제 축제에 대한 시습 분석을 49:40 한번 좀 해 보도록 하겠습니다 아 이거를 하기 전에 우선 잠깐 쉴 건데요 이제 뒤에 계시는 49:49 분들 아까 SQL 아에서 데이터를 먼저 49:54 생성하는 작업들을 좀 해야 되거든요 자 그거를 이제 한번 또 돌려주시면 50:00 좋겠습니다 [음악] 50:06 아 자 바탕 화면에이 파일이 있습니다 데이터셋 조에 리라고 돼 있는 파일이 50:13 있습니다 바탕화면에 바탕화면이 없는 분들은 손을 좀 들어 주시면 50:19 되고요 그래서이 파일을 여가지고 다시 말씀드리지만 분 복 50:28 R 스튜디오로 붙이시기 하신 다음에 R 스튜디오로 붙인 50:33 다음에 요렇게 붙이신 다음에이 전체를 이렇게 반전시키고 런을 시켜 주시면 50:40 돼요 요거 데이터를 긁고 오는데 한 4분 정도 정도 걸릴 거예요 데이터 50:46 건수는 한 160만 건 되고요 자 이거를 가지고 실습을 직접 해 보려고 하는 거기 때문에 요거를 좀 생성을 50:53 하는 겁니다 보통 실습을 할 때 데이터 뭐 한 뭐 2천건 3천건 이렇게 하는 거는 좀 의미가 없으실 50:59 것 같아서 이왕 하시는 거 좀 제대로 해 보는게 맞지 않을까 해서 좀 제가 이렇게 미리 준비를 좀 한 건데요 51:05 요게 지금 저희 수업의 과정이 아닐까 생각입니다 제일 고비가 아닐까 이게 잘 생성이 돼서 바로 뒤고 좀 51:12 연결해서 가야 되는데 그게 좀 염려가 되긴 합니다 자 본격적인 시작에 쳐서 어떤 51:20 거를 분석할 건지 잠깐시기 전에 요것만 설명해 드릴게요 2페이지를 좀 봐주시면 51:26 서울시에서는 여러 가지 그 기간별로 축제들을 하고 있습니다 저도 이제 가보진 않았지만 51:33 지나가면서 본 거는 같아요이 뭐롱 빛초롱 축제라는 걸 하는 거 같은데 51:39 저희가 지금 활용할 데이터는 2014년도 가고 2015년도 데이터입니다 빛초롱 데이터에 대해서 51:47 일단은 데이터 셋이 지금 빛초롱 데이터라는 거를 구성하는 데이터셋이 어떻게 구성이 돼 있는 거고 자 이걸 51:55 가지고 그러면 어떤 거를 분석하지 주제를 또 뽑아야 되잖아요 그 주제를 뽑는 걸 간단하게 아까 저희가 처음에 52:02 데이터 분석 주제를 찾는 것처럼 어떤 분석을 해 볼 거야 그걸 뽑는 것도 똑같은 시각으로 52:09 한번 생각을 해보고 그거에 따라서 개별적인 실습을 해 보도록 하겠습니다 52:14 예 잠시 쉬다가 시부터 진행 아 시부터 진행을 하도록 52:24 하겠습니다 저희가 오늘은 정형 데이터를 하 있지만 사실은 또 관심이 52:30 있으신 분들은 또 비정형 데이터에 관심들이 또 있으실 수 있어요 비정형 52:36 데이터는 사실 지금 이제 다 다다음 주에 이제 하겠지만 사실 일반적으로 비정형 52:43 데이터 분석한다 그러면 만일 생각하는게 워드 클라우드 정도만 생각하시는데 그거 말고도 사실 여러 52:49 근거도 있습니다 근데 이제 우리 한국 한국이라는 나나 물론 특성만 봤을 52:55 때는 한글이라는 부분이 조금 영어처럼 분석이 깔끔하지가 않아서 한글에 53:02 대해서 비정용데 있다 분석을 한다 그 형태소 분석이라는 걸 해야 되거든요 그래서 형태소분석 그니까 우리 문장에 53:10 대해서 아홉 가지의 품사를 공유하거나 22가지의 품사로 립을 해서 거기서 53:16 이제 품사 어떤 것들을 뽑을 건지 이런 것들을 또 찾아내야 되는 작업 합니다 지금 갖고 계시는 교제 뒤쪽에 53:23 보면 이제 텍스트 분석하는 방에 자료를 제가 거기에 다 표현을 좀 해 놨어요 다음에 이제 또 오시게 되면 53:32 어 텍스트 데이터에 대해서 형태소 분석기를 돌려 가지고 나온 결과치에 대해서 이제 한글만 찾는 특히 또 53:40 명사 단어만 찾는 뭐 이런 작업도 해야 될 거 같고요 사실 형태소 분석이나 이런 거를 하는 이유가 53:47 나중에 문장을 가지고 데이터 셋을 만들어서 머신러닝이나 딥러닝에 태울 53:53 수 있는 기반 데이터도 되기도 합니다 CNN 님 알파고 같은 경우는 CNN 이제 알고리즘을 쓴 거고요 뭐 54:00 체포시 이런 것들은 rnn 많이 쓰는데 그런 거를 할 때 체포시 54:06 용어들 많이 쓰죠 체포 시스템 뭐 이런 것들 그런 거 할 때 어쨌든 한글에 대한 특성 데이터를 만들려면 54:13 아 저희 한국이라는 나라 관점에서 형태시 분석를 해야 되고 그거에 대한 54:19 결과 답 변치 만들어서 R 맨으로 막 돌리고 하는 작업들이 이어져야 되는데 54:24 어쨌든 전 처리로서 어 텍스트 분석의 개념을 알아야 집단을 진행하시는게 쉽지 않을까 54:30 생각이 듭니다 예 이제는 실습입니다 실습이 아까 잠깐 54:38 말씀드린 것처럼 초롱 데이터에 대해서 실습을 해 보겠습니다 사실 제가 이제이 빛초롱 54:47 축제에 대한 데이터를 뭐 예를 들어 2018년 것까지 있고 그러면은 이제 54:53 좀 몇 년 치에 대해서 좀 다양하게 볼 수도 있을 텐데 현재 여기 빅데이터 54:58 퍼스에이 축제에 관련된 데이터가 14년 거하고 15년 거밖에 없어서 55:04 그래서 요거밖에 못 쓰는 거고요 데이터 건수는 그래도 한 160만 건 되니까 55:10 아무래도 저희가 다루는게 데이터 분석이라는 주제를 다루긴 하지만 그 앞에 빅라 단어가 항상 붙는 상황에서 55:17 하는 거니까 일단 160만 건이 오히려 좀 의미가 있지 않을까 생각이 듭니다 자 데이터셋 한번 볼게요 55:27 자 지금 저희가 활용할 데이터셋은 아 여기 지금 항목 명칭이 55:33 조금 일률적이지 사실 않습니다 여기 자가 이렇게 들어가 있는이 단어들은 55:39 원래 코드 데이터라는 얘기인데요 원래는 코드 데이터로 들어가 있는데 55:45 저희가 이제 수업을 하기 위해서 제가 아까 그 한씩 돌려가지고 데이터 55:51 만드는 업을 했었잖아요 스크립트로 그 가지고 여기에 코드가 아니라 명칭이 55:58 이렇게 들어가게 제가 로직을 짠 겁니다 근데 어쨌든이 지금 활용할 56:04 데이타 명들은 축제 연도와 뭐 축제명 그다음에 섹터 코드라는게 있는데 56:10 여기는 전부 각들이 1루 들어가 있고요 그다음에 연월일이 있고 업종 56:15 업종 명칭 성별 명칭 연령대 명칭 그다음에이 축제에 대해서 외부에서 56:22 어디 사람들이 제일 많이 들어왔나 유지에 대한 명칭들 그다음에 시간대 정보들 그다음에요 시간대에 맞는 카드 56:30 매출 금액이 얼마큼 되는지 그다음에 건수가 어떻게 되는지 런 정보들을 이제 갖고 있습니다 자 그러면 아까는 56:38 주제를 정했던 관점이었고 역시 이거를 똑같이 이렇게 나열을 해서 뭐 무엇을 묶어 가지고 한번 56:47 데이터를 탐색해 볼까 이런 거 이제 생각을 해볼 필요가 있다는 거죠 그래서 제가 생각할 때 그냥 56:53 저희가 실용으로 하기 위해서 그렇게 다섯 가지 정도는 한번 해보면 어떨까라고 해서 주제를 그냥 뽑은 57:00 겁니다 일단은 관심사가 될 만한게 연별로 매출액의 차이가 매출 금액에 57:06 차이가 있는지 뭐 예를 들어서 축제 기간 전에 당연히 축제 기간 전보다 축제 57:13 기간 동안 매출이 올라갈 건데 맞는지 확인도 한번 해봐야 될 거 같고요 57:18 그다음에 축제 기간 동안에 매출이 발생을 하지만 이게 성별로 또 차이가 있는지도 궁금할 거고 아니면 보다는 57:26 이제 업종 관점에서 어떤 업종이 가장 많이이 축제 기간에 매출액이 많이 57:33 올라가느냐 그다음에 시간대별로 봤을 때는 어느 시간대에이 축제가 사람들이 57:39 많이 호을 하고 있는지 뭐 이런 것들도 보는 거죠 또 지금은 개별적인 항목별로 57:46 이렇게 제가 지금 표현을 해 놨지만 크로스 체크를까 교차 집계 표라고 얘기를 57:51 하거든요 예를 들어서 성별된 시간대의 현황이 비슷한지 뭐 이런 것들 근데 데이터리 58:00 통계적인 분석 접근을 좀 많이 해 보는 것들이 사실 좀 해 볼 수도 있습니다 근데 이제 통계적인 용어들이 58:06 들어가고 그런 것들을 이제 해 보려면 이제 통계 총론 뿐만이 아니라 강론 58:12 통계학의 기본을 총론이 하고요 회기분석 인자분석 주성 분석 뭐 이런 58:18 개별적인 것들 강이라고 하는데 강론에 대한 이론을 조금이라도 들고 이렇게 58:24 하면 이제 여러 가지 분석들도 해 볼 수도 있 있을 것 같은 생각도 드는데 우선은 접근 방식에 대한 그러니까 58:30 제가 오늘 준비한이 자료는 데이터를 분석을 한다 그러면 사실 나무를 먼저 58:36 보는게 아니라 숲을 먼저 봐야 돼 그러면 습 관점에서 먼저 보고 그다음에 나무 관점으로 해석을 해 58:43 들어가야 되는데 지금 저희가 실습할려는 요것도 나무 관점이 하나입니다 그래서 아까 말한 것처럼 58:50 예측 쪽인 아니지만 현황에 대한 특성을 이해하고 현황에 대해서 어떤 어떤지를 58:57 탐색해서 인사이트를 찾는데 목적이 있으니까 기술 통계 정리 관점에서 59:02 저희가 데이터 분석을 실습을 해 59:09 보겠습니다 자 이제 아까 저희가 이제 요거를 잠깐 돌렸었는데 요거 간단하게만 설명을 드리고 밑에 쪽은 59:17 저희가 좀 한번 확인을 해보면서요 명령을 개별적으로 또 돌릴 수도 있습니다 자 우선은 다시 말씀드리지만 59:25 저희가이 분석을 하기 위해서 아까 첫 번째로 dpy이라는 패키지를 저희가 59:33 배웠습니다 자 그다음에지지 플로라는 시각화 패키지를 저희가 설치를 해서 59:39 배웠습니다 자 그다음에 dbi R SQL 아까 말씀드린 것처럼 여기 59:46 지금 빅데이터 캠에서 쓰는 데이터베이스가 mysql이기 때문에요 두 개의 라이브러리들이 59:53 있어야 mysq 데이터베이스 붙을 수도 있고 또 붙은 다음에 그 59:58 데이터베이스에서 정보를 끌고 올 수가 있는 겁니다 그 끌고 오기 위한 명령이 여기 지금 셀렉트 문으로 쓴 1:00:05 거고요 요게 안시 SQ라는 겁니다 자 안시 퀘를 가지고 데이터를 했고 여기 1:00:12 저 보시면 요런 용어는 이제 아웃트 조인 이렇게 나와 있잖아요 아까 1:00:18 아래는 아웃트 네프트 웃 조인 아이오타인 이런 것도 있었고 세미조인 안티조인 뭐 이런 것도 있었잖아요 1:00:26 이런 명령을 쓰 써 가지고 안시 SQ 아는 걸 만들 거 만든 겁니다 자 1:00:33 그다음에 지금 개별적으로 앉아계신 선생님들 자리에서 1:00:39 데이터를 str 해 놓고 언어 언더가 데이트 하면은 데이터 하면은 한글이 1:00:46 깨질 나오는 부분들이 있을 수도 있어요 자 한글이 깨진 거를 원래대로 1:00:52 복원하는 작업을 좀 하려고 합니다 그때 쓰는게 라는이 함수를 쓰는데요 이게 뭐냐면 1:01:00 이게 아가 인터네션 약자입니다 그래서 국가 코드로 변형을 1:01:06 시키는 함수 그래요 자 우리가 쓰는 일반적인 1:01:12 데이터는 문자든 특수 기든 이런 것들을 관리하고 있는 데이터 코드값이 1:01:17 있어요 컴퓨터에는 이걸 캐릭터 셋이라고 하거든요 그래서 기억 니 이런 1:01:23 것들마다 코드를 부여해 있어요 근데 데 이거를 이제 표준화시켜 만든 1:01:30 것들이 utf 8이라는 표준화에 대한 캐릭터 셋이 있습니다 지금 저희가 쓰는 것들은 1:01:37 utf 8이라는 캐릭터 셋이 돼 있는데 저희가 지금 R 기반하에 1:01:43 ysq 접속을 해가지고 데이터를 읽었는데 한글이 깨지는 경우가 좀 간혹 나와요 1:01:49 그거를 한글에서 관점에서 해석을 좀 안 깨지게 하는 데이터 셋으로 변형을 1:01:55 하려고 그래 그게 CP9 49라 명칭으로 불리는 데이터 셋입니다 1:02:01 캐릭터셋 캐릭터셋 그래서 utf 8로 돼 있는 캐릭터 1:02:06 셋을 CP9 49는 캐릭터셋으로 변형하는 거를 다섯 개의 항목에 대해서 수행을 좀 할 거고요 자 1:02:14 그다음에 여기 str 스라는게 있어요 요거는 1:02:21 뭐냐면 요거는 s r이라는이 키지에 있는 1:02:27 함수인데요 저희가 문장을 다루거나 막 이럴 때 막 이상하게 막 스페이스가 1:02:33 많고 특수교 있고 이런 것들이 있어요 그런 것들을 깔끔하게 정리해 주는 함수가 str 스라는 함수가 있습니다 1:02:42 거 한번 좀 있다 보여 드릴게요 자 그다음에 원래 1:02:47 데이터가 렇게 읽었을 때 원래 데이터가 아까 연월일 데이터가 있다 1:02:53 그랬어요 연월 데이터 연월이 중에 연월 1 이렇게 붙어서 있다 보니까 1:02:59 월 데이터만 월별로 제가 추위를 비교하고 싶을 때 연어리 통째로 1:03:05 있으니까 이게 보기가 불편한 거예요 그래서 연월일 데이터 중에 월 1:03:10 데이터만 잘라서 별도로 데이터를 만들려고 해요 그니까 DPR yr 1:03:17 뮤티 이런 걸 써 가지고 기존에 있는 데이터 항목에 새로운 걸 추가하려고 그래요 근데 월 데이터만 추가를 할 1:03:24 겁니다 그래서 str 더바 SV 즉 데이터를 잘라라 1:03:29 서브스트링 해라라는이 함수의 요거가 str 더라는 함수 그요 어디서부터 1:03:35 얼마만큼 잘라라 이런 함수 그렇게 해서 데이터를 월 데이터를 만들 1:03:41 거고요 그다음에 지금 언더바 머니나 1:03:47 시즌 언더바 이어 런 데이터들이 머니 데이터는 숫자형으로 1:03:53 데이터가 딱 잘 읽혀지면 되 숫자형으로 안 익혀줄 때가 있어요 1:03:59 그래서 숫자형으로 좀 변형하는 작업을 잠깐 한 거고요 그다음에 시즌 데이터 1:04:05 같은 경우 시즌 연월 그니까 몇 년 도지 뭐 이런 연월 데이터도 문자형으로 이거는 익혀야 되는데 1:04:11 거꾸로 숫자형으로 익힐 때가 있거든요 그래서 그거를 문자형으로 변환하는 작업들을 이렇게 좀 할 겁니다 자 1:04:18 제가 이제 하나씩 쫓아 저랑 한번 맞춰서 진행을 해 보도록 하겠습니다 1:04:37 자 지금 str 해 1:04:45 놓고 자 지금 str 해 놓고 49 라인에 제가 지금 반저 친 것처럼 한번 쳐봐 1:04:53 주세요 그렇게 했을 때 지금 한글이 빛초롱 PC 방 뭐 이런 식으로 1:04:59 보이시면 1:05:08 괜찮습니다 근데이 글자들이 깨져서 나 나오시는 1:05:16 분들은 지금 데이터를 약간 변형을 해 주는 작업들을 해야 되는데요 1:05:52 자 지금 icv 같은 이런 기법을 써서 1:05:58 데이터를 한글이 깨진 것들을 안 깨지게 변형하는 작업들의 명령문들의 1:06:03 이렇게 개별적으로 좀 쳐주시면 됩니다 한글 안 깨지신 분들 1:06:10 있나요 str 했을 때 str 했을 때 요게 한글을 안 깨주고 요렇게 1:06:17 나오면 됩니다 안 깨지고 깔끔하게 1:06:23 나오면 바로 진행을 하도록 하겠습니다 니다 아 그러면은 진행을 좀 해 1:06:30 보도록 하겠습니다 자 첫 번째로 할 1:06:37 거는 30페이지 좀 봐 1:06:45 주세요 자 지금까지 했던 30페이지 보시면 지금까지 했던 DPR yr지지 1:06:53 플로 2라는이 시각화를 연달이어서 특성을 제 문장을 1:07:00 만들어가지고 스크립트를 만들어서 실행 결을 활용하는 겁니다 활용하려는 목적은 뭐냐면 비초 축제에 대해서 연 1:07:09 월별로 즉 월을 축으로 1:07:15 고은 매출금액을 표현할 거예요 근데 연도별로 막대 1:07:22 그래프를 분리해서 보여주게려고 하는게 의 목적입니다 자 그 문장을 한번 지금 30페이지 1:07:30 있는 거를 한번 쳐 봐서 결과치를 한번 확인을 해 주시고요 저도 한번 1:07:35 치고 설명을 드리도록 하겠습니다 1:08:03 아 한글 깨시는 분 계시나요 좀 손을 좀 들어 주시면 1:08:09 예 아 한글 깨지는 분들은 지금요 명령을 좀 때려 주시면 1:08:16 되겠습니다 교재에도 교재에도 지금 29페이지 1:08:21 밑쪽에 보시면 4번에 글 제가 표현한 1:08:26 부분이 있거든요 29페이지 쪽에 그거를 보시고 하셔도 되고요 지금 화면에 떠 1:08:33 있는 지금 명령문을 쳐 주셔도 됩니다 자요 명령문에 대해서 그러면 설명을 1:08:40 좀 드릴게요 지금 데이터 1:08:47 셋인 언리 언더바 데이터요 안에 1:08:52 이언 데이터 안에는 그중에 하나의 항을 찾아 들어갈 때는 1:08:59 달러 표시를 쓰게 돼 있어요 그래서 an 언 데이터 안에 하나의 1:09:07 항라는요 하나만 저 말씀을 드리면 언더바 데이터 안에 1:09:15 있는 어라는이 항목 하나만 utf 8로 돼 있는 걸 1:09:24 CP 해 다시 그 자리에 넣어라 이런 1:09:39 의미입니다 한글이 안 깨지고 제대로 나오신 분들도 1:09:47 있으신가요 그냥 편안하게 손만 들어 주셔도 돼요 1:09:55 요 화면을 잠깐 좀 떼워 놓을테니까 요걸 한번 보시면서 변형을 좀 시켜 1:10:01 주는 작업을 해 1:10:08 주십시오 자 요거 되신 분들은 제가 지금 sqr 언더바 스라는이 함수가 1:10:15 의미가 뭔지를 좀 설명을 드리려고 밑에 좀 토스를 먼저 만들어 놓을테니까 아 먼저 한글 깨지는 1:10:21 부분들을요 명령을 가지고 조금 맞춰 주시고요 Ah 1:11:25 예 천천히 하셔도 됩니다 예 실습은 30분 정도면 아까 저희가 1:11:31 다섯 가지 분석 방법에 대해서 한번 데이터 조이까지 해서 마무리할 수 1:11:37 있기 때문에 일단 캐릭터 셋이 일단은 깨진 부분들만 이렇게 1:11:44 맞춰주시면 됩니다 제가 조금 생각이 짧았네요이 1:11:52 문장까지 그냥 만들어서 여러분들 배포를 해서 로 할 수 있게 할 거를 1:11:57 사실 처음에 그 생각도 했다가 부나 함수를 한번 설명을 드리고 직접 쳐 1:12:03 보시는게 낫지 않을까 생각해서 그요 부분을 뺐었던 근데 막상 지금 실습을 1:12:09 해보는 과정에서 느끼는게 아 이것도 드리는게 맞서 나쁘다라는 생각이 들긴 합니다 1:12:45 아 지금 데이터 이제 tv's 읽는 명령문 날렸을 때 결 가치가 안 1:12:51 떨어지고 이렇게 하단에 빨간색으로 뭔가 이렇게 뜨는 경우가 있거든요 그거 1:12:57 지금 작업이 진행 중이라는 얘기입니다 그래서 데이터를 지금 160강 읽다 보니까 데이터베이스에서 1:13:04 바로 금방 갖고 오지 못하고 약간 좀 시간이 걸려서 읽어 오는 상황입니다 1:13:49 예 스트링가 셔 1:14:20 그다음에 1:14:34 익숙해 자 제가 이거 지금 작업이 돌고 계시는 분들도 있고 하니까 요거 1:14:39 그냥 간단한 것만 하마 설명을 드릴게요 지금 str 시키라는이 1:14:44 함수만 좀 설명을 드리려고 해요 저 함수는 스트링 R이라는 패키지 안에 1:14:51 있는 함수입니다 그래서 저 함수를 또 1:15:02 면 제가 61 라인에 친 것처럼 요런 명령을 먼저 실행을 하고 그다음에 1:15:09 이게 실행이 돼서 역시 아까 파워포인트가 올라와야 되는 것처럼요 1:15:14 스트링 아이라는 패키지라는게 뭐냐면 함수들 개별적인 함수들 묶어 놓은 걸 1:15:19 패키지라 그래요 그래서요 스트라는 키지 안에는 여러 함수들이 1:15:25 습니다 근데이 알이 정말 통계적인 분석을 하거나 1:15:32 시각화를 하거나 그다음에 데이터를 조작하는데 굉장히 훌륭한데요 불편한게 하나 있다면 이런 1:15:41 패키지들 함수들을 묶고 놓은 이런 패키지들 라이브러리라고 얘기하거든요 이게 너무 1:15:48 많습니다 그러니까 전 세계의 날고 기시는 분들이 이런 거를 만들어 1:15:53 가지고 이 1:16:00 캔가라가라 그 사이트에 올리면 거기서 이런 것들을 개발하신 분들이 1:16:06 만든게 제대로 잘 돌아가는 건지 의미가 있는 건지 검증을 해서 의미가 1:16:12 있다라고 판단이 들면 이거를 일반 사용자들이 쓸 수 있게 배포를 하는 거거든요 그래서 이런 패키지들이 여러 1:16:18 가지가 굉장히 많습니다 근데 그 많은 것들을 사실 다 기억을 하기는 못해요 1:16:25 못해 가지고 저도 구글 검색이나 어떤 패키지가 어떤 함수가 필요한데 이게 1:16:32 어떤 패키지에 있었지 기억이 안 날 때는 막 검색해서 찾아보고 패키지 이렇게 다시 로딩하고 하게 합니다 1:16:39 근데 쓰다 보니까 저 같은 경우도 15개 패키지를 넘어서 쓰지는 않아요 1:16:45 대부분 할 때 한 개이 정도의 패키지 안에서만 대부분 핸들링 하고요 그 1:16:51 정도만 하더라도 충분히 웬만한 뭐 어떤거든간에 핸딩 한데 지장은 없었던 1:16:58 것 같습니다 그리고 1:17:03 데이터를 이렇게 지금 주제를 정하고 분석하는 방법을 찾고 해보지만 사실 1:17:09 가장 그거보다 더 중요한게 있습니다 그거보다 가장 더 중요한 거는 업무 1:17:16 지식이요 저희는 이제 도메인 난리라고 얘기를 하는데 어떤 하고 계시는 업무의 1:17:23 깊이가 있을 때 누구보다도 이거를 이렇게 이렇게 분석하면 이런 의미가 나오지 않을까 1:17:30 그런 생각을 얼마든지 누구보다도 잘 하실 수 있거든요 그래서 업무에 대한 지식을 갖고 계시는게 가장 크고요 1:17:37 그다음에 그 지식 기반하에 이런 제 데이터 분석 방법을 알고 데이터 도작 1:17:44 방법을 알고 활용하면서 그동안에 못 봤던 것들을 찾아내는 거죠 1:17:59 야 저 말씀드린 것처럼 skr 스라는이 함수는 스트링 R 안에 있는 1:18:05 함수인데 제가 여기 지금 무궁 앞에 글자 스페이스게 띄우고 중간에도 막 1:18:11 스페이스 놓고 막 이렇게 해서 문장을 넣어 놓고 얘를 스케치라는 함수로 태니까 1:18:17 결과치가 앞앞에 있는 스페이스 중간에 막 몇 개씩 있던 스페이스가 하나로 1:18:23 딱 압축이 돼서 뒤는 없애버리고 중간 거는 하나로 뭉치고 요렇게 해서 1:18:29 표현하는게이 st 스케치라는 함수입니다 왜 요거를 여기 지금 1:18:34 저희가 분석하고 있는 데이터셋에 썼냐면 데이터가 지금 1:18:41 데이터베이스에 정말 깔끔한 데이터베이 데이터가 데이터베이스에 깔끔하게 1:18:46 들어가 있으면 문제가 전혀 없는데 제가 사실은 전공이 1:18:54 데이터베이스 쪽을 하다가 이제 분석으로 넘어온 케이스다 보니까 데이터베이스 튜닝이나 이런 거 많이 1:19:00 다녔거든요 그쪽을 해보면서 느끼는 거지만 정말 정말 뛰어난 큰 1:19:07 기업들도 쓰레기 데이터가 엄청 많습니다 그래서 데이터를 봤을 때 1:19:14 이런 정리 작업들을 많이 해 줘야 돼요 그러다 보니까 이런 함수들도 활용을 해서 맞춰주는 작업들이 1:19:21 필요하고요 그중에 하나가 시라는 함수를 쓴 겁니다 지금이 지금 1:19:28 서울시에서 보유하고 있는 비초 데이터이 데이터에도 한글 명칭이 앞에 1:19:33 스페이스가 붙어 있고 막 이런 것들이 있어서 그걸 없애려고 렇게 명칭을 한 1:19:39 겁니다 예 이제 그러면 한번 직접 한번 데이터를 이제 한번 1:19:45 실습을 해보겠습니다 페이지를 보시면 자 1:19:52 30페이지 먼저 한번 치고 여기에 또 이제 새로운 명령기 그니까 파라미터가 1:19:57 있기 때문에 요거에 대한 설명을 제가 먼저 치고 말씀을 드리도록 하겠습니다 1:21:09 지금 혹시 교재 보시면서 한번 쳐 보셔도 괜찮습니다 먼저 쳐 보시고요 1:21:16 제가 치고 나서는 설명을 좀 모직에 대해서 설명을 드리도록 하겠습니다 1:21:48 [음악] 1:22:23 m m 1:23:45 자 로직을 한 번만 좀 화면을 좀 봐주십시오 기존에 썼던 거하고 1:23:51 똑같습니다 저희가 d 하고 플로트를 1:23:56 쓴 겁니다 근데 약간 기능이 좀 추가됐죠 아까에서 안 봤던 기능들이 1:24:01 있는데요 우선 서머라이즈 같은 경우는 전체 금액에 합을 해놓고 너무 숫자가 1:24:07 크니까 제가 그냥 100만 단위로 나눈 것뿐인 거고요 자 여기에지지 1:24:13 플에 조금 다른 파라미터가 있습니다 자 x 축은 원로 1:24:18 잡았고요 y 축은 S 1이라는 새롭게 만든 변수의 값을 이제 같습니다 1:24:26 그다음에 박스 플을 그릴 거예요 박스 플을 그릴 거기 때문에 색상을 또 1:24:32 달리해서 그릴 거예요 아까 색상과 관련해서는 필리라 파라미터가 있고 1:24:37 컬러스 파라미터가 있다고 말씀을 드렸어요 자 컬러라는 파라미터는 1:24:42 점이나 선을 위한 파라미터입니다 색상을 근데 필리라이 파라미터는 막대 1:24:49 그래프를 그릴 때 그 막대 그래프의 색상을 넣는 파라미터에 그래서 1:24:55 를 색상으로 채울 건데 연도별로 색상을 채우라고 준 1:25:00 거예요 연도별로 색상을 취해 고요 자 그다음에의 원더바 co X 축과 Y 1:25:08 축을 정의한 상태에서의 막대 그래프 그거를의 원더로 한다고 그랬어요 막대 1:25:14 그래프는 바 그래프가 바의 원더바 bar 있고요 gom 언더바 1:25:20 히스토그램이 있고요 gom 더바이 있는 겁니다 자 근데 제가 지금 여기 포지션 1:25:27 해놓고 도지려고 줬어요 요거 잠깐 뺄게요 빼고 그래프가 어떻게 나오는지 한번 보시고 요걸 넣었을 때 어떻게 1:25:34 나오는지 보시면 1:25:48 됩니다 자 지금 GE 원더바를 막대 그래프를 그리는데 1:25:58 자 어떤 차이가 있으신지 아시겠죠 gomc a 포지션 이로 1:26:04 도지고 주게 되면 얘가 위로 지금 계속 쌓이는 거를 옆으로 1:26:11 떨어뜨려요 지금은 do 원더바에 포지션 이구로 도지라는 걸 1:26:18 뺀 상태입니다 로직을 근데 포지션 이코로 도치라 주면 이게 1:26:24 밑으로 떨어집니다 그리고 필라는 파라미터를 줬을 때 그 필에 해당되는게 색상을 1:26:32 넣기도 하지만 컬러하고 똑같이 컬러하고 똑같이 색상을 넣기도 하지만 1:26:38 요쪽에를 잡아주는 기준이 돼요 필과 1:26:43 러스가요를 잡아주는 기준이 됩니다 색상을 분하는 이유는 뭔가 1:26:51 어떤 항을 기준으로 구하려는 거잖아요 그 기준이 내에 그대로 나타나는 1:26:59 겁니다 자 g에 요번에는 다시 한번 1:27:05 볼게요 자 포지션을 넣는 상태에서 돌려 1:27:16 보겠습니다 자 넣어놓고 돌려보니까 이제 옆에 막대 그래프가 밑으로 1:27:21 떨어지는 거죠 자 이거만 봤을 때 지금 현재 데이터 자체가 10월 1:27:27 데이터 11월 데이터 12월 데이터 3개월치 밖에 없는 거예요 그리고 14년도 15년치 대한 거예요 1:27:34 그러면은 14년도에 비초 촉에 10월 11월 12월에 데이터 1:27:41 현하고 15년도에 10월 11월 12월 현황의 데이터를 이렇게 막대 1:27:47 비교를 해본 거죠게 하나의 탐색이 되는 겁니다 이것도 색말 조금 점에 탐색도 한번 1:27:55 해 1:28:06 볼게요 예 그 31 페이지를 보시면 요거는 똑같은 거기 때문에 1:28:13 설명만 하겠습니다 방금 정권은 매출 금액의 합시 있는데 요번에는 매출 1:28:18 건수의 합입니다 그러니까 차이가 딱 칼럼 하나가 바뀐다는 거밖에 없 없죠 요거는 1:28:25 똑같은 개념이기 때문에 넘어가고요 그 뒤에 거를 한번 [음악] 1:28:33 볼게요 자 32 페이지가 이제 핵심이 되겠습니다 저희가 지금까지 했던 거에 1:28:40 집대성이 있는게 여기에 있다라고 보시면 1:28:46 돼요 자 뭐냐면 업종별로 업종별로 어떤 업종이 말이 1:28:54 축제에 제일 많이 활성화돼 있는지 알려고 하는 거예요 자 1:29:00 그래서 업종별로 분류를 하니까 여기 지금 저희가 갖고 있는 데이터셋에 1:29:05 업종을 카운터를 해보니까 몇 가지 업종이 있냐면 513 종인가 업종 1:29:10 있더라고요 513 종을 축에 다 려니까 너무 큰 거예요 1:29:17 그래서 상위 20개 업종만 뽑으려고 해요 자 그러면 상위 20개 업 만 1:29:25 가려내고 20개의 업종만 관리하고 있는 데이터를 다시 1:29:30 긁어낼 거예요 세 개의 작업을 할 겁니다 첫 번째는 상위 20% 업종만 찾아낼 1:29:39 거예요 자 업종을 찾았어요 근데 원래 데이터에는 상위 20% 있는 업종만 1:29:46 있는게 아니라 모든 업종이 다 있잖아요 그래서 20위까지 있는 1:29:52 업종만 갖고 있는 데이터셋을 새로 만들 거예요 그때 이용할 때 조인이 1:29:57 걸 이용을 할 겁니다 조인을 해서 데이터를 만들어 놓고 그 만든 걸 기준으로 20개의 1:30:05 업종 배에서만 매출 금액의 현황이 어떤지를 1:30:12 연도별로 비교를 하려고 합니다 자 이게 저희가 실습 하려는 취지입니다 자 1:30:19 그러면 한 줄 한줄 한번 해 보겠습니다 32 라인에 32페이지 자 위에 있는 거부터 제가 먼저 1:30:26 로직을 좀 만들고 설명을 좀 드리도록 할게요 1:31:46 자 우선 부분 부분별로 끊어서 한번 설명을 드리겠습니다 1:31:55 자 아까 말씀드 제일 데이터 분석에서 제일 중요한 거 업무라고 했습니다 자 업무 다음에 그다음에 중요한 건 1:32:02 조이에 조작을 잘시키고 데이터셋을 잘 정리를 하고 그런 다음에 분석 모형에 1:32:07 태우면 되는 겁니다 분석 모형은 알고리즘이 다 나와 있어서 분석 모형이 무 무엇을 쓰는 분석 1:32:13 모형이지만 알면 되시는 거예요 자 우선 여기 로직을 1:32:18 볼게요의 데이터를 가지고이 데이터를 가지고 1:32:25 코드별로 매출 금액에 합수 구했습니다 여기까지가 어쨌든 업종별로 얼마만큼 1:32:33 배이 있는지를 알려고 한 거잖아요 자 한 다음에 제가 상위 1위부터 20위까지 1:32:39 뽑으려고 그래요 그러다 보니까 우선 금액을 1:32:46 기준으로 내림차순으로 하게 되면은 가장 위가 제일 큰 업종의 데이터 1:32:51 금액이 나올 거 아니에요 그래서 렌지를 한 겁니다 정렬을 그래서 1:32:56 디센딩 한 거예요 센딩을 해 놓으면 제일 위에 있는 여기까지 여기까지 1:33:03 디센딩 렌지에서 여기까지만 한 거만 하면 가장 금액이 큰게 제일 위에 1:33:08 있을 거고요 그다음에 제일 낮은 거는 제일 아래 있을 거예요 거기에 1:33:13 1위부터 20까지 뽑기 위해서 필터라는 걸 한 1:33:19 겁니다 얘는 기에요 파이프라인에 걸르고 걸르고 걸르고 걸르고 해서 1:33:25 로직이 완성이 되는 것들이에요 그래서 필터를 해 가지고 필터를 할 1:33:32 건데 순위를 번호를 먹일 거예요 1번 첫 번째 있는 데이터는 1 두 번째는 1:33:37 2 해 가지고 순번을 매겨 가지고 순번을 먹긴 거를 기준으로 1위부터 1:33:43 202 번까지만 뽑아라 렇게 한 거죠 그런 1:33:48 다음에 여기까지만 하게 되면은 모든 항목이 다 나오는 겁니다 근데 제가 1:33:54 필요한 건 업만 알면 되잖아요 그래서 업종만 셀렉트를 하자라고 해서 C 1:34:00 CD 붙인 거예요 자 파이프라인 있니다 계속 1:34:05 이어갑니다 다시 한번 갈게요 an 데이터로부터 1:34:11 업종별로 매출 금액의 합을 구한 겁니다을 1:34:17 구했어요을 구했는데을 구한 기준으로는 큰게 먼저 나올 수 있지 작은게 먼저 1:34:22 나올 수 있지라 그러다 보니까 정을 좀 할 거예요 금액별로 가장 큰 거를 제일 위로 1:34:29 하기 위해서 어렌지 정렬을 했습니다 근데 제일 큰 거를 위로 나오게 1:34:34 하려면 디센딩 정를 해야 되니까 DSC 쓴 거고요 그 정을 시켰습니다 1:34:41 자 그다음에 제일 위에 있는 거는 넘버 1 사적으로 번호를 붙일 거예요 1:34:47 그거를 로라는 걸 가지고 1 3 4 숫자를 붙어요 1:34:52 다음에 숫자까지 만 뽑으면 이제 순위가 되니까 그크 뽑기 위해서 1:34:57 필터라는 걸 가지고 필터와 비트윈으로 해서 1위부터 20일까지만 뽑은 1:35:03 겁니다 여기까지만 했을 때는 모든 항목들이 다 이제 데이터들이 나오게 되는데 그중에 언더바 CDM 뽑기 1:35:10 위해서 셀렉트를 한 겁니다 자 요거를 부분 맵을 끊어서 1:35:15 한번 볼게요 자 데이터를 로직을 짜겠다 1:35:23 보면은 에러가 나는 경우 아까도 말씀 혹 발생합니다 그때 어디가 에러가 1:35:28 났는지를 확인하는 가장 쉬운 방법은 부분별로 실행하 보는 거예요 자 지금 제가 먼저 해 1:35:34 볼게요 자 여기 지금 선라이즈가 이렇게 반전시킨 다음에 돌려서 1:35:40 정상적으로 데이터 처리가 나오면은 일단은 끝나는 1:35:46 거죠네 이렇게 나왔습니다 여기 정상적으로 나온 거예요 자 그다음에 1:35:53 얘를 어레인지까지 시켜요 정렬까지 시킬 겁니다 여기 반전시킨 다음에 역시 또 돌려면 되는 1:36:03 거겠죠 자 이렇게 정렬을 하니까 한시 10점이 제일 큰 거로 1:36:08 지금 나와 있어요 자 이거에서 1위부터 2까지만 뽑기 위해서 필터까지 붙여 가지고 다시 한번 돌려 1:36:15 보면 1:36:21 되겠죠 그랬더니 나온게 업종 명하고 금액하고 두 가지 1:36:28 항목이 나왔어요 근데 제가 필요한 건 업종 명만 알면 되잖아요 그래서 1:36:34 셀렉트라 걸 뒤에 붙여 가지고 업종 명만 뽑은 행위를 취한 1:36:40 겁니다 자 요거를 취한 거를 top 언더바 C 언더바 CD 아는 변수의 1:36:47 요거를 담은 거예요 1:36:54 자 변수에 담았습니다 그래서 to 언더바 C 1:36:59 언더에는 1위부터 20까지 20까지의 업속 명만 있어요 이제 자 그러면 1:37:07 원래 데이터에는 500 몇 건의 업종 데이터 다 있는데요 업종만 있는 거 하고만 연결 1:37:14 시켜가지고요 업종에 해당되는 데이터만 쑥 뽑아내려고 하는 거예요 그래서 인이라는 걸 하는 1:37:22 겁니다 하는 거예요 자 조인을 하는데 어떤 조인을 할 거냐 양쪽 다 같이 1:37:29 있는 데이터를 비교해서 갖고 오면 되니까 인어 조이라는 걸 할 거예요 1:37:34 자 그게 32페이지 2번이라고 표현되 있는 1:37:41 부분입니다 자 인어 조인 제가 먼저 문장을 만들고 설명을 좀 1:37:47 드리겠습니다 1:38:18 다시에 한 1:38:38 자 지금 자 아까 저희가 실습은 안 1:38:44 했지만 주인이라는게 여러 가지 있다고 말씀을 드렸어요 자 인이라는 걸 인어 조인이 양쪽에 같이 있는 데이터만 1:38:51 갖고 와라고 조인을 했습니다 데요 문장 안에는 바이라는이 부분이 좀 1:38:57 나타났어요 그리고 언더바 CD 또 뒤에도 언더바 CD 이런 항목이 1:39:03 있어요 요거를 뭐라 그러냐면 키라 그럽니다 키 요거는 1:39:30 자 저기 여기 앉아계신 선생님이나 저에 대해서 만약에 정보를 관리하는 1:39:36 시스템을 만든다 그러면 어떤 행위를 취하냐 저희 개개인들의 정보를 1:39:43 관리하는 항목들을 이제 찾는 작업들을 해요 이제 간단하게 갈게요 자 1:39:49 이름이라는 항목이 있을 거고요 그다음에 뭐 주소라는 항목 그다음에 1:39:58 전화번호 1:40:08 그다음에 주민번호도 있을 수 있고요 성별도 있을 수 있고 뭐 여러 가지 1:40:13 항목이 있겠죠 자 이런 항목들 중에 중에 저라는 1:40:21 사람을 다른 분들하고 중복이 안 되고 유일하게 절하는 사람을 대변할 수 1:40:26 있는 항목들이 있을 거예요 그러니까 이름 하나만 가지고는 저라는 사람하고 1:40:32 똑같이 사람 있는 사람이 있을 수도 있잖아요 그리고 전화번호는 물론 좀 1:40:38 다르겠죠 하지만 명확하게 전화번호로 또 제가 언제 바뀔지도 모르잖아요 1:40:44 그래서 이름하고 주소도 언제 바뀔지도 몰라요 근데 이름하고 주민번호 정도만 1:40:51 이렇게 연결을 하면 저라는 사람을 제일 유니크하게 유일하게 구분 수 있는 항목이 될 1:40:57 거란 말이에요 이런 항목을 뭐라 그러냐면 진주라고 얘기를 하는 1:41:05 거예요 근데 이런 항목으로 사람을 개개인들을 관리를 하면 너무 항목이 1:41:12 많아질 수도 있으니까 요거를이 진주를 대변할 수 1:41:19 있는 명칭을 하나 만듭니다 그게 1:41:26 고객 아이디 같은 거를 만드는 거예요 예를 들어서 회사 같은 경우는 1:41:36 번이라는게 그 사 사원을 유일하게 만드는 아이디 값으로 부여하는 거 1:41:42 이거를 가주어 아고 얘기를 해요 원래는 가주어 진주를 대변하기 1:41:48 위해서 가상으로 만든 주어다 1:41:54 데이터를 관리를 할 때는 그 데이터를 정말 유일하게 구분 수 있는 가주어 1:41:59 진주어 이런 것들이 다 있습니다 자 이런 거를 뭐라고 얘기를 하냐면 1:42:08 이거를 프라이머리 키라고 얘기를 해요 주된 키라고 용어를 1:42:14 씁니다 자 그러면 왜 바이저를 이런게 있냐면 자 1:42:22 볼게요 Ah 1:43:18 자 지금 제가 여기 지금 칠판에 1:43:23 박스들을 몇 개 그렸습니다 자 요기 지금 요런 요런 표시 있죠 요런 거 요거를 발이라고 1:43:31 표현을 하는데요 요렇게 세 가지가 있는 쪽하고 선 하나만 있는 쪽이 있어요 1:43:39 요거를 1대 m 관계라고 얘기를 해요 1:43:45 고게 홍길동이라는 고객이 세탁기라 상품을 구매할 수 1:43:52 있잖아요 자 홍길동이 1:43:59 세탁기를 구매를 했습니다 근데 2018년 1월 1일자로 구매할 수 1:44:05 있죠 자 그다음에 홍길동이 세탁기를 1:44:11 2018년 9월 1일 날도 또 계약을 할 수 있어요 자 홍길동이 한 1:44:18 사람이에요 홍길동이 계약을 여러 번 할 수 있기 때문에 1대 의 관계가 되는 1:44:24 거예요 상품도 중복이 없어요 근데 홍길동에 말고 또 다른 사람들도 상품 1:44:30 살 수 있잖아요 세탁기 그래서 1대 m 관계가 되는 거예요 자 요렇게 1:44:36 만들어진 요런 거를 키라고 얘기를 합니다 요런 거를 그러면 요쪽에 있는 1:44:43 데이터와 요쪽에 있는 데이터를 연결을 하려면이 키를 기준으로 연결을 해야 1:44:49 되거든요 그게 저기의 바이에 1:44:55 인이라는 걸 할 때는 값들을 가지고 연결을 해 줘야 되거든요 홍길동이라는 고객이 상품을 1:45:03 세 개를 샀다 그러면 1 * 3 해가지고 세 것만 나와야 1:45:09 되는데 홍길 고개가 이하고 고개가 이하고 딱 연결하면 세건이 1:45:14 나와요 근데 고명하고 여기에 만약에 고명이 1:45:20 있다 그러면 세이 몇 올지 몰라요 왜냐면 중복 있는 고객들도 있을 수가 1:45:27 있으니까 그래서 데이터 인이라는 것 저렇게 인어 조인 세미조인 아웃조인 1:45:33 뭐 이런 거 할 때 데이터를 연결을 할 때는 데이터를 유일하게 분할 수 1:45:39 있는 키를 가지고 연결 하는 거거든요 그 키 1:45:44 항목이 an 언더바 데이터에는 C 였기 때문에 1:45:51 또는 에도 언더바 CD 항목이 요렇게만 연결하면 건수 곱하기 1:45:59 건수만큼 딱 나오기 때문에 1대의 관계이기 때문에 왜 top 언더바 C 1:46:04 언더바 CD 아까 1위부터 20위까지 항공만 있잖아요 중복이 없단 말이죠 1:46:10 1대 1대의 관계인 거예요 1대 m 그래서 두 개를 조인을 하는데 1:46:18 연결을 시키는데 어떤 항목으로 연결을 해라고 정의를 해주는 1:46:24 부분이요 부분입니다 즉 키하고 키를 연결해 1:46:29 주는 부분이에요 두 데이터의 셋에 대해서 연결 할 때 이런 인이라는 기법을 1:46:36 쓰는데 인이라는 기법을 쓸 때 어떤 항목과 어떤 항목을 연결해 줘 정의를 1:46:42 해야 되거든요 그 항목을 정의할 때 바이라는 걸 쓰고요 1:46:49 그다음에이라는 거는 벡터의 용어입니다 그냥 C 이런 이런 거를 연결할 때 항상 C 1:46:55 용어를 쓰는 거예요 그냥 기본으로 앞에 있는 top 언더바 C 언더바 CD 1:47:01 데이터셋에 언더바 CD 있으니까이 항목 하고 뒤에 있는 1:47:08 데이터셋에 아 요거죠 Cop 아 요요요 항목 an1 언더바 데이터에 1:47:15 C 언더바 CD 항목 하고 그다음에 topc 언더바 CD요 항목에 1:47:21 데이터셋에 언더바 CD 둘리를 연결을 해서 찾아 줘라고 한 거예요인 조인을 1:47:29 자 그래서 20에 해당되는 데이터만 싹 다시 원천 데이터에서 부분 데이터로 뽑아낸 겁니다 뽑아낸 1:47:37 결과치를요 변수에 그냥 다시 담은 거예요 자 조 변수까지 이제 1:47:45 담아냈으면 마지막으로 이제 해야 될 거는 자 저 3번이죠 시각화를 하는 1:47:51 작업을 하면는 자 1:47:57 시화를 3번 교재를 좀 봐주세요 어떻게 했는지 한번 요거는 설명만 좀 1:48:03 드리겠습니다 똑같습니다 자 to 언더바 C 1:48:08 언더에서 그룹을 잡는데 x 축에는 업종 코드를 잡았습니다 자 y 축에는 워를 1:48:17 잡았어요 아 그룹바이 하는데 c c 종하고 하 연을 기준으로 해서 그룹 1:48:24 바이를 했어요 세계 항목별로 해서 매출 금액에 합을 구한 1:48:30 겁니다 자 다시 말씀드릴게요 업종 명하고 업종이 월 월별로 얼마만큼 1:48:39 사용을 했는지 알기 위해서 그룹 바이를 한 거예요 그 항목으로 썸을 한 겁니다 썸을 한 1:48:46 다음에 어렌지 여기 굳이 안 들어가도 될 거 같은데 제가 지금 표현을 해놨네요 자 그런 다음에 플 해서 1:48:53 시각화를 축에는 업종을 20 까지를 나열을 1:48:58 했어요 그다음에 축은 금액을 표현하면 되겠죠 숫자 1:49:04 데이니까 그다음에 월별로 좀 분해서 표현하려고 색상을 구해서 표현하려고 1:49:11 필라는 명령을 쓴 겁니다 거기에 테스트라고 이렇게 돼 1:49:17 있는 거 있죠 거는 아에서 원래 기본적으로 제공하는 함 데 뭔지 한번 잠깐만 1:49:38 볼게요 제가 지금 요런 문장을 1:49:46 날렸습니다 개별적으로 요거 하나의 벡터 그요 요것도 벡터 요것도 벡터에 1:49:53 개별적인 벡터를 패스트 제로 하니까 하나로 묶어 버린 거예요요 차입니다이 1:50:05 함수예제 데이터가 연월 떨어져 있는데 요거를 묶어서 그냥 1:50:13 표현하려고 그 세 번째 줄에 필라는 부분에 그 명령을 집어넣은 1:50:19 겁니다 자 그런 다음에 막대 그래프를 go 원더바로 한 1:50:25 것뿐이에요 거기에 포지션은 도지로 줬으니까 위로 1:50:31 쌓지 않고 옆으로 떨어뜨렸 있죠 그렇게 표현된 거고요 랩스는 걸 1:50:36 통해서 X 축 y 축 명칭들을 바꿔 준 겁니다 자 그렇게 해서 나온 시각화가 1:50:43 32페이지 있는 시각화 그요 아 지금 제가 사실 대별 다 1:50:49 해보고 싶은데 시간이 좀 그래서 마지막으로 하나만 해보고 똑같은 방식인데까지만 해보고 조금 시간이 1:50:55 넘더라도 요거까지만 좀 해봤으면 해서 하나만 더 해보고 시각화의 의미를 1:51:00 하나만 더 해보고 오늘은 마무리를 좀 하도록 하겠습니다 35페이지 좀 1:51:06 봐주실래요 1:51:15 자 35 밑쪽을 좀 봐주시면 선 그래프를 그리는 1:51:21 거거든요 는 데이터의 특성을 파악하는데 막대 그래프보기 1:51:27 씁니다 그래서 선 그래프를 좀 그리는 작업을 할 1:51:32 건데요 여기서 포인트가 있어서 제가 이거를 설명을 드리려고 1:51:37 그래요 선 그래프라는이 관점은 축이 시간의 흐름이나 크기의 순서가 1:51:46 있는 거 잡아줘야 돼요 근데 저희 데이터에는 간의 흐름이라는 1:51:54 부분들을 지금 뭐 연 월도 있지만 1:52:06 [음악] 1:52:18 요거를 자 저희가 지금 실습하는 데이터에는 1:52:25 2014년 10월 11월 12월 데이터가 있고요 1:52:31 2015년 10월 11월 12월 이렇게 있다고 할게요 자 얘가 분명히 1:52:37 시간의 흐름이에요 자 이거를 선으로 1:52:43 그리면 2014년 10월 11월 1:52:49 12월 2015년 10월 11월 12월 이렇게 나올 거예요 근데 제가 그리 1:52:57 지금 자료에 있는 거는 14년고 1:53:13 15년을 요렇게 표현하려고 하는 거예요 그래야지 비교를 할 수 1:53:19 있으니까요 그래서 요 데이터가 원래 시간의 1:53:25 흐름인데 새로운 시간의 흐름의 기준을 먼저 만들고 이거를 그리려고 하는 거예요 그걸 어떻게 1:53:32 만드느냐 지금 자료를 보시면 1:53:50 2014년도에 자 요렇게 데이터가 있는 1:53:55 2014년도에 10월을 1 11월 2 12월을 3 렇게 만들고요 1:54:02 15년도 1 2 3을 만들면 축을 얘로 1:54:10 잡고 y 축을 금액으로 하고 필 필이나 라인 컬러를 연도로 1:54:19 잡으면 이게 겹쳐서 나오는 형태가 되는 1:54:25 거예요 이렇게 해야 연도의 별로 추위에 대한 비교를 할 수가 1:54:32 있거든요 근데요 형태의 데이터만 갖고는 표현하기 어려우니 강제로 1:54:39 시간의 흐름 또는 크기의 순서가 있는 거를 만드는 거예요 그래 1:54:44 최종적인 저희가 데이터 조작부터 시각화 1:54:51 탐색이라는든 을 집대성한 부분이 일단은 35페이지 밑에 부분이라요 1:54:58 부분을 실습을 해보도록 해 보겠습니다 예 제가 먼저 저도 한번 1:55:04 쳐 보고요 쳐보고 설명을 드릴게요 1:55:30 C 1:55:52 C 1:56:52 m 1:57:38 네 지금 예 지금 저의 화면은 지금 포 1:57:43 저 화면을 보시면 요렇게 지금 현재 라인 그래프를 그린 겁니다 자 요렇게 1:57:50 라인 그래프가 나온 배경에 대해서 로직을 한번 보고 설명을 1:58:08 드릴게요 자 우선 to 언더바 C 언더바 CD 어 데이터를 머리를 할 거예요 1:58:16 머리를 할 건데 어 제가 조금 굳이 중간에 안해도 되는 머리를 좀 거 1:58:22 같은 느낌이 좀 있네요 여기 그룹 바부터 여기 여기 타임으로 한번 선 1:58:30 머리를 안 해도 되는데 굳이 한 거 같아요 그 요거 여기 밑에 다시 또 그냥 타임 1:58:37 없는 상태에서 선 머리를 또 했는데 요거 굳이 안 해도 되는 거를 했 두 번 좀 선 머리가 들어간 거 같아요 1:58:43 요건 제가 실수인 거 같고요 그래서 to 언더바 C 언더바 시로부터 연 1:58:52 월별로 먼저 데이터 값을 구한 다음에 구한 다음에 이제이 연 월로 연월 기준으로 1:59:02 아까 말한 노 넘버를 붙이는 거예요 그래서 1 2 3 1 2 3을 붙인 겁니다 뮤티 해 가지고 자 붙인 1:59:11 다음에 데이터를 조금 보기 편하기 위해서 연도별로 이제 정렬을 한번 해 1:59:16 준 거예요 정렬을 하고 시각화를 하는데 X 축에는 14년도에 1 2 1:59:23 3이 있고 15년에도 1 2 3이 있으니까 x 축의 기준은 마치는데 동일하니까 x 축을 RN 숫자 넘버 1:59:31 부여한 거로 한 거고요 그다음에 y 축은 금액의 하 1:59:37 그다음에 색상을 구분하기 위해서 라인 그래프는 컬러를 쓴다 그랬어요 그래서 1:59:43 컬러로 해 가지고 연 월과 붙여서 같이 표현하기만 해줘라 이렇게 한 거 1:59:49 패스트 아까 제로 그걸 한 거고요 그다음에 시각화에 선 그래프를 그릴 1:59:55 거기 때문에 g 라인으로 해서 표현한게 이제 이쪽 시각화의 결과치가 2:00:06 되겠죠 자 그래서이 시각화가 나온 거고 아까 패스트 제로 해 가지고 연 2:00:13 연도 그다음에 한글로 연자를 같이 붙이게 하고 그다음에 12월 11월 2:00:19 12월이 있으니까 그거를 같이 이렇게 묶어서 색상별로 해라 이렇게 정의를 2:00:26 한겁니다 그렇게 해서 추위를 비교를 해봤더니 2:00:31 10년하고 14고 15년 비슷한 추위가 나온다는 거는 그 확인을 해본 2:00:38 거죠 여기까지가 우선 모든 정형데이터 분석기법은 다 아니지만 2:00:45 우선적으로 제가 이드 2:00:50 교는 맞춰서 제가 신경 써서 한번 해 본 거기 때문에 저거는 한 번씩 보시면서 다른 데이터셋이 만들어진다 2:00:58 하더라도 실습을 해 보시는데 지장은 없으실 거예요 조기 함수들을 가지고 잠깐 데이터 명칭만 바꾸면 되니까 2:01:05 그렇게 해서 익히시면 충분히 데이터 조장하고 시각화 부분은 2:01:10 어느 정도 쫓아오질 거라고 확신은 듭니다 또 한 가지 여기서 좀 더 갖추시면 좋은게 아이라는 부분은 2:01:18 기본적으로 다뤄야 될 몇 가지 기능들이 좀 있습니다 그거에 대한 기초 교육만 한번 더 받으시면 어 2:01:25 제가 볼 때는 어느 정도 조작 부분들은 금방 좀 쫓아오질 거라고 생각이 듭니다 예 정형 데이터 2:01:31 관점에서는이 정도로 수업을 끝내고 다다음 주에 또 뵙게 되면 다다음 주에는 정형 데이터 설명드렸던 일부 2:01:40 부분들을 또 다시 설명을 하는 부분이 앞에 있거든요 시각화 부분하고 2:01:45 그다음에 dyr 스트링 R이라는이 함수 패키지 2:01:50 그다음에 주식이라는 어떤 이런 기법들이 몇 가지가 더 있는데 어 2:01:56 텍스트 된 분석하는 쪽에 또 오늘 오신 분들이 오시게 되면이어서 2:02:01 들으면은 또 오히려 또 좋 효과가 또 나올 수도 있기 때문에 기회가 되면 뵙고 자세히 한번 설명을 또 드리도록 2:02:07 하겠습니다 예 먼데까지 와셔 들어 주셔 감사하고요 예 수업 뵙도록 하겠습니다 감사합니다 2:02:14 [음악]	214	2019.10.01
	정형 · 비정형데이터 R 기초분석 1차 (1) ○ 교 육 명 : [서울시 빅데이터캠퍼스 정형 · 비정형데이터 R 기초분석 교육] 빅데이터캠퍼스에서 빅데이터에 관심있으신 기초 분석가들을 위하여 정형데이터(축제 분석 데이터 활용)와 비정형 데이터(민원 데이터 활용)를 분석 개요부터 데이터의 이해 및 분석실습과정을 연계 교육으로 8월 23일과 9월 6일 각 4시간에 걸쳐 아래와 같은 교육과정으로 실시하였습니다. 앞으로도 빅데이터캠퍼스의 데이터분석 교육의 많은 관심과 신청 바랍니다. 감사합니다. ○ 교육과정 교육 과정 내용 1차 정형 데이터 기초분석 교육 데이터 분석 개요 데이터 조작 및 기초 탐색 이해 데이터 시각화 이해 축제 분석 실습 2차 비정형 데이터 기초분석 교육 Text 분석 개요 Text 분석 수행 방법 Text 데이터 조작 방법 이해 민원 데이터 분석 실습 [정형 ·비정형데이터 R 기초분석 교육 교안 다운로드] (스크립트) 0:00 [음악] 0:11 수업을 하게 된 상이라고 합니다 0:16 반갑습니다 일단 저희 빅데이터 캠퍼스에서 보통 이제 그 입주자분들 0:21 대상으로 이렇게 교육을 하는데 어 지금 오늘 이제 3회차입니다 사실은 3회차인데 1회 0:28 차하고 2회차 때가 학생분들이 사실 많이 오셔요 근데 오늘은 지금 직장에 0:34 계시는 분들이 많이 오신 거 같아서 일단 좀 다른 느낌이 들기도 0:40 하는데요 아 일단 지금 그 오늘 수업할 내용이 뭔지를 이제 일단 0:46 사전에 알고 오셨을 거라고 생각이 들긴 하는데 명확한 건 또 여기 계시는 0:52 분들이이 데이터 분석 관련된 일을 하시는 분도 있으실 수도 있고 아니면 0:57 이쪽 분야에 지금 처음 이제 한번 이게 무엇인가 궁금해서 오신 분이 있지 않을까 생각이 1:04 듭니다 제가 이제 사실은 이쪽 분야에 몸을 담은지는 한 12년 정도 1:10 됐는데요 사실 뭐 그렇다고 해서 제가 뭐 많이 하는 건 아닙니다 먼저 그냥 좀 선행으로 이쪽 분야를 먼저 1:18 뛰어들었다는게 좀 오늘이 자리에게 된 계기인 거 같고요 일단 지금 1:23 처음하시는 분들도 실 거고 해보신 분도 1:28 있겠지만 부터 많이 아시는 분들까지도 제가 한번 좀 다 수용할 수 있도록 1:36 데이터 분석이라는 부분을 정관점 비정형 관점으로 해서 한번 오늘 1:42 시간이라는 시간 동안에 정형 데이터에 대해서 분석만 먼저 진행을 좀 해보도록 1:49 하겠습니다 참고로 일단은 지금 여러분들이 갖고 계신 교제는 어 나중이라도 일단 쫓 수 1:58 있도록 제가 좀 하나하나 넘겨보면서 쫓 되는 분들이고 2:05 처음에 앞부분에는 데이터 분석에 대한 접근 방식을 제가 이제 하는 방식을 좀 표현을 해놓은 겁니다 그래서 2:12 데이터 분석이라는게 어떻게 시작을 하고 어떤 식으로 접근하는게 가장 효율적인가 그다음에 데이터 분석에 2:18 대한 방법론은 어떤 식으로 진행하는게 효과적인가를 제가 나름대로 표현해본 부분이기 2:24 때문에 앞부분에 대해서는 아 이런 식으로 하면 되겠구나라는 개정 이해를 2:29 면 좋을 것 같습니다 고게 끝난 뒷부분부터 실제적으로 실습을 해보면서 2:35 제가 좀 최대한 설명을 드릴 수 있는 부분들은 어 자세하게 한번 설명을 드려 보도록 하겠습니다 3:00 아부 시작을 해 보겠습니다 처음에 이제 인프로 3:06 부분인데요 혹시 이영화 보셨는지 모르겠네요 뭐 사실 데이터 분석 3:11 이렇게 처음에 누군가가 설명을 할 때 뭐 영화 타이틀이 라든지 아니면 분석 3:17 사례나 이런 데이터들을 가지고 이제 많이 설명들을 하는데 저도 사실 좀 세 가지의 맥락에 대해서는 런 자료를 3:24 좀 준비를 했습니다 우선 머니보이 영화인데요 이거 보신 분들도 있고 3:30 분도 있 것 같은데 주연이 브레드피트이 영화가 이제 3:36 2014년도에 만들어진 영화인데 2010년도에 그 EMC 그 3:44 하드웨어를 취급하는 세계적인 회사죠 EMC 부회장이 한국에 한번 내방을 3:49 한 적이 있었어요 근데 그분이 한국에 와가지고 첫 번째로 한 말이 왜을 안 쓰냐 한국은 그리고 3:58 니라는 영화 얘기를 했었습니다 그 EMC 부회장이 했던 그 머니볼 지금 4:04 여러분이 앞에 보고 계시는이 화면에 영화입니다이 영화가 이제 실질적으로 4:10 있었던 사례고 뭐 여기 줄거리를 잠깐 보시면 브리드 피트가 정말 최하위 9단의 그 4:20 구단주에 근데 매번 이제 메이저리 나갈 때마다를 하고를 하고 4:25 있는데 브레드피트가 다른 팀에서 정말 선수를 스카우트하기 4:31 위해서 여러 팀들을 돌아다니다가 그 경영학을 전공한 4:37 사람을 한 사람이 만나는데 그 경영학 전공자가 데이터를 분석을 해가지고 4:44 선수들을 어떻게 정하면 승률을 높일 수 있는지 그런 거를 취급하는 경도가 있었어요 그 4:52 경영 학도를 만나면서 리피가 데이터를 분석을 해서 야구 게임을 할 때 선수을 할 수을 을 5:00 하던 중에 그 경영학도 한번 나랑 한번 손을 5:05 맞춰서 내가 이끌고 있는 9단을 한번 키워 보자라고 지을 합니다 그러면서 5:11 그 경영가 참여를 하면서 선수들을 이제 분석을 해 가지고 시합에 5:16 내보내게 되는데 근데 그냥 단순히 내보내는게 아니라 다른 구단에서 막 쫓겨 놨던 선수들 정말 나이도 많고 5:25 그다음에 또 바른 빠른데 치지를 못하고 이런 선수들을 가 영이를 해요 5:31 그런 선수들로 구성을 해 가지고 메이저리그에 실질적으로 이제 참여를 5:36 하게 되는데 그때부터 이제 시작이 돼서 메이저 리그에서 지금 역사적인 기록을 몇 번 세운 케이스가이 머니 5:44 모라 영화입니다 여기서 가장 핵심이 이제 스포츠 과학이라는게 여기서 5:50 탄생을 했고요 데이터 분석을 통해서도 이런게 가능하다라는 첫 번째 이제 사례죠 6:01 어 또 하나 영화 말씀드릴게요이 영화는 또 보셨는지 6:07 모르겠는데이 남자가 이제 그 닥터 스레인 증가라는 주연을 맡은 배우입니다 6:13 근데이 남자가 젊었을 때 사진인데 그 이미테이션 게임이라는 6:18 용어를 아시는 분도 좀 있으실 것 같아요 원래 이제 이미테이션 게임은 6:24 두 개의 방에다가 방을 만들어 놓고 한쪽에는 사람이 들어가 있고 한쪽에는 6:30 컴퓨터를 갖다 놓는 거예요 그래놓고 방 밖에서 무슨 새로운 문제를 내요 6:36 문제를 내는데 그 문제에 대해서 컴퓨터가 답을 하는 경우와 사람이 답을 하는 경우 이거를 제 3자가 6:45 마칠 수 있느냐 없느냐를 확인하는 게임이 원래 이미테이션 게임이에요 근데이 영화 속에 이미테이션 게임이란 6:52 제목은 이게 이제 2차 세계 대전 때 실질적으로 있었던 사례 영화입니다 2차 세계 대전 때 6:59 독일군이 암호를 만드는데이 타자기 같은 거를 거 7:05 타자기 안에다 알고리즘을 심어서 누군가가 글을 입력을 하면 이게 암호화가 되는 거예요 근데이 암호화 7:12 되는 거를 연권 입장에서는 빨리빨리 풀어 가지고 대응 전략을 세워야 되는데 이거를 풀 수 있는 사람이 7:19 없었던 거죠 그래서이 영화 속에 이제 주인공으로 나오는 런 튜닝이라는 7:25 사람이 어 살가 세계적으로 제일 젊은 박사라고 7:31 하는 거 같더라고요 수학자 하는데 그 앨런 님이라 7:36 사람이이 독일군의 암호를 자기가 풀 수 있는 방법이 있다 하면서 이제 그 연합군의 기지를 찾아가서 암호를 풀 7:44 수 있는 기계를 만들기 시작을 해요 그 기계를 만들어 놓고 독일군의 7:50 암호를 가지고 학습을 시켜서이 암호를 해독을 해가지고 독일군들이 실제적으로 7:55 전략이 무엇인지를 거꾸로 끄집어내는 그런 를 만드는데 그 기계가 제가 개인적으로 8:02 생각할 때는 이게 멋있는 시작이 아닐까 이런 생각이 좀 듭니다 한번 8:07 기회가 되시면이 게임을 한번 영화 재밌 재밌는 영화거든요 이미테이션 8:13 게임이라는 영화를 한번 꼭 보시기 바라고 그다음에이 엘런 튜닝이라는이 학자의 이름을 따서 우리 노벨 문학상 8:20 뭐 이런 것도 있는 것처럼 it 관련된 노벨상을 앨런 트니 상이라고 만듭니다 그만큼 이제 유명한 학자라고 8:28 하네요 8:34 자 마지막 사례 하나만 설명드리고 본격적으로 진행을 하겠습니다 아 8:41 프랑스에서는 와인에 대해서 이제 그 매거진을 이렇게 출판을 하고 있는데요 8:46 프랑스에서 정말 유명한 와인이 두 가지가 있대요 보르도 와인이라는 거 하고 뭐 8:53 부노 와인이라는게 있는데이 와인이 8:58 전세계적으로 말 그 최고의 유라 평가를 받고 있을 시기에 어 아센 9:04 필터라는 사람이 해당 특정한 연도에 그 연도의 9:11 강우량이나 기온이나 그다음에 강수량 이런 거를 가지고 와인의 맛을 평가할 9:17 수 있는 제일 위쪽에 있는 와인의 품질이라는 저는 방정식을 만들었어요 저 방정식을 만들어 9:25 놓고 앞으로 와인이 오크통에 담기기도 전인데도 이 도에 생되는 인은으로 최고의 맛이 9:33 될 거야이 예을 해본 겁니다 처음에 아필 사람이 이런 걸 만들어서 9:39 메거진에 기보를 했는데 인이라는 걸 하는 9:44 사들이이 아필 사람의 말에 대해서 굉장히을 많이 했어요 말도 안되는 9:50 소리를 한다 인이라는 거는 통에 담아놓고 정한 시이 지난다음에 9:59 와인이 최고의 맛인데 아닌 판단할 수 있는데 담아보기도 전에 어떻게 그거를 10:04 네가 만드냐 뭐 이런 얘기를 했던 거죠 그러면서이 아선 펠트라이트 10:12 받았어요 근데이 아선 펠트는 사람이 얘기했던 와인 그게 시간이 흐르면서 10:19 흐르면서 정말 와인 맛을 시험할 수 있는 시기가 됐을 때 과거에 10:24 훌륭하다고 평가했던 와인보다 더 맛이 뛰어난 걸 결론들이 나왔습니다 그래서 최고의 또 데이터 분석 사례 10:31 중에 하나가 지금 첫 번째 줄에 보이는 저 방정식 사실이 10:37 방정식 어 아시는 분들도 있겠지만 회기 분석이라는 이론을 통해서 그냥 데이터를 놓고 돌리면 저런 공식이 10:45 나옵니다 저희가 이제 그 정형 데이터라는 걸 분석하는 거는 사실 관점에 따라서 좀 있다 한 보시게 10:51 되겠지만 예측 모델을 만든다 할 때 이런 방정식 금방 나와요 그래서 10:57 데이터 분석 그러면 어려운 작업이다 이런 생각 안 하셔도 되고 한번 관점에 따라서 좀 다르겠지만 조금만 11:05 시간 투자하셔서 조금 더 깊이 공부하시면 충분히 할 수 있는 분야라고 확신을 드릴 수 11:13 [음악] 11:20 있습니다 자 이제부터 본격적으로 저희가 이제 본 수업에 들어가보도록 11:25 하겠습니다 아 오늘 수은 정데이터서 는 내용으로 진행을 할 거고요 어 11:32 제가 이제 2주 뒤에 2주 뒤 금요일 오늘 같은 시간대에 비정형 데이터에 11:37 분석하는 거 또 한번 설명을 드릴 겁니다 우선 데이터 분석 경영 데이터 11:43 먼저 하나씩 보도록 하겠습니다 11:48 오늘 진행할 내용은 지금 앞에 보이시 것처럼네 가지로 진행을 할 건데 11:53 저희가 수업을 이제 4시간을 진행하면서 중간에 쉬는 타임이 없으면 안 되니까 번에 잠깐 쉬는 타임을 좀 12:00 갖도록 할게요 갖도록 하는데이 진행되는 상황에 따라서 어느 시간대 12:05 쉬는게 좋은지 제가 그 다시 한번 말씀을 12:12 드리겠습니다 자요 맵 장만 이제 개호 부분인데요 일단 지금 갖고 계시는 12:18 교재 페이지를 넘겨 가시면서 같이 보시면 더 좋을 것 같기도 합니다 데이터 분석 그러면 가장 먼저 12:26 떠오르는 단어가 예측 모델이에요 대부분이 뭐 데이터를 분석해 달라 12:31 뭐하다 보면 뭔가 데이터를 가지고 앞으로 일어날 수 있는 일에 대해서 12:36 알고 싶은게 제일 많이 접근하는 분석 방법입니다 근데 사실 예측 모델만 12:43 데이터 분석이 사실 그건 아니거든요 지금 이제 제가 앞단에 여기 기술한 왼쪽에 있는 기술요약 12:50 관점 그다음에 데이터 추론 관점 이게 사실 두 가지로 눠서 볼 수 있습니다 데이터를 분석하는이가 그 13:00 된거 그러다 보면 인사이트를 찾는데 어느 관점에서 그 인사이트를 찾을 13:06 건가 그것도 정의가 필요하기도 하고요 그러다 보니까 데이터 분석 그러면 13:11 예측의 모델만이 아니라 기술 관점에서도 접근하는게 데이터 석 한 13:16 축이다 좀 생각하시면 될 거 같고요 그 기술이라는 건 뭔가 한번 간단하게 13:23 써 있는 요술은 13:28 상을 진짜 요약을 하고 특징을 뽑아내는 작업입니다 그 특징을 뽑는데 13:33 그럼 어떤 특징을 뽑을 거냐 일반적으로 통계에서 용어들 많이 쓰죠 13:38 대표 값이라는 용어 대표값 그러면은 뭐 현대 통계학의 아버지라는 사람이 13:45 평균 분산 첨도 외도 뭐 이런네 가지 용어를 썼다고 하더라고요 근데 우리가 13:51 일반적으로 익히 아는 거 평균 그다음에 데이터를 작은 거부터 큰 수대로 했을 때 가장 중앙에 있는 거 13:59 그 중앙가 그다음에 어떻게 자주 제일 많이 나오는가 최빈값 그다음에 최소가 14:05 최대값 이런 것들이 대표 값들의 유형들이 그런 것만 파악을 해도 14:11 자료에 대해서 일단 특징을 보는 겁니다 또 그거에대 조금 더 들어가서 14:16 저희 학교 다닐 때 분산 표준 편차 공식도 외우고이 의미에 대해서는 깊이 14:22 모르지만 어떻든 느기는 했습니다 근데 분산 표준 편차가 학교 다닐 때는 14:27 들고 왜 써야 되는지 사실 모르거든요 그런 부분들을 요약을 해서 한번이 개념을 14:39 데이터고속도로 14:49 요약하는 분석 방법입니다 또한 데이터는 하나의 14:54 데이터만 보는게 아니라 데이터고속도로 봐 줘야 되거든요 15:00 우리가 사는 세상 속에서는 세 가지의 관계가 있다 그러죠 상관관계 인과관계 15:07 연관관계 렇게 세 가지 관점에서 데이터하우스 15:29 이런 용어는 들어보셨을 것 같기도 하지만 회기분석 그다음에 뭐 일반화 선형 모형 이런 용어는 좀 안 들어 15:34 보실 수도 있고요 통계 전공 하셨다면 요런 용어들이 이제 익숙하실 수도 15:40 하는데 꼭 통계를 전공 안 하셨더라도 앞으로 하시면서 요런 용어들은 이제 15:45 익숙해 되실 거예요데 지금은 이제 모르신다 그래도 부담은 안 가셔도 15:50 됩니다 그다음에 좀금 더 넘어가서는 가장 요즘에 핫 이슈죠 알파고 때문에 15:56 유명해진 머신러닝이나 딥러닝 뭐 이런 부분들이 예측에 관련된 16:02 모형으로 많이 쓰는 데이터 분석의 한축을 또 이루고 있는 16:14 부분입니다 이제부터가 이제 어쩌면 그 실질적으로 현업으로 돌아가셨을 때 16:21 또 개개인 여기 계신 선생님들이 본업으로 돌아가셨을 때 여기서부터 16:26 이제 고민하셔야 될 부분이 아닌가 좀 생각이 드는데 제가이 장표를 만들면서 저도 사실이 16:34 방법이 맞다고는 말씀을 못드리지만 막연했던 형태보다는 요렇게 접근하면 16:39 좀 부가 풀리는게 있어서 렇게 좀 표현을 좀 자료를 만들었습니다 16:46 우선 좌측부터 좀 볼게요 좌측에 보시면 여기 지금 16:52 서울시 빅데이터 스라는는 데이터 장입니다 수많은 데이터들을 보유하고 16:57 있는데요 지금 데이터 명이라고 정의돼 있는 지금 이렇게 나열돼 있는 항목들을 개별적으로 이렇게 보시면 17:05 나름대로 이렇게 묶을 수 있는 항목들이 좀 있어요 그거를 우측에 좀 한번 표현을 해 본 겁니다 데이터 17:12 데블 유형 해 가지고 부동산에 관련된 건 부동산이라고 명칭을 좀 묶어서 표현을 해봤고요 그다음에 교통에 17:19 관련된 건 어 교통에 관련된 데이터들이 어디 있는지 한번 표현을 해 본 거예요 17:25 요렇게 원시 데이터들은 이렇게 있는데요 데이터들을 나름대로 이렇게 17:31 대분류 카테고리로 한번 묶어 놓고 요거를 요렇게 우측에 한번 표현을 해 17:37 본 거예요 자 부동산도 있고 교통도 있고 교통 시설도 있고 유동인구 카드 17:44 소독 이런 데이터들 셋트에 있는데 이것들을 가지고 뭐를 묶으면 17:50 어떤 거를 한번 찾아볼 수 있을까 그런 주제를 이제 첫 번째로 생각해야 되는 작업이 데이터 분석 주제를 17:57 선정하는 방법입니다 그 영화나 이런데 많이 보면은 수사하는 분들이 벽에다가 범죄 18:07 사진도 놓고 그다음에 뭐 포스트 있으로 명칭도 사람 이름도 쓰고 막 18:12 선도 긋고 막 이러잖아요 데이터 분석이라는 거는 첫 번째로 그 작업부터 시작을 해야 되겠죠 내가 18:18 무엇인가를 분석을 하려면 분석 주제를 정하는게 필요합니다 분석 주제를 18:24 접근하는 방식은 제가 경험이 있어서 많이 한다 잘한다 이게 아니고 여기 18:29 앞에 계시는 선생님들이 더 잘하실 수도 있어요 그거는 창의적인 생각에 많이 집중되기 때문에 그런 분석 18:36 주제를 접근하는 방식을 막연하게 그냥 데이터 셋만 보고 접근해서는 잘 안 보이니 요렇게 요약을 해서 붙여 놓고 18:47 붙여 놓은 상태에서 잠깐 떨어져 가지고요 데이터세트를 보게 되면 주제를 접근하기 쉽지 않을까 그래서 18:54 저는 요런 방식으로 좀 주제 선정할 때 활용을 합니다 19:03 자 그러면 주제가 선정이 됐습니다 그 주제가 선정이 됐으면 본격적으로 이제 19:09 데이터 분석을 들어가야 되는데요 장표가 지금 눈에 딱 보시기에 굉장히 복잡해 보이실 수도 19:16 있어요 근데 큰 그림만 말씀을 드리겠습니다 어 제가 지금 나름대로 19:23 여기 센마 막 이렇게 저는 읽고 있는데요 요거는 데이터 분석 일반적인 19:28 방법 에요 근데요 방법론 말고 다른 방법론도 여러 가지가 있습니다 근데 19:34 수행하는 절차 부분들은 비슷해요 첫 번째로 제일 저 앞단에 19:40 있죠 주제 정의및 데이터 수집입니다 바로 앞장에서 우리가 무엇을 주제로 19:48 분석할 건가를 정의를 하고 나면 그 주제에 맞는 데이터들이 정말 있는지부터 이제 확인을 해야 되잖아요 19:55 그러면 주제에 맞는 데이터들을 수집을 해야 되는데 보유하고 있는 데이터 관점에서 모든 주제를 하는데 충분히 20:03 데이터량이 되거나 데이터가 다양하다면 상관이 없죠 하지만 그렇지 않을 경우가 또 태광 이거든요 그럴 경우에 20:11 예를 들어서 외부에 있는 데이터를 사오기도 하거나 아니면 뭔가를 20:16 만들어서 소셜 같은 데이터 같은 경우에는 크롤링이 솔루션을 만들어 20:22 만들거나 아니면 오픈소스로 있는 크롤링 솔루션을 구입 받아가지고 페이스북 이나 트위터나 20:29 이런 거에 데이터를 긁고 올 수 있거든요 그 그래 가지고 또 하나의 데이터를 수집을 하는 작업들을 하죠 20:35 그 데이터를 먼저 수집을 하면 그 수집된 데이터들은 아직 체계가 안 20:41 갖춰져 있는 데이터들이 그냥 막 어떤 거는 비정형 데이터 어떤 거는 정형 20:46 데이터 또 데이터도 값이 들어가 있는 경우도 있고 안 들어가 있는 경우도 20:51 있고 그다음에 어떤 데이터는 뭐 연월일 시분초 이렇게 한 덩어리로 20:57 묶여 있는 경우도 있고 또 어떤 데이터는 연월만 있기도 하고 뭐 서로 간의 규칙이 안 맞는 거죠 그런 21:03 관점에서 어 데이터는 수지까지 했는데 데이터를 그러면은 실질적으로 21:09 분석적으로 넘어가기 위해선 데이터를 잘 다듬어 작업을 해야 됩니다 그거를 21:16 이제제 데이터 모델링이라 이용을 좀 쓰기도 합니다 아 간단한 21:23 예로 영리를 추구하는 법인은 가장 상단에 세 개의 관점으로 바라보는게 21:31 필요합니다 즉 어 제가 화이트보드를 좀 써 가면서 하겠습니다 21:36 [음악] 21:46 [음악] 22:03 그 영리를 추구하는 법인은 가장 최 상단에 고객과 상품과 조직이라는 가장 22:10 핵심 데이터 유형들이 있어야 됩니다 고객은 있는데 상품이 없으면 22:15 또 무의미 하잖아요 그래서 가장이 고객과 상품과 조직이라는이 관점에서부터 데이터가 흘러갑니다 한번 22:24 볼게요 고객이 품을 구입을 합니다 그러 22:30 구입을 하게 되면은 계약이라는 행위가 이어지거든요 22:37 그러면 가장 계약서에 메인에 해당되는 계약 마스터 정보가 나오는 거죠 근데 22:44 계약을 할 때 고객이 상품을 구입을 할 때 상품을 하나 구입할 수도 있고 또 세 개 구입할 수도 있고 개도 할 22:51 수 있잖아요 근데 어쨌든 계약서 자체 맨 장에는 상품을 하든 100개를 22:59 구입을 하든 전체 썸머리 금액만 있는 거죠 그게 계약 마스터입니다 23:05 그러면 계약 마스터 밑에 또 나오는게 있겠죠 계약서의 상세한 23:13 내역이 계약 디테일이라는 정보가 이제 나올 수 있는 거죠 23:19 그다음에 계약서에이 계약이 이루지고 계약 디테일까지 나왔는데 그러면 상품을 23:26 구매를 해가지고 행위가 끝났어요 그래서 상품도 납품이까지 됐어요 근데 상품을 쓰다 보니까 상품에 또 하자가 23:33 발생을 하네요 그러면은 계약서에 있는 상품 기준으로 하자 처리를 해 줘야 23:39 되잖아 그러면 간단하게 23:45 또 상품에 대한 AS 접수 정보가 나올 수가 또 있거든요 요런 관점에서 봤을 때 23:52 데이터는 가장 최상단에 고객과 상품과 조직을 기준으로로 펼쳐지는 겁니다 23:59 뭔가 분석하는 주제를 정했으면 그 주제에 맞는 데이터들을 막 뭔가를 24:04 모아봤어요 모아봤는데 데이터들 간에는 보면은 이렇게 계층적인 계층적인 구조 체계로 충분히 24:12 나올 수도 있겠구나 생각하고 접근하는게 첫 번째로 필요합니다 그래서 그런 작업들을 데이터 모델링 24:19 즉 데이터를 담아 그을 그릇을 만드는 작업을 먼저합니다 자 그릇을 만들었으면 빈껍데기 상 24:28 이기 때문에이 그릇 만들어 놓고 수집된 데이터를 그 그릇에 제대로 옮겨 놓는 작업을 해야 되거든요 24:35 요거를 데이터 마 그레이라고 합니다 근데 우리가 일반적으로 24:40 기업이나 이런 데서 사실 데이터를 관리하는 거는 데이터베이스라는데 안에 다 저장이 돼 있거나 아니면 엑셀 24:47 파일로 정리가 돼 있거나 아니면 뭐 텍스트 파일로 돼 있다라도 나름대로 정리가 돼 있어요 그래서요 앞단의 24:55 부분들은 쉽게 갈 수도 있겠죠 뭐 뭐 그냥 그 만들고 모델링을 하거나 25:01 데이터 마이그레이션 할 필요 또 없을 수도 있습니다 하지만 일반적인 첫 번째 스타트부터 데이터 분석 방법론 25:08 쪽으로 접근을 하면 요런 행위들이 먼저 이루어지는 거죠 자 요렇게 해서 25:14 그릇까지 담았습니다 담았으면 그 그릇 속에 담겨 있는 개별적인 데이터들에 대해서 25:21 평가를 좀 해봐야 되거든요 그 평가를 이제 어떤 걸 하냐면 앞장에서 잠깐 거 처럼 기술 25:29 통계 관점에서는 대표 값들이 뭐가 있는지 그다음에 데이터들이 정말 빠져 25:35 있지 않고 잘 채워져 있는지 그다음에 데이터들 중에서 대부분들이 낮은 숫자 25:41 그니까 제품이 판매되는 수량이 두 건 세 건 다섯 건 요렇게 밖에 판매가 안 되고 있는데 어떤 특정한 항목만 25:49 갑자기 데이터 값이 뭐 만 이렇게 써 있다면 이런 만이라는 데이터가 맞는 25:55 건지 뭐 요런 것들이 있다는 걸 확인을 해야 돼 요 그거를 탐색 26:00 작업이라고 합니다 그릇에 담겨 있는 음식물이 생각을 했을 때 그 음식물이 짠지 26:09 반지 아니면 너무 싱거운지 이런 의미를 파악하는 것처럼 데이터가 26:15 그릇에 담겨 있으면 그 데이터의 속을 어떤 제이 이해하는 작업을 탐색 작업입니다 요렇게 탐색이 끝나고 나면 26:23 데이터에 대해서 더 깔끔한 작업을 수행하기 위해서 이제 정제화 모디파이 작업을 26:30 합니다 즉 데이터 값이 비어 있으면이 값을 새로운 값으로 대체를 하는 26:36 작업들 한다거나 아니면 동일한 의미의 데이터들 같은 경우에는 하나로 좀 26:41 압축을 해서 하나의 새로운 항목을 만들어 낸 되거나 뭐 이런 작업들을 하는게 데이터 모디파이 26:48 작업입니다 요렇게 모디파이 끝나고 나면 실적으로 분석 주제에 맞는 분석 26:54 모형에 태워서 정말 알 는 인사이트를 찾는데 적용하는 여러 가지 분석기법에 27:02 태우게 되는 거죠 렇게 태운 결과치에 대해서 최종적으로 평가로 이어지는게 27:09 일반적으로 데이터 분석하는 방법론이 센 말하는 방법 요거를 지금 잘 27:15 간단하게 설명을 좀 드린 겁니다 저희가 오늘 할 거는 데이터셋이 있습니다 데이터셋이 27:23 있고 저희가 그 데이터셋에 대해서 일부 모디파이 저을 마지막에 을해 27:28 되실 거고요 그다음에 실습이 된 걸 가지고 여러 다양한 이제 예측 모델이 27:34 아니라 저희는 오늘 기술 통계 관점에서 즉 기술 요약 관점에서 데이터를 어떻게 정리를 하고 그 27:41 데이터를 시바 그까지 이어지는지 그 흐름을 한번 해 볼 거예요 자 저희가 오늘 하는 거에 27:48 예측 모델을 만드는 것만 빠져 있지 나머지 과정들은 똑같이 진행된다고 보셔도 됩니다 그래서 실질적인 업무 27:56 활용에 조금이나마 좀 도움이 되실 수 있도록 한번 오늘 수업 내용을 좀 28:01 구성을 해 봤어요 자 28:08 이제부터 실질적으로 이제 키보드를 쳐 보시면서 이제 한 줄 한 줄 이렇게 28:14 이제 익혀 가시는 작업을 해야 되는데요 첫 번째로 저희는 이제 28:19 아이라는 걸 가지고 데이터를 조작하는 방법부터 좀 배울 28:24 겁니다 어 지금 데이터베이스라는 부분들을 좀 아시는 28:32 부분 분도 있으실 것 같긴 한데 일단은 전혀 모르신다고 생각하고 이제 28:38 시작을 하겠습니다 데이터베이스 데이터베이스 용어는 많이 들어보셨을 거고요 28:45 데이터베이스를 다른 말로 또 깡통이라고 하는 경우도 많이 있고요 자 그러면 깡통 속에 있는 데이터를 28:53 제가 뭔가 필요한 거를 끄집어 오려면 뭔가 명령을 줘야 필요한 데이터를 끄집어 28:59 간단하게 엑셀 시트 같은 경우 저희가 메뉴 중에 필터라는 항목을 딱 첫 29:05 번째 컬럼에 정의를 하면 그 항목을 가지고 필요한 데이터 뽑아 내잖아요 29:10 그러한 것처럼 어떤 데이터셋이 있습니다 데이터셋이 있는데 그 29:15 데이터셋을 조작을 해가지고 제가 필요한 데이터를 뽑아내려고 그래요 그때 써야 되는 29:21 언어가라는 언어입니다 SQL이라는 언어인데이 SQL이라는 언어는 원래 모든 29:29 데이터베이스에 표준 옵니다 원래 명칭은 안 SQL이라고 얘기를 29:35 합니다 이시라는 용어는 데이터베이스에서 쓰는 언어요 근데 29:43 아에서에서 SQL 같은 기능을 할 수 있는 SQL 있습니다 데이터를 조작을 29:51 하고 데이터를 가공을 하고 데이터의 특성을 파악하고 할 수 있는 그런 언어가 29:57 있어요 언어가 아에서는 dplyr이라는이 패키지 안에 들어 30:03 있는 함수를 이용하면 SQL 똑같은 언어처럼 쓸 수가 있습니다 30:10 그래서 데이터를 잘 조작을 하고 데이터에 대한 특성을 파악하고 30:15 그다음에 그거에 대해서 모디파이 작업을 하고 이런 작업이 30:20 이루어져야 정말 분석하고자 하는 주제에 맞는 모형에 태울 수가 있거든요 간단한 예로 알파한테 바을 30:29 시켰기 때문에 알파고가 바을 잘하는 거지 만약에 알파고 같은 머신에 30:35 기계에다 수학을 알려주고 싶은데 국어책 갖다가 학습시키면 수학 이해하는 거 아니잖아요 분석 주제에 30:42 맞는 내용을 뭔가 잘 예측을 하고 싶고 뭔가 알고 싶다면 그 분석 주제에 맞는 데이터를 잘 줘야 좋은 30:50 결과치가 나오게 됩니다 그러면 그 좋은 결과치를 기 위해서 좋은 30:55 데이터를 만들어줘야 되 좋 데이터를 만들고 찾아내는 작업을 할 때 제일 31:00 많이 써야 되는게요 패키지입니다 그래서요 기능들에 대해서 31:05 한 번씩 한 번씩 쫓아가면서 한번 해보도록 할게요 지금 현재 그이 페이지 지금 31:13 페이지 10페이지 요거는 지금 11페이지 요것들을 조금 더 상세하게 좀 제가 31:19 나열해서 정리한 자들이고 요거는 직으로 좀 표현 자니까 앞으로 나중에 31:26 자 이렇게 습하 할 때 명령문이 자꾸 페이지 앞뒤로 왔다 갔다 하시면서 31:33 보시기 어려우실 것 같아서 요걸 먼저 만든 거예요 그 다음 페이지는 이것들에 조금 상세하게 풀어놓은 31:39 장들이 그거라고 보시고 한 장씩 한장씩 실습을 31:45 [음악] 31:51 해보겠습니다 자 일지 11페이지 이제 시작을 하겠습니다 그리고 키보드도 31:56 이제 다 열어 [음악] 32:10 주시고요를 지금 처음 해 보시는 분들도 있으실 것 같아서 하나씩 하나씩 한 스텝 한 스텝씩 설명을 좀 32:17 드릴게요 우선 요거를 키보드로 본격적으로 치시기 전에 딱 하나만 먼저 간단하게 설명을 드리고 실습을 32:25 들어가겠습니다 자 어떤 32:37 자 요게 깡통에 데이터가 들어가 있습니다 자이 깡통에 수많은 32:42 데이터들이 들어가 있는데 여러 유형의 데이터도 있고요 자이 깡통에서 제가 32:48 필요한 데이터를 뽑고 싶어요 그때 쓰는 명령이 어떤 항목을 뽑을 건가라는 32:55 거를 정의하는 거는 셀렉트라는 명령을 합니다 저희가 지금 화면에 보이는 첫 33:01 번째 제일 위에 있는 셀렉트가 그거예요 자 어떤 항목을 뽑을 거야 그게 33:09 셀렉트이 데이터 깡통에서 고객 명칭만 갖고 와 그러면 33:15 셀렉트 고객명 이렇게 되는 거예요 이거부터 이제 하나씩 하는 겁니다 자 33:20 그다음에 셀렉트를 할 건데 고객 명칭을 셀렉트를 할 거예요 근데 어디서부터 셀렉트를 해야 될지 또 33:26 정의가 돼야 되 그러면이 프롬이라는 명령을 쓰는 데가 33:34 있습니다 지금 우선 요거는 제가 아까 방금 전에 데이터를 핸들링할 때 모든 33:41 데이터베이스에서 표준으로 쓰는 언어가 시라고 얘기를 33:52 드렸어요 자이 안시의 SQL 아래 지금 저희가 실습에서 배울이 SQL 33:57 는 연계가 굉장히 깊 그래서 이제 요거를 먼저 간단하게 말씀을 드리려고 하는 거예요 자 34:05 셀렉트 고객명을 가지고 오려고 합니다 근데 어디서부터 갖고 올 34:11 거냐 그게 제 고객 정보를 고객에 대한 정보를 34:17 갖고 있는 데이터 셋부터 갖고 오는 거죠 자 여기까지 하면은 모든 고객이 34:23 다 나오는 거예요 자 근데 일을 하다 보면은 모든 고객 34:29 정보가 다 필요한게 아니거든요 예를 들어서 연령이 20대인 사람들만 갖고 올 때도 있고 남성이 성별이 남성인 34:35 선과 가져올 때도 있고요 아니면 특정한 고객의 전화번호가 여기에 해당되는 사람만 갖고 올 때도 34:41 있습니다 그런 거를 할 때 이렇게 웨어라는 거를 줘 가지고 34:48 갖고 오기까지 하는 데이터에 필터링을 합니다 즉 34:55 웨어에 고객 명이 간단하게 이제 표현을 좀 35:01 할게요 자 이순신이라는 사람의 고객에 아 여기 지금 고객 명의 35:07 중복이 있네요 [음악] 35:13 그러면 자 35:20 전화번호가 전화번호가 010111 222 해당사는 사람에 35:26 명칭을 꾸고 싶다 할 때 렇게 쓰는 겁니다 자 고객이라는 정보를 갖고 35:34 있는 고객 정보를 갖고 있는 데이터셋에서 고객 명을 갖고 올 거예요 근데 조건은 전화번호가 0 35:43 111에 2인 사람만 갖고 오겠다 요겁니다 그러면 그러면 여기에 화면에 보이는 35:51 관점으로 한번 좀 볼게요 자 여기 지금 있는 거는 안시는 용어입니다 35:58 자 지금 화면에 보이는 셀렉트 아래도 쓰는 SQ 똑같이 셀렉트라 문건을 36:05 씁니다 자 그다음에 필터라고 여기 나온 거 있죠요 필터가 안시 SQL 36:12 웨어에 해당되는 거라 똑같은 겁니다 사실은 데이터라는 거를 조작을 36:19 하고 데이터를 분석을 하게 되려면 데이터라는게 들어가 있는 36:25 매체가 어딘가를 한번 우는 생 잠깐 해볼게요 일반적으로 아까도 말씀 36:30 텍스트 파일로 데이터가 들어갈 수도 있고 셀에도 있을 수도 있어요 또 반면에 데이터베이스 있을 수도 36:37 있거든요 근데 데이터의 사이즈를 보고 고민한다면 텍스트 파일이나 엑셀은 36:44 데이터를 담는데 한계가 있어요 하지만 데이터베이스는 그렇지가 않거든요 36:50 10억 건 이건 100억 건 이건 억건 데이터베이스에는 담겨 있습니다 그럼 데이터베이스는 데이터를 끌고 올 36:56 때 써야 되는 문장은이 안시로 쓰는 거고요 데이터를 R 아이라는 언어를 37:03 통해서 긁어 불러왔어요 온 뒤부터 써야 될 SQL 이거를 쓰는 거예요 37:09 자 한 주씩 그러면 해 보겠습니다 37:30 자 아이라는 거를 먼저 좀 띄울 건데요 자 37:47 우선 자 그 바탕 화면에서 R 스튜디오라는요 메뉴가 있을 37:54 겁니다 자 이거를 더블 클릭하시면 지금 화면에 보이시는 거 38:00 같은 윈도우 창이 하나 열리게 됩니다 자 이게 열린 38:06 상태고요 열렸을 때 지금 요렇게 아무것도 요렇게 돼 38:12 있는 분들도 있으실 거예요 아무것도 이렇게 없이 요런 명령만 있을 수도 있어요 그거 신경 안 쉬도 38:20 되고요 일단은 요렇게 뜨게 되면 여기 메뉴 중에 파일이라는게 38:26 있습니다 파라는 메를 클릭을 하시고 그다음에 뉴 파일이라는 메를 또 클릭 38:32 서브 메뉴를 클릭하시고 그다음에 그 옆에 있는 스크립트라는요 메뉴 요거를 한번 38:39 클릭을 해 보시면 이렇게 빈 화면 에디트 창이 하나 38:47 뜹니다 자 여기까지 한번 눌러봐 주세요 파일 38:52 누르고 뉴파일 클릭을 한하고 스크 눌러주시면 38:58 됩니다 요거는 누를 때마다 요런 창들이 하나씩 더 생겨요 자 요거까지 되신 39:07 상태에서 첫 번째로 저희가 11페이지에 있는 셀렉트 먼저 좀 시작을 해 39:13 [음악] 보겠습니다 자 셀렉트에 저희가 활용할 39:19 데이터는 자라는 그 꽃 꽃중에 39:25 꽃이라는 그 명칭이 라는 데이터라고 하더라고요 용어로 쓰더라고요 iris 39:32 아 잠시만요 제가 화면을 좀 39:46 키울게요 이제 좀 잘 보이십니까 뒤쪽에 보이십니까네 자 iris 아는 39:53 데이터를 가지고 이제 데이터 조작을 해 볼 거예요 자 iris 아는 데이터가 그러면 40:00 어떤 데이터인지 한번 좀 궁금하잖아요 이거를 이제 보기 위해서 40:06 데이터의 속성을 좀 이제 이해하는 작업을 해야 됩니다 자 먼저 40:12 str 한번 쳐 보시고요 그다음에 괄로 열고 40:19 iris 해놓고 괄로 닫아 주신 다음에 자 40:25 요거를요 지금 커서가 이렇게 쳤던 줄에 이렇게 40:31 껌뻑껌뻑 거릴 때 요렇게 놔둔 상태에서 해도 되고요 아니면 요걸 40:36 렇게 반전시켜서 해도 되고요 또는요 상태에서 컨트롤 엔터를 쳐도 됩니다 40:44 커서가 거기 깜빡깜빡 거릴 때 컨트롤 엔터를 추셔도 돼요요 irs 데이터를 렇게 반전시킬 40:51 때는 또요 위축 중간에 위에 중간에 런이라는 명령이 있어요 40:57 요거를 누르셔도 됩니다 요걸 누르게 되면 저 밑에 41:06 쪽에 자 요렇게 뭔가 정보가 지금 반전 제가 시켜 드린 것처럼 이런 41:12 정보 정 유형들이 나옵니다 자이 irs 데이터라는 41:21 거는 여기 보시면 세팔 랭스는 거 그 41:26 꽃받침 꽃받침의 길이 폭 꽃잎의 길이 폭 41:33 그다음에 irs 아는 데이터는 세 가지 유형의 종류가 있다고 하더라고요 그게 41:41 세토사 버지 칼라 비그 이렇게 세 종류가 있다고 합니다 그래서 데이터를 41:47 보니까 세 가지 종류의 붓꽃 데이터인데 꽃받침과 꽃잎에 대한 41:54 길이와 폭의 정보를 가지고 있는 데이터에 그리고 요걸 또 보시는 방법을 41:59 간단하게 말씀드리면 여기 데이터 점 프레임 이렇게 돼 있어요 요거는 쉽게 42:05 말씀드리면 엑셀 같은 거라고 보시면 돼요 데이터가 첫 번째 열에는 숫자가 42:12 있고 두 번째는 한글 명칭이 있고 세 번째는 뭐 날짜가 있고 이런 42:19 식으로 데이터가 우리 행렬 같은 거는 숫자값만 들어가 있야 되는데이 42:25 데이프레임 거는 엑셀 시트 같은 거라고 생각하셔도 돼요 그래서 세팔 42:31 랭스 세팔 위스 페팔 랭스 페팔 미스는 숫자형을 데이터야이 유 이게 42:38 넘버의 약자입니다 넘버 타입이야 숫자 타입이야 이런 얘기고요 그다음에 스페시스 거는 여기 42:47 팩터 이렇게 돼 있어요요 팩터는 거를 간단하게만 좀 42:53 말씀드릴게요 통계에서는 통계학에서는 데이터를 크게네 가지의 척도로 구분 43:01 합니다 어떤 척도면 명목 서열 등간 비율 렇게 척도로 나눠요 요거 43:08 간단하게만 좀 말씀드리겠습니다 43:17 [음악] 43:31 저희가 사는 우리가 일상적으로 살아가는이 세상 속에서 데이터 하고도 43:36 매핑을 한번 시켜 셔도 돼요 자 한번 보겠습니다 명곡이라는 척도는 우리가 43:43 간단하게 이름을 비 부여한 거예요 예를 들어서 성별 성별은 남녀 이렇게 43:50 있잖아 그다음에 서울시에도 강남구가 있고 서초구가 있고 송파구가 있고 43:56 이렇게 구로 그다음에 뭐 개개인들의 이름들 이런게 44:01 명목 44:06 도입니다 지금 명칭을 부여한 거죠 예로 이제 뭐 이름 같은 거 구정보 44:13 뭐 이런 것들이 이제 명목 고요 서열 도라는 거는 우리가 길거리를 다니다 보면 44:21 설문 조사를 해달라는 분들이 많이 있어요 설문지를 조사해 달라고 할 때 44:27 가지 이렇게 딱 받아보면 뭐라는 회사의 44:34 음료수는 맛이 어떻습니까 문항이 있고 그 밑에 뭐 매우 맛있다 런게 하나 있고 44:43 맛있다 요게 있을 수 있고요 보통이다 맛이 없다 매우 맛이 없다 44:51 런 식으로 표현되 있는 데이터들이 있어요 요런 것처럼 들 지금이 답안지 안에는 지금 45:00 분명히 서열이 있어요 서열이 있는데 맛있다 보통이다 뭐게 더했을 45:08 때 매우 맛있다라고 되는게 아니잖아요 요와 같은 거 즉 사칙 연산이 안 45:13 되지만 데이터 간에는 순서가 있는 거 크기가 있는 거 요런 도를 서열 45:19 도라고 합니다 자 등간 도하고 비율 도는 같은 의미의 맥으로 많이 45:25 쓰는데요 하고 비율 도라의 데이터는 숫자 45:37 데이터예측 쉽게서 온도계를 보시면 돼요 0도 미만으로도 값이 있잖아요 45:44 그와 같은 것들을 등간 적도 비율에서 0 밑으로 떨어지는 비율은 없거든요 45:49 그 숫자 데이터가 0까지 돼 있는 갈 수 있는 것들 그런 데이터들을 비율 45:55 적도 데이터 이렇게 합니다 자 그러면 지금 화면에 보이시는이 시스라는 46:01 항목은 팩터는 여기에 지금 써 있는데 요게 아래는 데이터를 명목 도하고 46:09 서열 척도로 표현할 때 쓰는 명칭이에요 여기게 쉽게 말씀드리면 46:15 명목이나 서열 척도를 만들 때 쓰는게 아래는이 터라는 요소를 씁니다 그래서 46:23 지금 시스라는 데이터는 명목 아니면 서 도야 렇게 보시면 돼요 근데 46:30 요렇게 딱 돼 있는데 서열 속도는 지금 팩하고 돼 있을 때는서 도가 46:35 아니라는 얘기예요 그냥 명칭만 있다라는 얘기예요 그 명칭이 세토사 46:40 버지 칼라 비니 이렇게 세개 명칭으로 있다 그 얘기입니다 이제 이게 46:47 보신게 자 그러면 irs 데이터를 이제 저희가 렇게 다섯 가지 항목으로 46:53 지금 구성이 돼 있고 전체 데이터 건수는 지금 150 있다라는 얘기입니다 자 이걸 가지고 데이터 46:59 조작을 해보겠습니다 자 첫 번째로 irs 47:07 아는이 데이터 안에서 자 세팔 랭스 하고 세팔 47:13 위라는 데이터 두 개를 갖고 오려고 해요 아래에서 쓰는 명령문들의 47:19 대부분이 가로를 열게 돼 있습니다 한번 볼게요 47:29 여기까지 쓰시면 이게 뭐냐면 자 irs 47:36 데이터로부터요 퍼센트 세 퍼센트가 이렇게 있는데요 요거는 연결입니다 연결자 즉 47:44 irs 즉 앞단에 있는 좌측에 있는 거를 통해서 연결해 가지고 단이 47:49 이어져라 이런 의미입니다 그래서 자 irs 47:55 데이터로부터 해가지고 항목을 갖고 올 거야 즉 셀렉트를 할 거야 요게 48:02 명칭입니다 그러면 셀렉트를 할 때 어떤 거를 그러면 셀렉트 할 건가를 정의를 해 48:08 줘야 되거든요 그때 저희가 세팔 랭스는 거 하고 세팔 위라는이 두 48:15 항목을 한번 셀렉트를 해 보려고 해요 그러면 지금 셀렉트라이 가로 48:21 열려 있는 부분에 명칭들을 써주면 됩니다 참고로은 대소문자를 분을 48:27 합니다 그러니까 그거를 참조해서 저처럼 한번 써 보셔도 되고요 교재 48:32 11페이지에 있는 명령 그대로 한번 쉬 보셔도 돼요 자 한번 쳐 48:45 보겠습니다 자 아래는 기본적으로 몇 가지 명령을 치면지가 자동적으로 나타나기도 해요 그 항목이 나타날 때 48:52 선택하셔도 되고요 자 이렇게 선택을 친 상태에서는 컨트롤 엔터를 치시거나 48:59 아니면 얘를 반전시켜서 런이라는 명령을 버튼을 눌러 세도 49:06 되고요 어떤 방식으로 하더라도 상관이 없습니다 실행을 시키면 결과 치들이 49:12 아 잠시만요 자 아이라는이 DP yr 49:17 저희가 쓸 거거든요 그럼 얘를 메모리에 올려 놓는 작업을 먼저 해 줘야 돼요 요게 라이브러리라는 함수가 49:23 있습니까 명령문이 있습니다 요거부터 좀 할게 49:30 게요 자 요렇게 라이브러리 해 가지고 가로 열고 DP yr 먼저 꼭 치셔야 49:37 됩니다 요게 뭐냐면은 전 세계 모든 개발자들이 49:44 새로운 기능들을 계속 만들어냅니다 자 그러면 새로운 많은 49:50 분들이 새로운 기능들을 만들어 냈는데 그거를 제가 쓰고 있는이 컴퓨터 설치를 해야 되거든요 49:57 그 기능을 설치를 하는 명령문이 인스톨 패키지라는 명령문이 있어요 50:04 근데 설치를 하기는 했어요 근데 그 쓰려고 하려면 실행을 시켜 줘야 50:09 되거든요 그게 무슨 얘기냐면 저희가 오피스를 구매를 했어요 파워포인트를 쓰려고 그럼 50:17 오피스 깔아야 되잖아요 그게이 아래는 인스 패키지라는 50:22 명령입니다 오피스를 깔았다고 해서 바로 파워포인트 쓰는게 버튼을 실행시켜야 파워포인트가 뜰 거 50:29 아닙니까 그것처럼 아래 쓰는 SQL 설치를 했으면 걔를 50:35 뛰어 놔 줘야 돼요 그게 라이브러리라는 명령입니다 저 명령을 50:42 통해서 내가 dplyr 즉 아에서 쓰는 SQL 쓸 50:48 거야라고 띄어 놔야 돼요 그다음에 irs 퍼 세 퍼 이런 50:54 명령을 치면 실행이 되게 돼 입니다 한번 좀 쫓아 51:00 보겠습니다 자 라이브러리 이렇게 먼저 하고요 51:17 워요 아 안 보입니까네 크게 드릴게요 51:30 [음악] 52:02 자 지금은 이제 폰트를 최대한 키워 봤습니다 자 이렇게 했을 때 잘 보이실 거라고 생각이 듭니다 자 52:10 라이브러리 해가지고 얘를 먼저 메모리 파워포인트를 실행을 시키는 것처럼 52:16 로딩을 먼저 시켜 놓고요 자 그다음에라는 52:23 데이터로부터 데이터를 셀렉 할 겁니다 가져올 겁니다 어떤 항목을 갖고 올 52:29 거냐면 세팔 스라는 데이터와 세팔 스라는 거 갖고 올 겁니다 렇게 52:36 해서요 상태에서 컨트롤 엔터를 치거나 런을 명령을 실행을 하면 이와 같이 52:42 데이터들이 쫙 올라와요 근데 이게 지금 너무 많으니까 한번에 보기가 52:48 뭐해서 지금 선생님들이 갖고 계시는 자료에는 여기에 뒤에 연결자 또 다시 52:56 를 제가 또 표현을 해놨어요 그다음에 53:02 헤드 즉 앞단에 몇 개만 보고 싶다 이렇게 쓸 때 쓰는 명령문이 헤라는 53:09 명령입니다 그래서 여섯 거만 보겠어라고 이렇게 표현을 한 53:16 거예요 자 이렇게 뒤에라는 데이터로부터 두 개의 항을 53:23 갖고올 거고 갖고오는 만 보여줘 렇게 하는게 헤라는 53:29 명령입니다 렇게 실행을 시키면 여섯 건의 데이터만 이제 보여주게 되는 53:34 거죠 자 그래서 보니까 세 스하고 세 스하고 전부 53:40 숫자 데이터라는 거 저희가 지금 확인을 해봤고요 자 요게 기능 자체의 셀라는 53:51 명령입니다 데이터를 조작하는이 기법을 알아야이 를 가지고 시각화까지 연결을 53:58 하고 그러고 나서 데이터 탐색을 한 다음에 최종적으로 분석 활용하고자 하는 데이터 셋을 만드는 작업을 54:04 이거로 다 끝내야 돼요 자 그래서 첫 번째로 이제 셀렉트를 해 봤고요 54:10 11페이지 밑에 있는 필터라는 부분을 좀 해보겠습니다 자 필터라는 거는 조건입니다 조건 특정한 조건에 있는 54:17 걸 만족하는 걸 갖고 와죠 요런 부분이고요 한번 쳐 보도록 하겠습니다 54:40 자 제가 지금 명령문을 좀 하나 쳤는데요 자 필터라는 조건을 54:52 걸었습니다 자 irs 아는 데이터로 붙어 어 위에만 쳤네요 아 위에 거는 먼저 55:00 설명할게요라는 데이터로 붙어 걸러내 주는데 어떤 거로 걸릴 거냐 irs 55:07 데이터 안에는 스시라 항목이 분명히 있었습니다 얘는 명목 도였어이 시스라는 값이 세토사 거만 55:16 갖고 와죠 이렇게 한 거예요 근데 여기 지금 중간에 등호가 두 개가 55:22 있습니다요 명령이 같다라는 의미를 찾을 때 런 기호를 씁 니다 그래서 55:28 irs 데이터로부터 세토사 아는 데이터만 걸러 줘 단 걸른 다음에 55:34 여섯 개만 보여 줘 앞에 있는 여섯 개만 보여 줘 요렇게 쓴 거예요 자 여기까지 한번 실행을 시켜 55:42 보시고 안 되는 분들은 교재도 한번 보시고 그래도 안 되면 말씀을 해 55:53 주세요 자 요렇게 해서 결과치가 세토 사이에 해당되는 데이터 여섯 거만 55:58 나오면 합니다 자 그러면 저희는 특정한 항목을 갖고오는 셀렉트를 좀 56:04 해 본 거예요 자 그다음에 데이터를 갖고 왔는데 그거만 갖고 오지 말고 이제 걸러 보자 해서 필터하는 거 좀 56:11 해봤어요 자 그다음에 다음 페이지 한번 넘어가 56:20 보겠습니다 자 현재라는 거는 다섯 개의 항목으로 구성된 데이터인데 56:26 여기에 제가 새로운 항목을 더 추가하고 싶어요 그럴 때 쓰는게 12페이지에 56:33 있는 티라는 함수입니다 자 함수라는 용어에 대해서 56:41 굉장히 나을 수도 있는데요 아시는 분은 아시겠지만 함수라는게 뭔지를 한번 56:48 간단하게 말씀을 좀 드려 볼게요 저희가 지금 셀렉트는 명령도 56:55 그렇고 필터라는 명령도 그렇고 이게 전부 함수입니다 57:09 함수 저희가 학교 다닐 때 이런 기호들 좀 봤잖아요 제가 57:16 여기에다가 1이라는 어떤 전하고 3이라는 구를 두 개를 넣었을 57:22 때 여기 결과치가 3이 나왔어요 그 이 함수는 곱하기 함수라는 얘기잖아요 57:28 이와 같은 똑같은 겁니다 필터라는 저 명령은 시스라는게 세토는 걸 넣은 57:37 거예요 넣으면지가 알아서 거기에 맞는 거 찾아서 주는 57:42 거예요 그래서 셀렉도 57:55 함수고정 처리 결과들이 앞뒤가 묶여서 처리되고 결과치가 나오는 겁니다 자 58:02 그러면 뮤트라는 걸 해 볼 건데 58:08 뮤테라피 명령입니다 자 12페이지에 있는 58:14 뮤트를 한번 쳐 볼게요 [음악] 58:28 [음악] 58:33 똑같이 한번 제가 쳐보도록 하겠습니다 59:07 자 일단은 기능에 대해서 한번 먼저 설명을 드려 59:12 볼게요 자 irs 데이터로부터 세토사 거만 갖고 와서까지 했어요 그러면 59:19 세토사 갖고 온 겁니다 필터를 했습니다 다 필터한 다음에 제가 59:28 빈이라는이 변수를 하나 만들려고 하는 거예요요 변수를 만들 건데 어떤 59:34 변수에요 변수에 뭘 채울 거냐면 세판 스라는이 값의 평균 59:41 평균값을 채우려고 해요 기존에 다섯 가지 항목 밖에 59:47 없었는데요 여섯 번째 항목을 기존에 있 데다가 더 붙이려고 하는 거예요 59:53 그때 쓰는 명령이 티 라는 함수를 쓰는 겁니다 59:59 그래서 계속이 아에서 쓰는이 dplyr 즉 SQL 같은 1:00:06 거라고 그랬죠 얘는 계속 렇게 퍼센트 록에 퍼센트를 이렇게 붙이면 계속 1:00:13 연결해서 데이터를 조작할 수가 있어요 굉장히 강력한 기능입니다 1:00:19 이게 그래서 데이터를 알 가지고 분석하시는 분들은이 DPR 1:00:24 yr이라는요 패키지 즉 SQL과 같은요 패키지를 굉장히 많이들 쓰셔요 1:00:30 요걸 또 쓸 수밖에 없고요 물론 이와 유사한 패키지들도 있습니다만 대부분들이 이거를 많이 1:00:37 쓰세요 그래서 데이터를 첫 번째 조작하기가 쉽기 때문에 그래서요 1:00:42 기능을 먼저 첫 번째 시간에 익히려고 하는 겁니다 자 1:00:48 그래서로부터 스페시스 세토사 것만 먼저 갖고 와 범위 끝난 겁니다 1:00:53 갖고온 뒤에을 추가해 줘 뮤티 해 줘 하는데 1:00:59 어떤 항목을 추가할 거냐면 세팔 랭스의 평균값을 추가해 줘 추가해 1:01:06 주는데 그때 명칭은 세팔 점 랭스 점 1:01:12 민 이거로 그릇으로 만들어서 추가해 줘 이렇게 한 겁니다 자 이게 뮤트라는 개별적인 1:01:19 함수 명령입니다 자 그 밑에 한번 또 한번 1:01:25 볼게요 12페이지 밑에 자 뮤티 다음에 디스트라 함수가 1:01:33 있습니다 얘는 제일 유니크한 값들만 뽑아주는 역할들을 1:01:39 합니다 그 중복돼 있지 않고 단일화된 값만 보여주기 위해서 하나 명령 1:01:44 있데요 한번 쳐 볼게요 1:01:57 자 제가 지금 라인에 이렇게 irs 퍼센트 거세 퍼센트 1:02:04 디스팅트 디스팅트 해놓고 스페시스 항목을 유니크하게 단일화 시켜서 한번 1:02:11 보여 줘봐 이렇게 한 [음악] 겁니다 그랬더니 이제 세 개 스페시스 1:02:18 irs 아는 데이터에서 갖고 있는 세 개의 부권 명칭들 세토사 버지 칼라 1:02:24 비그 나온 거예요 자 요게 1:02:31 디스고 예 그다음 페이지인지 한번 좀 봐주십시오 자 13 1:02:40 페이지입니다 자 13 페이지인데 13 페이지에는 그룹 바이라는 거하고 1:02:47 라이라는 두 가지가 이제 같이 나열돼 있어요 자 지금 저희가 셀필 1:02:56 런 뮤티 이런 것들은 개별적인 데이터들 항목을 많이 취급할 때 1:03:02 쓰는데 그와 좀 다르게 데이터에 대해서 그룹을 주고 1:03:09 집단으로 좀 묶은 다음에 뭔가의 값을 알고 싶을 때가 있어요 그때 쓰는게 그룹바이 1:03:17 라이라는 함수입니다 선 이렇게 한번 볼까요 1:03:27 이런 알고을 있거든요 그라는이 데이터 전체를 하나의 그룹으로 보는 겁니다 1:03:34 자 그다음에 그렇게 안하고 또이 irs 데이터에는 스라는게 이게 1:03:40 세 가지 꽃 종류가 있는데 얘 개별적으로 몇 건씩 있어 이렇게 보 1:03:45 할 때도 있잖아요 그럴 때 제가 그룹으로 묻고자하는 항은 그룹바이 1:03:52 다음에 쓰는 거고요 그음 뭐를 서머라이즈 요약할 건가 카운터를 요약할 건가 그니까 몇 1:03:59 건이 있는 걸 요약할 거냐면 카운터라는 걸 쓰는 거고요 아니면 평균을 구하고 싶다 그러면 아까처럼 1:04:06 민이라는 함수가 들어가는 거고 그거를 저희는 이제 그룹 함수라고 얘기를 하는데 자 1:04:13 볼게요 어떤 특정한 항목에 1:04:20 대해서 자 특정한 항목에 대해서 그룹을 정했다고 했을 때 정했다고 1:04:25 했을 때 전체도 하나의 특정한 그룹이 될 수 있습니다 자 어떤 거를 그룹이라는 걸 1:04:30 정의했을 때 여기에 딸려올 수 있는 그룹 함수가 무이 있는지를 한번 생각을 해 보려고 해요 가장 간단하게 1:04:39 그 그룹별로 최소값이 얼마가 제일 작은게 얼마가 있어 런 거 알아볼 수 있거든요 그 그룹별로 가장 큰 값이 1:04:47 얼마가 있을까 요런 거 알아볼 수 있고요 그룹별로 전체적으로 그룹별로 1:04:52 건수가 몇 건씩 있어 요런 거 알아볼 수도 있고 요 그룹별로 평균이 얼마야 1:04:59 이런 거 알아볼 수 있거든요 요런 것들을 뭐라고 얘기를 하냐면 그룹 1:05:05 함수라고 얘기를 합니다이 그룹 함수는 아래만 쓰는게 1:05:11 아니라 모든 프로그램 언어에는 다 이런 그룹 함수들을 쓰는 거예요 저희가 엑셀 쓸 때도 똑같이 그룹 1:05:17 함수 있잖아요 그와 같은 개념 똑같은 겁니다 자 1:05:22 그러면 룹 바이라는 거를 이제 서머라이즈 거 같이 할 건데 그룹 1:05:28 바이라는 거를 정의를 해서 어떤 항목으로 그룹을 잡아 줘라고 정의를 해 놓고 서머라이즈 써야지 아래는 1:05:38 무엇으로 요약을 할 건지를 인식을 해요 그래서 그룹 바이와 선라이즈를 1:05:43 같이 이제 그 지금 보시는 페이지에 나열이 돼 있는 겁니다 자 요거를 1:05:49 한번 실습을 좀 해 보도록 하겠습니다 1:05:59 [음악] 1:06:11 [음악] 1:06:17 자 제가 지금 11 라인에 명령문을 쳤습니다 한번 봐 주세요 자 irs 1:06:23 아는 데이터로부터 그룹 바이를 합니다 스페시스는 항목으로 그룹을 먼저 잡은 거예요 1:06:31 자이 스페시스 항목으로 그룹을 잡았고이 항목별로 세탈 랭스는 거에 평균치를 1:06:40 구해서 보여 달라 이렇게 용어를 쓴 겁니다 자 그룹 바이와 서머라이즈 1:06:47 항상 실과 바늘처럼 쫓아다닌다고 생각을 꼭 하시면 돼요 1:06:56 그래서 지금 실행된 결과가 밑에 쪽에 스페시스 스페시스 있는 세토사 평균이 1:07:05 5.01이고 버지 칼라는 5.94 비그 니카는 6.59 이렇게 1:07:11 지금 결론 치가 나온 겁니다 지금 저희가 그룹바이 그룹 바위의 서머라이즈 요거 하나만 한 것도 사실 1:07:19 데이터의 특성을 이해하기 위한 하나의 행위를 취한 겁니다 막 고차원적으로 막 뭐 어려운 1:07:26 이론을 쓸 필요가 없이 이와 같은 행위 자체도 하나의 특성을 파악하는 1:07:32 작업입니다 자 그러면 그룹 아이하고 선라이즈는 이제 넘어갈게요 그다음에 1:07:37 렌지라이프가 1:07:56 여기에 퍼센트 거세 퍼센트를 붙여 1:08:06 주고요 앞에 서머라이즈 할 때 변수를 지금 하나 만든 다음에 거기다 담았거든요 그때 변수명이 1:08:14 민이에요 자 민로제 하려고 1:08:24 해요 자 요렇게 치면 민 . VA L 정렬을 해 1:08:30 주는데 센딩을 해 달라는 얘기입니다 그러니까 오름차순으로 정렬을 해 달라 1:08:36 할 때는 어렌지 해 놓고 가로 열고 그냥 명칭만 주면 정렬을 센딩을 1:08:42 한끼다 근데 정렬을 할 때는 우리가 거꾸로 큰 거부터 내려오고 할 때도 있거든요 그 디센딩 하고 싶을 때가 1:08:49 있어요 그때 저 어렌지 안에 1:08:56 이 민 val 앞에 자 한번 화면을 좀 봐 1:09:04 주세요 자 요렇게 DC 해 가지고 한번 민 vaal 한번 감싸 주고 1:09:12 나서 실행을 시켜 주면 이게 데이터가 어센딩이 아니라 디센딩 이렇게 바뀌게 1:09:18 됩니다 1:09:26 이제 기업에서 취급하는 데이터가 굉장히 많은데 예를 들어서 취급하는 상품이 많다라고 1:09:33 할게요 취급하는 상품이 한 천 가지가 되는데 그 천 가지의 상품에 대해서 1:09:39 매일같이 매출이 일어나고 있어요 매출이 일어나고 있는데 갑자기 1:09:45 팀장님이 궁금하신게 1위부터 상위 20위까지의 매출 상품만 좀 갖고 와 1:09:51 봐 매출 건수가 어떻게 되는지 갖고 와 봐 했을 때 디센딩 해야 되잖아요 센딩을 했으면 이제 정렬이 돼서 큰 1:10:00 매출 수부터 자까지 거꾸로 나온단 말이에요 근데 202 것까지만 가져오라 그랬어요 그러면 여기에다 1:10:07 뒤에 퍼센트 세 퍼센트 해놓고 헤드 한 다음에 20 이러면 20만 나오는 1:10:14 거죠 지금 저희가 했던 명령들을 앞에서 하다 보면 걸 계속 지금 붙이면 이어도 올 수가 있는 1:10:21 겁니다 헤드 하고 가로열고 20하 나오는 거예 그런 식으로 이어갈 수가 1:10:31 있습니다 자 그러면 어지는 좀 했고요 다음 페이지 한번 1:10:40 [음악] 보겠습니다 자 비트인이라는 함수를 좀 1:10:47 배우겠습니다 우리가 데이터를 다루다 보면은 전체 데이터 중에 정한 부분만 1:10:55 때가 아까 필터라는 항모가 가지고 또 봤어요 근데 필터라는 거를 쓸 때 1:11:00 아까 세토사 아 스페시스 세토 사인 것만 뽑아 줘 이런 걸 해 봤거든요 근데 1:11:08 그게 아니라 매출 건수가 그니까 상품이 1천 가지가 있는데 천 가지 중에 1:11:15 방금 전에 22까지 뽑는 거를 헤드 해 가지고 20 하면 된다고 그랬죠 요런 기능을 헤드 안 1:11:23 쓰고 어디서부터 어디 사이에 있는 것만 뽑아 줘라고 정의를 달리할 수 1:11:28 있는 방법이 있습니다 그게 트윈이라 함수에 우리 영어에 비트인 A and 1:11:33 B 이렇게 쓰잖아요 그 개념입니다 비트인 1 and 10 그러면 1과 1:11:41 1도 포함되고 10도 포함되 있는이 사이에 모두 숫자를 말하잖아요에서 쓰는 인이라고 저희가 1:11:48 지금 배우려고 하는 것도 똑같은 개념입니다 자 한번 실습을 통해서 보고 한번 말씀을 드릴게요 m 1:12:08 [음악] 1:12:33 예 한번 보겠습니다 지금 14 라인에 제가 반전 쳐 놨는데요 자 irs 아는 데이터로부터 1:12:40 자 필터 걸러낼 거예요 걸러낼 건데 비트인 해놓고 가로 열고 자 1:12:48 세팔 랭스는 값이 5.5도 포함하고 최소는 5.5 1:12:55 최대는 6.5 사이에 있는 것들만 다 보여 줘라고 한 거예요 거기 너무 1:13:01 많으니까 헤드 해가지고 열 거만 보여줘 이렇게서 끄는 거죠 자 요렇게 1:13:06 특정한 값에 대해서 프롬투 범위 안에 있는 걸 뽑을 때이 1:13:13 dpy이라는에서 쓰는에서 쓰는 이비 함수를 쓰는 1:13:18 겁니다 자이 비트인 함수는 앞에 것들은 셀렉트 필터 그룹바이 1:13:25 서머라이즈 테티 어렌지 이런 것들은 하나의 통차 데이터 셋이 즉 1:13:32 하나의 엑셀 시트가 있을 때 썼던 거예요 근데 요거 지금 잘 들으세요 1:13:37 B2 2는 특정한 항목만 하나지 명칭을 가르쳤어요 요렇게 비트인 같은 요런 1:13:44 특정한 하나의 명칭 항목에 대해서만 바라보는 이런 함수를 벡터 함수라고 1:13:50 합니다 수학에서 우리 행열 이렇게 표현하잖아요 1:13:55 수학에서는 행 데이터를 행 벡터 열로 돼 있는 걸 열 벡터 이렇게 얘기를 1:14:01 합니다 근데에서는 행벡터 열벡터 구분 안 하고 그냥 모든 거를 벡터라고 1:14:07 얘기를 합니다 그래서 인이라는 거은 세스이 하나만 항목으로 보기 때문에 1:14:14 그냥이 벡터 함수 이렇게 얘기를 하는 겁니다 비라는 1:14:22 걸요 자 그다음에 중간에 있는로 언더바 넘버라 걸 좀 1:14:28 보겠습니다 자요 기능은로 언더바 넘버라이 함수는 벡터 함수인데 벡터 1:14:35 함수인데 굉장히 유용합니다 아까 데이터베이스에서 쓰는 1:14:42 SQL 안시 SQL 아고 말씀을 드렸는데 저 안시 SQL 지금 저희가 1:14:49 하려고 하는로 언더바 넘버라 값을 만들어 내기가 굉장히 어려워요 근데 1:14:55 아래는 그냥 저 함수 한 줄만 쓰면 나옵니다 이게 1:15:00 뭐냐면 그냥 명칭 숫자값을 부여하려고 그래요 데이터를 정렬한 상태에서 1:15:06 숫자값을 부여하던 아니면 현재 이렇게 섞여져 있는 상태에서 숫자값을 구현하던 순번을 부여하는 겁니다 순번 1:15:14 아니면 특정한 항목에 대해서 그룹을 정한 다음에 그 그룹 안에서 큰 1:15:20 숫자부터 1 2 3 4 순번을 부여할 때 이럴 때 쓰는게 로 언더바 넘버라 1:15:27 함수입니다 요거를 한번 실습을 해 1:15:40 보겠습니다 자 숫자값을 부여하려고 하는데 그러면 아까 저희가 할 때 1:15:45 새로운 변수값을 부여하는 함수가 뮤라 그랬어요 그러면로 언더바 넘버라 걸 1:15:52 가지고 새로운 값을 부여를 할 건데 기존에 있는 거에다 붙이는 거잖아요 1:15:58 그래서 뮤트라는 거를 앞에 먼저 쓰는 1:16:13 겁니다 자 지금 17 라인을 보시면 1:16:18 irs 뮤티 새롭게 항목을 추가할 거예요 1:16:23 근데 요 언더바 넘버라나 함수를 요걸 주게 되는 동시에요 지금 밑에 제가 지금 이렇게 1:16:31 단전 치고 있는 RN이라는요 항목으로 해서 1 2 3 4 5 이렇게 순번이 지금 만들어지는 1:16:38 거예요로 언더바 넘버라요 함수를 주면 주면 주기만 하면 숫자 값들이 1:16:45 만들어지는 겁니다 현재 있는 데이터 순서대로 1:16:50 숫자 값들이 부여가 되는 거예요 자 그거를 1:16:56 rnm이라는 새로운 변수 이름으로 해서 기존에 있는 irs 데이터셋에 1:17:03 항목을 더 추가하는 방식이 지금 17라인 1:17:09 명령입니다 자 요게로 언더만 넘버라 함수의 의미고 1:17:16 그 바로 밑에 이제 N 하고 괄로고 괄로 다꾸가 있습니다 요거는 카운터를 1:17:22 아에서 쓸 때 사용하는 함수입니다 카운터 하고 가로 열고 1:17:28 가로 닫고 이렇게 아에서는 안 쓰고 n 가로 열고 가로 닫고 해야지 카운터의 의미 역할을 1:17:36 합니다 한번 실습을 좀 해 보겠습니다 1:18:05 자 지금 제가 반접 치는 데를 한번 좀 봐 보세요 1:18:12 요번에는 스페시스 아는 항목으로 그룹을 정하고 그 스페시스 있는 1:18:18 세토사 버지 칼라 비그 니카의 대해서 몇 건 있는지를 세 보려고 하는 거예요 여태까지 방금 전에 했을 때 1:18:25 뭔가 라할 때 새로운 변명으로 지금 명칭을 했었거든요 번에 제가 명칭 부한 1:18:32 봤어요 그냥 함수만 쓴 거예요 함수만 그랬더니 이쪽에 명칭이 렇게 1:18:39 나오잖아요 렇게 나오니까 저희가 보기에 딱 이게 뭔지는 알지만 조작하기가 좀 명칭이 이쁘지 1:18:46 않지 않습니까 그래서 명칭을 부여하는 겁니다 1:18:55 스페시스 별로 카운터를 세줘 이렇게 한 거고요 카운터를 살 때 하는 1:19:00 함수가 N 하고 괄로고 가로 겁니다 자 여기까지가 dpy 일차적으로 1:19:06 하나의 데이터셋에서 조작하는 함수를 좀 배우신 본 거예요 사실이 기능 말고 더 있습니다 있는데 그 1:19:14 개별적으로 기능들에 대해서 이제 시간적으로 좀 걸리기 때문에 하나의 데이터 셋에서 하는 건 1:19:21 여기까지만 해보도록 하겠습니다 자 그다음에 조금만 더 했다가 시도록 1:19:26 할게요 잠깐 질문좀네네 일단은 저기 그 제거에서 1:19:33 네네 스페시스 하고 밑에 fct고 ant이는데 아 네네 이거는 어떤 1:19:40 요게 팩터 아까 명목 적도 뭐 서유 척도 이런 했었잖아요 팩터란 얘기고요 1:19:47 요게 아티 인티저 정수 예 그런 용어에 그리고 여기 빌 1:19:55 이렇게 있죠 여기 빌이라는 말은 사실은 원래 없는 말이에요 원래 1:20:03 그니까 아에서는 설치하면 원래 없는 용어인데 아까 저희가 엑셀 같은 거를 1:20:09 데이터 프레임이라 그랬잖아요 원래 R 설치하면 모든 거는 엑셀시트 같은 1:20:14 데이터 프레임으로 조작이 돼야 돼요 1:20:20 근데을 사람들이 데이터프레임을 더 쉽고 빠르게 갈 수 있는 껍데기를 또 1:20:26 하나 쉬운게 있어요 그 명칭이 빌이에요 그러니까 또 이빌 뒤에 누군가가 또 1:20:32 예보다 더 데이터를 좀 쉽게 조작하고 데이터가 깔끔하게 잘 보이게 하고 1:20:38 요런 또 함수를 누구가 또 만들어 낼 수가 또 있어요 그때는 또 빌이 아니라 그 사람이 뭐 새로운 명칭으로 1:20:44 또 만들어 냈겠죠 그때는 여기에 빌이 아니라 다른 또 명칭이 나올 수도 있습니다 1:20:51 현재까지는이 DPR 만드신 분이 여기 명칭이 1:20:57 데이터 프레임 이렇게 찍혀야 되는데 그거로 찍지 말고 빌라고 찍어 줘야 1:21:02 해가지고 이게 찍힌 거예요네 그렇게 보시면 됩니다 그리고 1:21:08 페이트가네 그 변수를 하나 생성 추가를 만든다고네네네 이게 실제로 1:21:13 데이터세트에 새로운 데이터가 입력된 건 아니죠 아니죠 입력된게 하나 조작하면서 설 만들어낸 1:21:20 거죠 그렇죠 데이터를 제가 이제 이쪽 분석을 할 1:21:26 때 사실 많이 만들어 내야 됩니다 대표 값들 많이 붙여 보고 1:21:32 나눠 보기도 하고 찾아보기도 하고 그러면서 뉴티 함수를 많이 1:21:38 씁니다 그래서 지금 DPR yr 제가 더 많은 기능들이 있다라고 말씀을 1:21:44 드렸는데 지금 한 것만은 기본적으로 데이터를 조작할 때 꼭 아셔야 되는 것들 위주로만 지금 정리를 해 드린 1:21:51 거예요 더 많은 함수들이 있습니다 근데 그것들은 아마도 이제 조금 1:21:58 시간들이 그거를 제대로 한번 다 한번 저희가 하려면 한 오늘만 8시간은 좀 1:22:03 해가지고 하면 DP 끝내지 않을까 생각이 드는데 그러기가 뭐해서 꼭 1:22:09 아셔야 될 것만 먼저 정리한 거가 지금 여러분들이 보시는 교재에 있는 내용들입니다 1:22:15 그렇게 이해를 해 주세요 1:22:31 자 1:22:39 요번에는 자 파워포인트로 잠깐만 좀 다시 제가 좀 1:22:48 가겠습니다 자 지금 여러분들이 보실게 이제 데이터가 이제 화면이 1:23:16 잠시만요 자 데이터 연결이라는 데이터 조인이란 부분에 지금 화면을 이제 1:23:22 보셔야 되는데요 자 방금 전까지 dpy 걸 할 때는 1:23:30 하나의 데이터만 가지고 했습니다 자 근데 데이터를 취급을 할 때는 하나의 1:23:36 데이터 항목만 갖고 보는 경우가 없어요 아까 영리를 추구하는 법인은 1:23:43 고객 상품 조직이 가장 위에 있다 그랬잖아요 그러면 고객이 상품을 구을 1:23:48 하면 계약이라는 행위가 이어진다 그랬잖아요 자 그러면 계약이라는 1:23:53 행위가 [음악] 1:24:22 이루어졌으면 자 개 라는 행위가 이루어졌는데이 1:24:28 계약에는 계약 상세 정보도 있다라고 말씀을 드렸어요 자 계약 상세 정보에 상품 1:24:35 코드라는게 있다라고 좀 할게요 세탁이라는 1:24:41 상품을 구입한 고객을 뽑아줘 한다고 하면 얘 하나가지고 1:24:48 해결이 안 되잖아요 얘하고 얘를 지금 바라봐야 되잖아요 고객하고 1:24:56 계약 상세 정보에 세탁기라 작품을 산 고객을 연결을 해야지 뽑아 준단 1:25:03 말이에요 이럴 때 쓰는게 데이터의 주인입니다 데이터를 핸들링할 때는 1:25:11 기본적으로 두 개의 데이터 집단을 가지고 핸들링을 하게 돼 있어요 세 개의 집단을 핸들링할 때도 두 개가 1:25:18 먼저 묶인 다음에 처리되고 그다음에 머지하고 연결이 되는 거예요 세를 1:25:24 동시에 이렇게 연결하는 건 없습니다 무조건 데이터는 하나의 집단을 보든지 아니면 두 개를 1:25:31 연결해서 보든지 이렇게 시작이 돼요 그러면 데이터들을 두 개씩 연결을 할 때 어떤 식으로 연결할 거냐요 관점에 1:25:38 따라서 데이터를 조인하는 그걸 조인이란 용어를 쓰는데 조인하는 방법이 나눠져 있습니다요 개념을 꼭 1:25:47 아셔야 돼요 자 그거를 설명을 드리 보겠습니다 우선 파워포인트 상에 1:25:54 자 교재를 보셔도 되는데 일단 화면을 먼저 봐 주시는게 좀 깔끔할 것 같아서 설명 먼저 1:26:03 드릴게요 자 여기 위에 보면 상품 정보라는게 있고 판매 정보라는게 있어요 제가 간단하게 한번 예를든 1:26:10 겁니다 자 회사에서 취급하는 상품이 세가네 가지가 있습니다 A B C D 1:26:16 자 그 코드에 따르는 명칭들이 있어요 자 근데이네 개의 상품에 대해서 1:26:21 판매된 거는 a 판매가 됐어요 자 임원이 1:26:28 팀장님이 대리님한테 자 야 판매된 상품 정보 좀 갖고 1:26:35 와봐 상품 판매된 상품 내역 좀 갖고 와봐 딱 했어요 그 1:26:41 대리님이 상품 정보는네 개를 우리 회사가 취급을 하고 있는데 지금 판매된 거 세개 상품밖에 없어요 그 1:26:48 대리님이 보고서를 a a 사이다는 콜라 는 맥주 그리고 a 20개는 1:26:57 30개는 40개 해가지고 요렇게 장표를 가져가면 즉 양쪽에 다 있는 1:27:05 정보만 갖고 가는 걸 노조인 요런 걸 인어 조인다 하고요 1:27:11 자 반면에 팀장님은 대리님이 이렇게 갖고 왔어요 그 팀장님이 대리님한테 하는 1:27:18 말이 야 우리가 취급하는 상품이 ABC 말고 없어 뒤도 있을거 아야 뒤는 안 1:27:25 팔렸으면 그냥 없는 상태로 보여줘야 되는 거 아니야 렇게 얘기할 수 있거든요 요거 아웃터 조인다고 1:27:32 해요 기준을 아셔야 됩니다 데이터를 핸들이 조작을 할 1:27:38 때는 대부분이 인어 조인을 가지고 해요 사실은 근데 없는 쪽도 보고자 할 때 1:27:46 그때 쓰는게 아웃터 조인이란 용어를 씁니다 자 아웃트 조이라는 걸 할 때는 또 두 가지로 나눠져요 1:27:54 왼쪽에 있는 항목은 다 보여주고 오른쪽에 있는 항목은 연결된 거 같이 1:27:59 있는 것만 보여 주면은 레프트 아웃트 조 오른쪽에 항목을 기준으로 잡고 1:28:05 얘는 오른쪽에 있 거 다 보여줘야 돼요 왼쪽에는 오른쪽에 있는 거 연결이 되는 것만 찾아서 보여주는 걸 1:28:11 라이트 아웃조인 이렇게 얘기를 해요 그래서 아웃트 조이라는 개념은 원래 1:28:18 한쪽을 기준으로 잡고 나머지 쪽을 본다는 개념인데 그게 를 잡을 거냐 오른쪽 1:28:25 기줄 잡을 거냐에 따라서 레프트 아웃트 조인 라이트 아웃트 조인 이렇게 얘기를 하는 겁니다 자 1:28:32 여기서 뒤에 뒤로 넘어가 때 헷갈리지 않을 것 같은 헷갈릴 것 같아서 미리 설명하고 갈게요 자 지금 인어 조인 1:28:40 했는데 상품 정보하나 판매 정보를 조인을 인어 조인 동일한 것끼리 갖고 와죠라고 했어요 지금 여기 표현돼 1:28:47 있는 항목 지금 세 개죠 세 개인데이 항목은 상품 정보에도 있고 판매 정보에도 있는 항목들이 1:28:54 자 밑에 아웃트 조인도 똑같습니다 상품 정보에 있는 항목 1:28:59 판매 정보에 항목 같이 나왔어요 자 다음 페이지 1:29:07 가겠습니다 자 다음 페이지 세미 조인입니다 세미 인이라는 거는 인노 조인하고 1:29:17 똑같습니다 똑같은데 보여주는게 어떤지 한번 봐주세요 상코 명만 있어요 즉 앞쪽에 1:29:27 있는 앞쪽에 상품 정보를 먼저 시작을 했으면 여기 있는 항목만 보여 줘라는 1:29:32 거예요 두 개랑 같은 거를 있는 걸 찾아주는데 앞에 있는 정보까지 보여 1:29:38 줘 뒤에 있는 정보는 필요 없어이 얘기입니다 이게 세미 주인이에요 1:29:44 자 이거하고 또 반대로 다음 페이지 넘어가시면 안티조인이라는게 있습니다 1:29:54 자 안티 조이는 D 하나만 나왔어요지 쪽하고 같이 봐주세요 자 여기 상품 정보고 판매 1:30:03 정보 있습니다 안티조인이라는 걸 연결했더니 값이 떨어진 건 뒤만 1:30:08 나왔어요 두 개를 연결을 하는데 서로간에 같이 안 갖고 있는 1:30:14 거 그거만 데이터를 뽑을 때 쓰는게 안티 주인이에요 그리고 뽑아주는 1:30:21 항목이 쪽에 있는 거만 뽑아 그렇습니다 기준 하나 한쪽만 뽑아준 1:30:27 거예요 이거를 명확하게 아셔야 돼 인는 지금 아래에서 지금 아에서는 1:30:35 인어 조인 세미조인 안티조인 아웃트 조인 이렇게 나눠져 있지만 데이터베이스에서 쓰는 안쉬 1:30:42 SQL 그래는 이런 식으로 용어를 안 써요 근데 개념은 아셔야 되는 거예요 1:30:50 그래야지 다른 전산팀에 계시는 분들이나 누구한테 데이터를 뽑아 달라고 요청을 할 때도 야 이거는 1:30:58 아웃트 쪽인 개념으로 뽑아 줘라고 말씀하시는 거하고 야 이쪽 안 나오는 1:31:03 것도 다 나오게 하고 이렇게 용어 하시는 거하고 의미가 다릅니다요 개념은 꼭 중요하다니까 1:31:08 알고 계셔야 1:31:15 됩니다 예 여기까지만 하고 잠시 쉬다가 하도록 할 건데요 저희가 1:31:24 지금 속도로 가서는 실습하는데 굉장히 부족할 것 같아요 그래서 잠시 쉬다가 1:31:31 이어갈 때는 조금 제가 속도를 좀 내겠습니다 예 좀 한 15분 하시도록 1:31:37 하겠습니다 예	607	2019.10.01
	생활인구 데이터의 분석과 활용사례 안녕하세요. 서울시 빅데이터캠퍼스 입니다. 2019 서울시 빅데이터캠퍼스 공모전의 사전설명회와 더불어 오픈강의(특강)을 지난 2019년 5월 25일 홍익대학교 도시공학전공 이 제승 교수님께서 '생활인구 데이터의 분석과 활용 사례' 를 주제로 '생활인구 데이터'의 분석과 활용사례 및 지난 공모전 당선작이 이후 서울시와 협력 분석되어, 실제 시민들에게 활용되고 있는 사례에 관하여 특강을 진행하여 주셨습니다. [생활인구 데이터의 분석과 활용사례 강의 교안 다운로드] 감사합니다. (스크립트) 0:06 아 안녕하세요 저는 홍익대학교 도시학교 전공에 있는 이재 생이라고 0:12 합니다 어 많은 분들 와 주셔서 선 감사드리고요 어 그 서울시에서 제가 0:20 여러 지자체를는 아니지만 몇몇 지자체를 좀 다녀 보면은 서울시에서 하고 있는 0:28 이런 정책들에 대해서 굉장히 어 연구를 많이 하려고 하세요 어 0:33 보면 우리나라에서 빅데이터 관련해서 이만큼 시설을 갖추고 데이터를 0:38 모아놓고 그리고 정책에 반영하려고 쓰시고 어 그리고 이렇게 공모전도 0:44 개최하고 어 하시는 지자체는 사실 서울시가 굉장히 앞서 나가고 있어서 0:50 어 여러모로 일단 감사드린다는 말씀을 먼저 드리고요 어 제가 오늘 0:58 말씀드리는 거는 어 빅데이터 캠퍼스가 한 3년 3년에서 4년 정도 된 걸로 1:04 기억을 하는데 어 빅데이터 캠퍼스에서 강의를 한 3년 정도 진행을 했어요 1:11 그러니까 홍익대학교 도시학과 수업을 어 왜 그러냐 면은 어 저희가 사실 1:19 저는 전공은 도시공 전이긴 한데음 관심 있는 분야가 어 이런 1:25 데이터를 활용해서 어떻게 연구에 이용을 하고 더 좋은 도시를 만들 고 어 정책에 반영하고 문제점을 개선하고 1:33 이런 측면에 대해서 굉장히 관심을 많이 가졌고 그런데 힘든 점은 뭐냐면은 어 한 3 4년 전이면 1:41 지금하고 또 굉장히 달라요 그래서 데이터 큰 데이터 같은 거를 구하기가 1:46 굉장히 어려운 상황이었고 사실 지금도 여러 가지 뭐 개인 정보나 이런 문제들 때문에 어떤 데이터를 구하는게 1:53 쉬운 문제는 아닌데 그럼에도 불구하고 어 여러 사람들이 관심이 많아지고 1:58 자료 공개에 대해서 는 경우가 많아져서 많이 지긴 하지만 2:04 어 그럼에도 불구하고 지금 서울식 데이터 캠퍼스에서 보유하고 계시는 2:09 자료를 부에서 어 취해서 이용을 하기는 쉽지 않습니다네 2:15 그래서음 사실 데이터 분석이라는 거 사실 저는 빅데이터라는게 그냥 일반 2:22 데이터 뭐 굳이 분을 할 수는 있는데 뭐 데이터 크기라던가 2:27 속도라 런 측면에서 논하고 싶지는 않아요 2:33 왜냐하면은음 중요한 거는 데이터의 크기나 뭐 이런게 아니고 데이터에서 어떤 인사이트를 얻어내고 어떻게 2:40 적용하느냐 그게 훨씬 중요하다고 생각을 하기 때문에 어 요즘 얘기하는 빅데이터 시대라는게 새로운 건 2:47 아니라고 생각을 합니다네 그럼에도 불구하고 학교에서 학교 내부에서 어떤 수업을 하게 된 2:53 데이터 분석 수업을 하게 되면은 토일 데이터를 다루게 되죠 가공이 돼 있는 데이터 이런 것 3:00 왜냐하면 짧은 시간 안에 뭔가 해야 되기 때문에 어 그러다 보면은 실제로 3:05 실무을 한다거나 내가 뭔가 새로운 데이터를 찾아서 가공을 해서 3:11 어 어떤 인사이트를 추출해 된다 이게 쉬운 일이 아닌 3:16 거죠 그래서음 제가 빅데이터 캠퍼스에서 수업을 진행한 이유는 사실은 그런게 3:22 굉장히 커요 여기 오면은 그래도 상당히 큰 데이터들이 어 있고 어느 3:28 정도 가되지 않은 상태에 어 다시 얘기하면은 여러분들이 데이터 캠퍼스 3:35 자료를 이용을 하시려면 상당히 많은 노력이 필요하다는 얘기가 되기도 하는데 어 그런 어떤 경험 경험이라 3:43 그가 노력이 어떤 데이터 분석가로서 나중에 뭐 일을 하신다거나 연구자로서 3:49 일을 하실 때 굉장히 중요한 경험이 될 거라고 생각을 합니다 시장이 좀 장황 3:55 있는데요네 그래서 오늘 말씀드린 내용은음 일단 데이터 기반 의사 결정에 대해서 4:01 말씀을 드릴 거예요 어 제가 생각하기에 뭐 요즘에 스마 도시계획 분야에서는 스마트시티 물론 4:08 도시 분야 아니고 다른 분야도 많이 관련이 돼 있지만 어 스마트시티 얘기도 많이 나오고 빅데이터 얘기도 4:15 많이 나오는데 가장 근본적인 이유는 데이터 얘기 하는 거는 어 의사 4:21 결정을 할 때 정책 결정을 할 때 이랬을 때 어 기존에 하던 방식하고 4:26 다른 방식으로 할 수 있지 않을까 데이터 분석을 통해서 더 객관적으로 4:32 이전에 보지 못하는 방식으로 더욱 합리적으로 데이터 분석을 할 수 있는 4:38 어 어떤 기법을 개발을 해보자 이런 것들의 목표가 있기 때문에 이런 4:43 데이터 기반 의사 결정에 대해서 좀 이론적인 부분을 말씀을 드릴 거고요 그리고 서울 생활인구 아시는 4:51 분들도 있으실 거고 모르시는 분도 계실 텐데 어 생활인구 데이터를 어 설시하고 트하 같이 개발 4:59 해서 지금 여인 데이터 광장에 서비스를 하고 있습니다 공개 데이터로 어이 데이터를 활용을 해서 어 정책에 5:08 반영한 사례도 있고 작지만 어 다른 쪽으로 활용한 사례들이 있어서 이런 5:14 것들에 대한 사례를 말씀드리겠습니다네 그리고 여러분들 사실 지금음 공구전에 관심이 있어서 5:20 오신 건데 저희 학생들도 어 작년인 거 같습니다 5:27 작년에 공모전에 참여를 했었고 그 공무 전에 참여한 내용이 실제로 어 5:34 정책적으로 반영된 작은 사례지만 반영된 사례도 있어요 그리고 어 그때 5:41 나왔던 어 것 중에 하나가 화재분석이었는데 그 화재 분석을 조금 5:48 더 소울 시하고 같이 더 진행을 해서 공개는 되지 않은 연구이기 하지만 5:55 내부적으로 어떤 결과를 낸 사례도 있고 해서음 6:00 좋은 기회가 될 수도 있을 거라고 생각을 하고요네 그래서 공개할 수 있는 부분은 어떤 식으로 해서 그런 6:06 공모전 결과가 실제로 정책이 반영되었는지 그런 얘기도 조금 하도록 6:16 하겠습니다 자 그래서 처음 시작할 얘기는 어 인벤션이 있고 이노베이션이 있죠 6:25 인벤터는 어 뭐라 뭐라고 해석하면 되죠 죠 6:31 어 기술을 의미합니다 가지고 있는 기술 이노베이션은 혁신이 6:40 혁신 좋은 기술이 있으면 혁신이 되나요 좋은 기술이 6:46 있으면 좋은 기술이 있다고 다 혁신이 되지는 6:52 않죠 예전에 어 처음에 초기에 자동차가 개발될 때 자동 6:59 기술도 있었고 내형 기간 자동차 기술도 있었죠 그렇지만 생각을 7:05 해보면은 전기자동차가 더 우수한 기술이었 수도 있었을 것 같아요 그렇지만 혁신을 이룬 거는 7:12 내용 기간 자동차였다 꼭 혁신이 이루어지는 거는 7:18 아니잖아요 그러면은 혁신 기술에서부터 혁신이 어떻게 이루어지는가를 생각을 7:23 해보면 어 기술이 받아들여줄 수 있는 떤 사회적 시스템 시스템 7:30 문화적 합의 라이프스타일 변화 이런 것들이 다 어어 져야지 궁극적으로는 7:37 혁신이 일어나는 거죠 예를 들면 아이폰 같은게 그랬죠네 사실 그런 전화기를 아이폰을 7:46 만드는 기술 자체는 그 이전부터 있었을 수도 있었을 것 같아요네 컴퓨터 디스플레이 화면도 있고 뭐 7:54 무선통신 기술도 있고 소프트웨어 기술도 다 있었는데 어 그것이 사회 7:59 임팩트를 칠 수 있는 혁신을 일으킬 수 있는 무엇인가 아이폰이라는 결과물로 나오기 위해서는 기술에 대한 8:06 이해도 있어야 되지만 사회 시스템에 대한 이해 뭐가 필요했을까 그리고 어떻게 보면 8:13 문제의식 같은게 굉장히 중요하다고 생각을 하는 8:18 거예요 얼마 전에 인상 굉장히 상게 본 그 졸업사 그 당시 대표 혹시 8:27 아세요 서울대 졸업식 방 대표가 한 축사 화제가 된 거 8:32 같은데 어 본인은 구체적인 꿈이 없다고 그러신 8:38 거 같아요 구체적인 꿈이 있는 사람이 아닌데 불만이 굉장히 많은 사람이라고 8:45 하시더라고요 불만이 굉장히 많아서 더 잘할 수 있는데 대충 넘어가고 이런 거를 굉장히 싫어하고 그래서 어떻게 8:52 보면 주이고 근데 그 말씀을 나대로 다시 해석을 해보면 문제 식인 거 8:58 같아요 문제의식 어 저는 도시 계획을 기본적으로 도시 계획 도시 설계를 9:04 하는 입장으로서 그러니까 도시에 대한 문제 의식에서부터 출발을 합니다 9:11 그래서 데이터 분석을 한다고 그러면 데이터에서 터 시작을 해야 되는게 맞는 거 같긴 하지만 9:17 어 사실은 문제 의식에서부터 시작을 하는게 나중에 무엇이 나오는가에 9:23 굉장히 큰 영향을 미친다고 생각을 해요 그래서 조금 더 말씀을 드려보면 9:31 어 기회가 있을 때마다 말씀드리는 건데 어 데이터 분석은 엑스레이 찍는 9:36 거랑 굉장히 비슷하다고 생각을 합니다 엑스레이가 중요한 거는 다 9:42 아시죠 의사 선생님들이 굉장히 유용하게 쓰시는 9:48 도구이죠 어 그냥 눈으로 봐서 엑스레이가 없었을 때 의사 9:54 선생님들께서 얻을 수 있는 정보 이상의 정보를 레가 제공을 해 주죠네 10:00 그런데 저 엑스레이를 보면은 우리가 뭘 할 수 있나요 저거를 읽으실 수 있어요 저기서 정보를 얻어내고 진단을 10:08 하 사용할 수 있고 없으시죠 저도 못합니다 왜냐 10:14 의사로서 훈련을 받지 않았기 때문에 마찬가지입니다 옆에 데이터가 10:23 있죠 어 중요한 건 알겠는데 뭐 많이 쓴다 그러는데 10:28 저기에서 정보를 얻어내는게 그렇게 쉽지 않아요 유용한 정보를 얻어내는게 10:34 저 유용한 정보를 얻어내려면 도메인 리지가 있어야 돼요 의사 엑스레이를 이용하기 위해서는 10:41 의사로서의 지식이 필요합니다 전통적으로 어 어떤 지식 그런 것들 10:48 마찬가지로 혹시 뭐 어떤 필드에서 오셨는지 잘 모르겠는데 어 각자 뭐 10:55 경제 쪽에서 오셨으면 경제에 대한 도메인 난지가 있어야 되고 도시 계획 쪽에서 오셨으면 도시 계획에 대한 11:01 도메인 리지가 있어야지 데이터를 분석을 해서 해석을 해서 이용을 하실 수가 있는 11:06 거죠 그래서 어 데이터 얘기를 하면서 항상 강조해야 될 부분은 저는 오히려 11:13 전통적인 지식이라고 생각을 해요네 데이터 분석이라는 기술은 일종의 도구로서 사용되는 것이고 어 11:22 저거를 어떻게 이용하느냐 이것은 어떻게 보면은 상당히 전통적인 지식 11:30 지혜 경험 이런 것에 많이 의존을 한다라고 말씀을 드리면서 어 이런 거 11:37 많이 보셨을 거예요 어 데이터가 어 어떤 11:43 인사이트로 가는 라드 그서 데이터라고 그러면은 보통은로 데이터를 의미합니다 11:49 가공되지 않은 데이터 아까 전장에서 본 숫자로이지 텍스트로 이러지 우 뭐 11:55 영상 데이터도 있지만 그런 가공되지 않은로 데이터를데 라고 불리고 굉장히 12:01 많죠 인포메이션이 하는 거는 저 데이터에서 어 12:07 가공된 정보를 말하는 거죠 의미를 가지고 있는 정보 그래서 저 데이터에서 인포메이션 12:15 추출하는 과정을 어 뭐 데이터 마이닝이 할 수 있을 거고 데이터 어널리시스 할 수 있고 뭐 여러 가지 12:24 용어로 불립니다 하지만 근본적으로 얘기하는 거는 어 그냥 이뭐 원 12:29 데이터에서 필요 정보를 추출하고 필요 정보를 가공하고 시각화하고 이런 과정을 말하는 12:36 거고요 거기에서 인사이 통찰력을 얻는 단계로 넘어가기 위해서는 아까 12:42 말씀드린 거 같이 데이터를 분석하는 기술만 가지고는 부족하다 될 12:47 거죠 사회에 대한 이해 뭐 시장에 대한 이해 주제에 따라서음 그런 어떤 12:54 세상에 대한 이해가 굉장히 필요합니다 그런 이해를 통해서 이해를 12:59 바탕으로 어 어떤 디시전 메이킹을 한다던가 정책을 결정한다 그가 어떤 액션을 13:05 취한다 그가 이런 단계를 거치게 되는 거죠 그래서 보통 데이터 사이언스 13:13 얘기하면은 이런 다이어그램도 꽤 많이 보셨을 거예요 데이터 13:18 [음악] 사이언스라이프네 뭐 파이썬을 쓰던 R 13:24 쓰던 다른 소프트웨어를 사용하던 이런 것들이 필요하고 어 13:29 그리고 중요한게 이제 통계기법 또는 요새는 뭐 머신 러닝이 딥러닝이 AI 이런 기술들이 상당히 13:37 많은 부분을 차지를 합니다 그리고 중요한게 드 of 리케이션 그 도메인 13:44 리지를 어 굉장히 중요하게 생각하죠 도이 말씀드리지만 저게 굉장히 13:50 중요합니다 그래서 그 교 집합으로서 같혀 나오는 것이 데이터 사이언스라이프 13:59 자 그래서 데이터 기반의 생정 과정을 도식화 시켜 보면은 어 그니까 기록 14:04 진단 예측 행동음 과학에 단순화 시킨 걸 수도 있지만 저런 단계를 거쳐서 14:10 어 어떤 의사 결정을 할 수 있다고 어 볼 수가 있습니다 그래서 기록에는 14:15 일단 데이터베이스를 관리를 한다거나 데이터를 수집을 한다거나 뭐 이런 것들이 많이 개입이 되는 부분이고 어 14:24 데이터를 모은 거죠로 데이터를 모으고 관리하고 어 그런 모아진 데이터를 가지고 14:31 진단을 하게 됩니다 레 직 듯이 그래서 데이터 분석을 하고 시화를 하고 통계 분석을 하고 그러면 저런로 14:38 데이터들이 어 좀 유용한 정보가 될 것이고 그리고 최근에 많이 이용하는 14:44 거는 머신러닝을 사용하는 거죠 그래서 예전에 있었던 데이터 현재 시점에서 14:49 모아진 데이터는 예전의 데이터들이 그 데이 데이터를 분석을 한다는 거는 14:55 예전에 어떤 패턴을 볼 수가 있는 거죠 머신러닝이나 딥러닝이 주로 많이 15:02 사용하는음 용도 중에 하나는 미래 예측 부분이 있습니다 그게 뭐 어느 정도 15:07 정확하냐 여러 가지 논란이 있겠지만 그 예측 부분이 있을 거고 왜 예측 부분이 있냐 면은 미리 예방을 하기 15:14 위해서 어 또는 미리 대응책을 세우기 위해서 준비를 하기 위해서 어 사용할 15:21 수가 있겠죠 예를 들면은 불할 확률이 높은 지역에 뭐 미리 순을 하고 15:27 점검을 하고 하면서 예방을 할 수도 있는 것들이고요네 이런 부분이 있고 아 15:33 이런 어떤 프로시저 할까 이런 것들이 주로 반복이 되고 의사 결정이 효율화 15:40 되게 되면은 조금 더 어 조금이라도 혁신이 일어나고 어 새로운 어 용도가 15:46 생기고 이렇게 되겠죠 그래서 맨 밑에 보면은 어 사례입니다 사례 15:52 어 내용은 공개가 되기 곤란한 부분이 있어서 자세한 내용 말씀드릴 수 15:57 없지만 어 그 과제는 그니까 처음에 소방 지청 데이터를 가지고 어 간단한 16:05 시각화 뭐 통계 이런 것들을 분석을 했고 화재 발생률을 예측하는 고신 16:11 모형을 만들고 그걸 가지고 어 후박 배치 최적화를 위한 어떤 데이터를 16:18 정보를 드린다 아니면 출동 경로 최적화를 할 수 있는 것들 또는 술 16:24 찰 경로라는 예방 활동에 도움을 드릴 수 있는 정보를 제공 을 어 했던 16:31 것들이고요 아까 말씀드렸던 것처럼음 중요한 거는 그러면은 기록 16:36 진단 예측 행동인데 그럼 데이터부터 시작할 것인가 왼쪽에는 데이터부터 시 16:42 할 것인가 아니면은 맨 오른쪽에 뭘 할 것인가부터 시작할 16:47 것인가네 뭐 여러분들 뭐 공부전 하시면서 여러 가지 아이디어들도 가지고 계신 분들도 있을 거고 아니면 16:54 그냥 어 데이터에 관한 관심이 있을 수도 있겠지만 어 어 이쪽을 많이 17:00 생각을 해 보실 거를 좀 말씀을 드리고 싶고요 물론 왔다 갔다 합니다 17:05 한쪽에서 다른 한쪽으로 일방향으로 진행이 되지는 않지만 데이터에 대한 이유도 충분히 돼야 17:11 되지만 어떻게 쓸 것인가 어 저게 명확한 어 프로젝트의 17:18 경우에는 사실은 나머지 부분은 해결할 수 있는 부분들이 많이 있어요 그리고 어떻게 해야 되는지 17:25 방향이 잡히기 때문에 저런 부분에 신경을 많이 써주 면 좋을 것 같다는 생각이 17:31 듭니다 어 일단 서울인구 데이터 아 서울 17:36 생활인구 데이터에 대한 소개를 간단하게 드리면요 일단 뭐 여러 가지 도지 17:44 문제가 있으니까 서울시 같은 경우에는 행정 수요가 있겠죠 당연히 17:49 그런데 서울시가 천만이 넘어간 이후에 계속 주민등록 인구는 감소하고 있는 17:56 추세예요네 그래서 천만 밑으로 떨어졌는데 그러면은 행정 수요가 점점 18:02 감소했으나 그렇지는 않거든요 주민등록 인구는 감소를 했지만 오히려 서울에서 18:08 생활하고 활동하는 인구는 더 늘었다고 합니다 그러면 활동하고 있는 사람 18:14 서울에 빈등록을 가지고 있는 사람만 서울의 행정 서비스 대상은 아니니까 서울에서 18:20 활동하는 사람들이 다 행정 서비스의 대상이 있겠죠 교통에 관해서도 그렇고 18:26 어뭐 여러 가지 어 그렇기 때문에 서울행정 18:31 서울의 행정 수요를 정확하게 파악하기 위해서는 상주 인구보다는 서비스 18:37 인구가 중요하겠다는 개념 하에 어 kt 요즘에는 대부분 사람들이 18:44 스마트폰을 들고 다니시니 어 그리고 LTE 기반의 핸드폰을 많이 들고 18:50 다니시니 어 위치 추적이 어느 정도 됩니다네 그래서 그런 데이터를 가지고 18:58 정 시점에 시간 단위고 특정 지역에 제일 어 조밀한 단위로는 집계구 19:05 단위로 어 활동하시는 그런 인구 데이터를 제공을 해 19:12 줍니다 연령대로 어 나눠져 있고요 그리고 그 19:17 성별로도 제공이 되고 있고 내국인 외국인도 부분에서 제공을 해 주시고 19:26 그리고음 그 거주지 서울 밖에 거주하시는 분들은 거주지 정보도 19:32 있어요 그래서 만약에 분당에서 출근하시는 분이다 19:38 그러면은 특정 시간에 어디 계시는 분들 중에 몇 명이 분당에서 거주하시는 분인데 출근을 했다 이런 19:44 정보도 얻을 수가 있습니다 19:50 어네 예전에 뭐 유동인구는 거는 어 데이터 측정하는 방법이 19:57 가지가 있죠서 개수기 들고 카운팅하는 방법이 있고 아니면은 뭐 cctv 20:03 같은 거에서 카운팅하는 방법이 있고 이런 부분이 있는데 어 서울에서도 20:08 예전에 어 유동인구 조사를 했었어요 나가서 뭐 천 지점에 나가 가지고 20:15 조사하고 그랬었는데 어 비용이 많이 들죠 비용이 많이 들고 천 지점 20:21 서울에서 천 지점이라는게 뭐 많은 지점일 수도 있지만 그렇게 또 많은 지점 또 아닐 수도 있고 계속해서 20:27 하기도 힘들고 어 그렇지만 세로 인구 데이터는 물론 한계도 있기는 하지만 20:32 상당히 어 긴 시간에 거쳐서 어 데이터 20:37 제공할 수 있는 좋은 방법이라고 생각을 합니다 그래서 보정이나 이런 부분은 20:43 여러 가지 뭐 판의 소지도 있을 수 있는데요 어 일단 시장 정율 KT 20:51 시장 정율 또는 모든 분 LT 사용을 하지 않으니까 그 추정의 추정에 가정 20:58 가정이 더 붙여서 추정된 인구 있긴 한데 뭐 이런 비율들 그다음에 휴대폰을 뭐 꺼 주시는 분들 계시니까 21:06 그런 비율 그다음에 뭐 10대라 10대만 어린 아이라가 너무 고령이신 21:12 분들은 또 핸드폰을 많이 사용 안 했으니까 이런 부분을 보정을 해서 마음 타입니다 그래서 집게 그라는게 한 저 21:19 정도의 사이즈를 얘기를 하는음 어 공간 다니고요 한 21:26 19,000 개 정도 의 직계를 가지고 있습니다 서울에서 21:33 아네 그래서 등록이 생활인 거는 다 같진 않다 뭐이 정도로 해서대 소개를 21:39 마치고요 자 그럼 서울 생활인구 분석 사례를 말씀드릴 21:44 건데요음 생활인구 데이터 구조를 어 간단하게 보여 드리면 요렇게 돼 21:52 있습니다 데이터 분석하신 경험이 많으실 수도 있고 처음 보시는 분들도 21:57 계실 거예요 어 데이터를 보면은 일단 코드북을 22:04 보셔야 되는데 데이터 설명서에 이게 열 아 행으로 된 22:09 것들은 건찰 값이 되는 거고 그다음에 칼럼들이 있죠 변수들이 쭉 있는데 이런 변수들이 어떤 의미를 가지는가에 22:17 대한 어 이해를 우선 하셔야 되고 그니까 날 아 그는 연월일 시간대 행정동 22:27 구분 부분도 물론 있습니다 그리고 총 어 생활인구 그다 특정 동에 특정 22:34 시간에 특정일에 존재하는 생활 인구 데이터가 제공이 되는 거고 이게 남자 22:41 10대 남자 10세에서 15세 이런 식으로 제공이 됩니다 물론 쭉 가면은 22:48 여자도 연령대별로 제공이 되고요 자 이런 데이터를 가지고 22:54 분석을 하는 건데 어 폭염 그니까 1년 전 1년 전인지 23:01 2년 전인지 기억이 확실하지 않는데 공모전에서 그 열질환 또는 열성 23:08 관련된 분석을 해서 상활 받은 학생이 있었어요네 공모전 통해서 하신 23:16 거죠음 근데 작년에 굉장히 더웠죠 굉장히 더고 지간 환자 수도 23:23 굉장히 많이 늘었습니다네 그래서 그 공모전에 나온 주제하 그때 상황이 어떻게 보면 잘 23:30 맞은 거였죠 처음에 했던 거는 그 동전에 나왔었던 어 분석을 조금 더 23:37 고도화한다 할까 조금 더 해서 실제로 동별로 열하 환자 수라든가 이런 23:44 것들을 이용을 해서 분석을 좀 더 심도 있게 한 것들도 있었고 오늘 말씀드린이 부분은 23:52 근 설치인데 작년에 제일 히트한 정중에 23:58 나가서 그늘막 설치하는 거라고 하더라고요 그래서 처음에 서초구에서 했다 정확하진 않습니다 한 군대에서 24:06 했는데 굉장히 반응이 좋아서 다른 부에서도 많이 적응을 했고 어 24:12 중남부에 그 당시에 그늘막이 이미 설치가 돼 있었고 추가로 설치를 24:17 하려고 하는데 어디에 설치하면 좋을까를 데이터 분석을 통해서 한번 24:23 해 보자라는 의견이 있었어서 진행을 했던 내용입니다 24:32 자 폭경 그늘막네 다 아시죠 폭경 그늘막은 자 그러면은 그늘막 설치하기 24:40 좋은 지점이 뭘까요 그늘막이 설치되기 적합한 지역이라는게 24:49 뭘까요 정향이 나름이죠네 정학이 나름인데 어 몇 가지 조건들이 있다고 24:56 생각을 했습니다 좀 정한 거죠 일단 폭염에 취약한 계층이 있어요 25:01 어린아이라 그가 아니면 노인이라 그가 이런 거 이런 계층이 폭염에 취약하기 25:08 때문에 그런 폭염에 취약한 계층이 많은 지역이면 그늘막이 더 필요할 수 25:16 있겠죠 또 하나는 온도가 높은 지역이면 더 필요할 수 있겠죠 집편 25:21 뭐 열성 현상이라고 다 들어보셨겠지만 집편 온도도 그렇게 일정하지 않습니다 25:27 도시에서 그러면은 그런 지표면 온도를 봤을 때 25:32 온 지표면 온도가 높은 지역이 내막이 더 필요하다고 볼 수가 25:38 있겠죠 그리고 용도도 사 어 도로망도 25:43 중요합니다 왜냐하면은 너무 작은 도로나 좁은 도로 같은 경우에는 25:49 설치할 공간이 많지 않아요 그래서 설치할 만한 지역을 수출을 하려면 25:55 어떤 도로 위계나 이런 것들도 봐야 되는 부분이 있습니다 뭐 기타 더 보려면 건물에 의해서 어 26:02 음영이 어떻게 해지는지 뭐 이런 것들 볼 수 있겠지만 간 분석을 할 때 사용한 요소는 저정도입니다 26:08 그래서 몇 가지 조건들이 나와 있죠 26:13 어 60 기변에 가장 민감한 어 집단 26:18 아 온도 먼저 아 온도는 온도 26:23 데이터는 일반적으로 어디서 오나요 기상에서 죠 기상청에서 어 26:31 보통 구별로 하나씩 있습니다 기상청 자료가 기사 그 그 수집하는 데가 어 26:38 그럼 중랑구의 온도로 수집을 하려고 하는데 지역별 변화는 알 수가 26:43 없죠네 그래서 사용한 방법은 그 위성 26:48 영상에서 그 레이어들이 여러가지 이미지의 레이어들이 여러 가지가 있으니까 그 레이어들을 분석을 해서 26:54 GP 온도를 추출할 수 있는 기법이 있습니다 리모트 센싱 기법 법중에 영상에서 추출 영상에서 그 셀별로 27:03 온도를 추출하는 방식이기 때문에 지역을 편차를 알 수가 있는 거죠네 그런 방식으로 27:10 어 그 온도를 추출을 해서 어 33도 27:15 이상이면 기상청에서 폭염 특보 또는 아 폭염 특보를 발령을 한다고 합니다 27:21 33도 이상인 지역을 추출을 했고요 그 인구적 봤을 때 어 60세 이상 27:28 그리고 세미한 어린이들 추출을 해서 어 취약계층으로 선정을 했고요 27:36 지역별로는 어 유동인구 많이 발생하는 도로 위게임 자 시간대는 하루 종에 27:42 가장 더운 시간대 12시에서부터 2시 사이에 유동인구가 많은 지역을 선택을 27:48 했습니다 그리고 아 생활인구 데이터를 통해서 저런 인구를 추출 했는데요 아까 27:54 말씀드린 대로 지역별 시간별 데이터가 있으니까 어 시기는 6월 7월 8월 데이터를 추출 28:04 했고요 어네 그래서 아까 말씀드린 거를 28:09 도시화한 건데 요런 데이다 33도 이상 지역 취약인구 밀도가 상위 10%인지 28:17 깨고 그리고 아까 말씀드린 대로 어 이미 그만 설치한 지역이 있었기 28:23 때문에 그 데이터를 가지고 설치되지 않은 지역을 데이터를 추출해서 오버레이 방식을 28:30 통해서 어 적합 지역을 추출했습니다 자 이게 어 중남부의 28:38 현황도 였는데요 위성 사진이고 지금 체크 표시돼 있는 부분이 그 당시에 28:44 그늘막이 설치돼 있었던 지역을 28:51 나타냅니다 자 그리고 위성 사진 자 요런 사진을 28:56 어 그 그 주로 위상은 다 미국에서 가지고 있으니까 그런 데이터를 다 29:04 다운로드 받을 수 있게 공개를 합니다 시간 세로 근데 이제 구름 이런 것들 29:10 구름이 끼어 있으면은 아무래도 지표도 추출하는데 굉장히 큰 영향을 미치기 때문에 29:15 최대한 없는 거를 이용을 해서 추출을 했고요 그래도 물론 5차원 있습니다 29:21 항상 데이터는 완벽한게 없기 때문에 네자 그래서 추출을 해서지 를 어 29:29 표현을 한 겁니다 지금 진한색으로 돼 있는게 30도 이상이죠 그다음에 어 나머지 부분들이 29:36 30정도 미만으로 나타나 있죠 이렇게 29:41 나타났고요 자요 부분은 29:47 어 평균 생활인구 밀도를 나타냅니다 지나면 지날수록 어린이와 노인의 29:53 생활인구 그니까 낮 12시부터 2시 사이에 어 시작 인구의 밀도가 높은 29:59 지역을 나타낸 거고요 자 그래서 상 10% 지역만 추출을 한게 여기 30:04 녹색으로 나타나는 지역입니다 그리고 도로망 데이터를 모래 시켰고요 자 몇 30:09 군데 보이시나요 설치를 하고 싶다라는 지역들이 30:15 보이시나요 뭐 이런 부분 이런 부분 뭐 요런 부분 이런 30:21 부분네네 요런 부분이 좀 필요하지 않을까라는 생각이 30:26 들었습니다 자 그래서 후보지를 선정을 했고요 다섯 30:33 군데 현장 조사를 했습니다 데이터만 가지고 해결되는게 30:38 아니기 때문에 현장에 그런 지점에 상황이 30:43 어떤지 과연 설치를 할 만한 공간이 있는 건지 그리고 실제 나왔을 때 30:51 어 그 주변 상황들이 있는데 어떤 걸 고를 해야 30:56 되면은 들한테 동의를 받아야 됩니다네 싫어하실 수 있거든요 그리고 31:04 교통 경찰들이 보기에 사고를 유발을 할 만한 가능성이 없어야 31:09 돼요 그런 그런 요소들 어 그리고 실제로네 나가서 보는 건 좀 다르기 31:16 때문에 하여간 체크를 해봐야 되는 부분들이 있었어서네 저런 식으로 다섯근 다 31:22 돌아다니면서 체크를 했고요 어 중구에서는음 31:28 음 어 공무원 분들하고 경찰청에서 리뷰를 31:34 하시고 이런 운전자 시야나 그늘이나 뭐 동의 부분 이런 부분들은 다 31:39 고려를 해서 탑런 주차문제 최종적으로 두 31:45 군데를 선정을 하셨습니다 그리고 여기에 설치가 된 31:52 거죠 어떻게 보면 굉장히 작은 사례라고 생각을 해요 네은 하긴 31:58 하지만 프로세스는 생각을 해 보실 만할 거라고 생각을 합니다 생각을 전개해 32:05 나오는 프로세스 목표가 무엇일까 목표를 통해서 어떤 지표를 추출을 할 것이고 그 전에는 32:13 기술적인 문제이지만 그 지표를 추출하기 위해서 어떤 데이터를 이용하고 어떻게 가공할 것인가 이런 부분들이 연결이 돼야지 데이터 분석이 32:21 가능합니다 자 그다음에 보여 드릴 거는음 성남 생활인구 기출 분석인데 32:28 현재 공개돼 있는 데이터로는 성남의 생활인구 데이터는 제공이 되지 32:33 않습니다 근데 어 지자체에서 이런 생활인구 서울처럼 32:39 생활 인구를 어 서비스를 받으려는 노력을 좀 하고 있고요 그 노력 중의 32:46 일환으로서 어 이거는 샘플 데이터를 kt's를 통해서 제공을 해 주셔서 32:52 어 분석을 진행을 했던 사례이고 어 이거를 통해서 연구를 32:58 진행을 했는데 목표는 뭐냐면은 어 산업 33:05 분석이었다 산업 33:17 집적지이자 수행을 했던 과제입니다 어 성남은 아 20개가 아니고 33:25 50개 거 같은데네 하여간 보다 굉장히 적죠 한 100만이 조금 안 33:31 되는 인구를 가지고 있는 도시고 어 제공받은 생활인구 33:37 데이터는음 서울시는 지구 단위로 제공이 되지만 성남시 데이터는 그 33:42 정도로 가이 되지 않았기 때문에 행정동 단위로 제공을 33:49 받았습니다 자 일주일 데이터를 받았는데 시적으로 33:55 보게 되면은 4월 4월에 4월고 6월에 한 주의 데이터를 봤는데 자 34:02 이렇게 월 화시 금토일 보면은 플럭츄에이션 볼 수가 34:08 있습니다이 얘기는 뭐냐면은 100만이 조금 안 되는 34:13 주민등록 인구를 가지고 있는 도시인데 낮 시간 동안에는 인구가 유입이 되는 34:18 거죠 그리고 저녁에는 유출이 되고 그런데 여기를 보면은 34:29 분당 신도시가 예전에는 배드 타운이라고 되게 비판을 많이 받았는데 어 신도시 중에 베드타운으로 밖에 34:37 기능을 못 하는 도시들이 있죠 근데 이게 나타내는 거는 성남은 배드 타운은 아니에요 34:43 확실히 베드타운이 주간에는 유출이 되겠죠 내가 여기서 살다가 밤에 자고 34:50 출근 시간 되면은 뭐 서울로 가서 직장으로 가고 그런게 이제 배드 타운이라고 볼 수 있는데 여기는 34:56 주간에 유입이 됩니다 물론 성남에서 사시다가 사시면서 서울로 출근하는 35:02 인구가 꽤 많죠 많기는 하지만 그것보다 유입되는 인구가 더 많은 거예요 어떻게 보면 35:09 훨씬 어 이거를 보시면 무슨 생각이 35:18 드시나요 어떤 생각이 드세요이 패턴은 이해가 35:26 되죠 얼라 수목금네 5일 동안 루틴하게 가는 35:34 거 어 저희가 해석하 35:40 기로는 주말에 별로 할게 없구나 성남에서네 그렇지 않나요 주말에 별로 35:49 할게 없는 거죠 어 실제로 고민을 많이 하십니다 근데 35:56 성남만의 문제는 아니고 어 여러 지자체에서 어떤 문화가 36:02 즐길거리가 거라든가 이런게 많으면은 주말에 유입이 되죠 딱 관광지는 36:10 아니더라도 그런 생활의 부분 그니까 이게 조금 더 디테일하게 보면은 다른 36:16 문제가 나올 수는 있지만 어 뭔가 읽을 수 있는 그 도시를 레이처럼 36:21 진단을 할 수 있는 여러가지를 줍니다 대별로 보면은 상당히 젊습니다 36:31 우리나라가 노래화 되고 있긴 하지만 지자체별로 보면 성남시를 보면 상당히 36:37 3 40대 비중이 높은 도시고네 30대 주간 입하고 50대 36:43 주어 상 더 들어지는 이런 것도 좀 자세히 생각해 봐야 될 거리는 있지만 일단 36:48 넘어가겠습니다 자이 부분은음 아까 보여 드린 거를 행정동 36:56 별로 본 겁니다 행정 37:01 성남이라도 성남의 구가 세 개가 있는데요 분당구 중원구 수정구 굉장히 37:08 다르고요 그 구 안에서 있는 행정도 굉장히 다릅니다 37:14 특성이 다르다는 거를 누구나 알고 있긴 한데 그게 어떻게 다른지를 어 이거를 보니까 정도 37:23 보이더라고요 보이세요 전 적으로 분구하고 밑에 37:29 있는 중원 수정고 하고는 인구 차이가 좀 있고요 자요 37:36 부분이 삼평동 있데 여기가 판교 37:41 테크노밸리에 주간의 인구 유입이 어마어마하죠 여러 가지 측면에서 봤을 37:47 때 어 그니까 지식산업 지식 기반 산업 지식 37:53 기반 제조업 지식기반 서비스업 왜 거의 핵심으로 부상을 하고 있습니다 37:59 황경 테리가 강남과 더불어 구로 38:05 금천도서관 dig 서연동 이쪽은 뭐 내부적으로 38:12 분당 벤츠라고 얘기는 하는데 기본적으로 산단으로 조성되는 지역은 아니지만 어 꽤 많은 기업들이 들어가 38:19 있고 어 여러 가지 어 즐길거리도 많은 거죠 먹을 때도 38:26 많고네 이런 지역이라서 유입이 많은 지역이고 수동도 마찬가지고 자동도 38:33 마찬가지입니다 자 여기이 부분 자 요런 데랑 굉장히 다르죠 요런데 38:39 이런데 태평 일동이 그가 뭐 이런데 신흥동 이런데 유임 유출 자체가 38:45 그렇게 많지 않고 주간에는 유출되는 이런 지역들이 38:50 있습니다 꽤 정책이 돼 있다고 볼 수가 있고요 어 구미동이나 이런데 38:57 또 야탑 아 탑은 아니고 백현동 이런 데는 전형적인 주거 지역의 패턴을 39:03 나타냅니다 주간에 유출되는 지역 그리고 성남 하이테크 밸리 여기는 39:08 예전에 성남 일반 3단이라 해서 공장 지대가 있는 39:13 지역입니다이 지역이 뭐 굉장히 중요 산업적으로 보면 굉장히 중요하죠네이 39:19 부분 이런 지역을 어떤 식으로 어 개선을 할 것인가 보도할 것인가 39:25 이런 것들이 큰 주제였는데 음 판교 테크노 밸리에서도이 부분은 39:31 있습니다 그런 얘기 많이 하는데 단 판교 테크노밸리 같은 경우에 일할 때는 굉장히 많은데 좀 먹거리 물걸리 39:39 이런 거는 별로 없다는 얘기를 해요 그러면은 어 주말에는 굳이 거기 갈 39:44 필요가 없는 거죠 그리고 일하는데만 있으면은 뭔가 문화가 생긴다던가 39:52 퇴근하고 뭐 영화를 한번 본다던가 아니면 맛있는 걸 먹는다던가 이런 식의 어떤 생활문화가 들어가기는 40:00 굉장히 어려운 상황이 되고요 그럼에도 불구하고 유입이 되기는 하는데 분 그니까 분당 동하고 굉장히 다르죠 40:08 여기는 어 적어지는 정도가 아니고 아예 유출이 돼요 주민 등록인 보다 40:15 여러가지 생활의 기반시설이 낫다는 얘기고 어 저에게는 무슨 40:23 얘기냐면음 젊은 사람들이 각기 꺼는죠 교 문제도 있고 여러 환경의 문제도 40:29 있고 여기 대부분 젊으신 분들이 많이 계시는데 어 좋은 환경에서 일하고 싶어 40:36 하시잖아요 대부분 교통도 편리하고 그리고 주변에 어 뭐 즐길거리도 있고 40:42 깨끗하고 이런 데서 일하고 싶어 하십니다 대부분 근데 그런 것들에서 40:47 상당히 약점을 나타낼 수 있다 물론 저 데이터만 가지고 하는 40:52 얘기는 아닙니다 여러 가지네 기본적인 어 네 이해는 가지고 있는 거고요 자 41:00 그리고 인구 피라미드를 어 동별로 만든 41:06 거예요 오후 2시 주심 평등에서 만든 건데 여기서도 41:12 굉장히 편차가 심하다는 거를 보실 수가 있을 거예요 노령화 돼 있는 지역들도 있고요 이런 41:19 식으로 한교 테크노밸리 같은 경우에는 남자 30대 40대 인구가 41:26 압도적입니다 네 이런 식의 패턴을 나타내는 데가 41:31 그렇게 많지가 않아요 다른 데로 해 보면은 구로금천 정도가 저 정도를 나타내는데 그니까 그 41:39 어 어떤 일자리를 창출 한다거나 아니면은 요즘에 뭐 청년 치하 산단을 41:45 얘기를 한다던가 이런 부분에 대해서 얘기를 하는데 어 이런 인구 피라미드를 보면은 한글 사례에 대해서 41:52 한번 생각해 볼 분이 굉장히 많다는 거를 아실 수가 있습니다 이게 뭐 뭐 단순하게 설명을 할 수는 없지만 뭐 41:59 때문에 판교에 저렇게 젊은 사람들이 선호하는 일자리가 많은가 도시 계획적으로 얘기를 할 수는 없고 42:04 산업적인 부분도 다 같이 들어가 있고 로케이션의 문제 교통의 문제 어떤 42:10 지원의 문제 개발했을 때 상황 여러 가지가 복합적으로 어 영향을 미쳐서 저런 42:16 결과가 나타난 거긴 한데 그런 사례를 깊게 들여다볼 만한 필요는 있다고 42:21 생각을 합니다 그런 면에 있어서 성남하이테크밸리 같은 경우에는 어 그렇게 잘못한테 특히 매력적인 자리는 42:30 아니구나라는 걸 볼 수가 있고요 자 그래서 세 지역을 어 42:38 말씀드린 거고요 조금 더 디테일하게 42:45 말씀드리면 아 분당 매처 그니까 정자동 수내동 뭐 이런 데를 42:50 말씀드리는 건데 어 여기는 소위 말하면 도시에서 얘기하는 복합 42:55 용도입니다 믹스드 유데 있는 데 산업도 있고 사람 사는데도 있고 그다음에 상업 시설도 있고 술 마실 43:03 때도 있고 밥 먹을 때도 있고 일정하게 나타나는 거죠 공동화가 나타나지 않는 43:12 거예요 판교 같은 경우에는 유입은 다른 적을 다한 것만큼 많이 나오는데 43:18 그럼에도 불구하고 어 주말에 그니까 믹스가 안 돼 있는 저런 문제점이 43:23 나타나는 거고 어 그 성남 하이테크 배 일반 산담 43:29 같은 경우에는 주말에는 오히려 유출되는 런게 있고요네 많이 43:35 말씀드렸으니까 넘어가도록 하겠습니다 자 그리고 아까 생활 43:41 데이터 말씀을 드릴 때 어 거주지 데이터가 있다고 43:47 말씀드렸었죠 그래서 그 거주지 데이터를 시각을 시각화를 한 거예요 43:53 어 그래서 평동 테크노밸리에 오후 2시에 거주하는 사람 아 오후 2시에 평동에서 생활하는 44:02 사람들의 거주지를 시각화 건데 어 광주시에서 굉장히 많이 오고요 아 44:10 우선 성남 시내에서 온 분이 31점 99% 성남시 외에서 온 분이 68% 44:18 그래요네 이거는 유입이 굉장히 많다는 거죠 청남 외부에서 유입이 그니까 44:23 이게 베드타운의 위상은 넘어간지가 오래된 거예 오히려 어떤 지역의 산업 44:29 중심지로서 자리매김한지 오래 됐고요 어 44:34 그중에서도 용인시에서 많이 오시고요 광주시에서 많이 오십니다 그리고 강남구 이런 쪽에서 44:42 강남구 서초구 이런 송파구 이런 쪽에서 성남으로 44:48 출근하시는 분들도 꽤 돼요 상당한 비유를 차지를 합니다 여기서 보게 44:53 되면 반면에 상대동에 있는 테크 일반 선담 같은 경우에 44:59 어 우선 성남 시의 비율이 더 높고요 45:05 시 광주시에서 많이 올라가세요 광주시에서 이거는 성남시를 좀 아시면 45:12 저 스토리를 알게 되는데 어 성남시 일반산단 주변이 성남의 구도 심인데 45:22 어 그 분당학원 좀 많이 다른 환경에 있습니다 그래서 오래된 지역이고 해서 어 45:30 그리고 뭐 도시 재생이라 재개발이 그렇게 많이 일어나지 않은 지역이이고 그런데 가격은 좀 상승하고 45:37 있고 이런 지역이 있어서 광주시에 새 개발이 엄청나게 45:43 많이 일어나고 있거든요 어 길라 같은 걸로 개발이 많이 45:48 일어납니다 그래서 여기 이쪽에 계시는분이 이쪽으로 많이 옮겨 가세요 그서 난 개발이라는 얘기도 45:55 많이 나오고 어 교통의 문제도 많이 제기가 됩니다 왜냐하면은 지하철 같은 46:02 것들도 그렇게 편리하지 않고 길이 좁고 이렇기 때문에서 이런 공포 문제 46:07 주거의 문제 이런 것들이 굉장히 많이 발생을 하고 어 46:14 오히려 상대원 일동이 그단 이런 구도심이라 46:20 분당구 성남의 신도심 이랑의 어떤 연결보다는 방주나 아니면은 용인지 46:28 이런 데와 용일 많은거죠 그니까 성남시 내부에서의 어떤 커넥션이 그렇게 좋지 않다라는 걸 볼 수가 46:37 있습니다 제 네트워크 분석을 한 건데요음 네트워크 분석을 아시는 46:43 분들은 어느 정도 이해가 되실 거고 어 크면 클수록 유입이 되는게 많은 46:49 거예요 크면 동그라미 크면 클수록 그 많이 연결되면 많이 연결될수록 여러 지역에서 오시는 거죠네 보면은 삼평동 46:58 소동 뭐 상대한 일동 이런 부분들이 어 인구의 유입이 굉장히 많은 활동의 47:05 중심지 생활의 중심지라는게 보여질 수가 있고 그리고 선이 두꺼우면 47:10 두꺼울수록 유입이 많은 거니까 어떤 지역하고 어떤 지역이 더 많이 연결되 47:16 있는지를 볼 수가 있는 거죠 그래서 도시 도시를 넘어서 지역적으로 어떤 47:22 활동의 컬렉션들이 활동의 구조들이 어떻게 만들어지는지 볼 수가 있습니다 자 이런 을 잘 보면은 그리고 도시 47:28 구조하고 교통 시스템하에 정책이라 이런 것들에 대한 47:36 근거 자료를 얻을 수가 있다고 생각을 47:42 합니다 어자 이거는 크러스터 분석을 사용을 한 건데요 패턴을 47:49 통해서 주가 패턴을 통해서 분류를 한 겁니다 성남시에 50개 행정동 을 분류를 한 47:58 [음악] 건데요음 뭐 분석기법은 여러 가지가 있긴 하지만 하여간 판교 테크노밸리는 48:04 굉장히 특징적인 걸로 해서 단일 클러스터로 나왔고 요런 부분들이 재밌습니다 이동 48:12 정체 지역 신평동 태산동 운중동 이런 데는 일단 들고 나가는 거 자체가 48:19 많지 않은 동네예요 고령화도 돼 있고 그래서 이런 부분 이런 지역에 대한 48:25 정치하고 이런 지역에 대한 정체는 굉장히 다르겠죠 수요도 다르고 그래서 48:31 이런 분석을 통해서 어떤 지역에 대한 이해를 더 더할 수 있고요 그래서 48:36 주거 이주 지역은 어 인구가 많긴 하지만 주로 아파트 단지가 많은 지역들이 낮에는 비 비는 공동화가 48:43 되는 이런 지역이고 어 주말하루 다 활성화 되는 지역들 대표적으로 서연 48:50 일동 이런 지역들 그다음에 주간에는 활성화되지만 주말에는 공동화 되는 몇 개또 지역들이 있습니다 48:58 자 저런 저런 분석 플러스 이거는 생활인 그로 이용하지는 않았지만 49:03 어 어떤 그 마이크로 통계청 마이크로 데이터 같은 것들이 제공이 돼요 그런 49:11 데이터를 사용을 하면 산업 체가 얼마가 지역별로 얼마가 있다던가 아니면 49:17 산업별로 종사 수가 얼마나 된다던가 이런 것들을 또 시계열적으로 분석을 할 수가 있습니다네 이런 거를 이용 49:24 그런 데이터를 이용을 해서 2016년에 지식기반서비스 산업 사수를 49:30 보면은네 굉장히 높죠가 증감을 보면은 증감이 성남이 49:38 최고입니다 늘어난 걸로만 따지면 판교 테크노밸리가 개발이 됐기 때문에 49:43 그래서 지역의 어떤 서비스 산업의 중심으로 어 성장을 하고 있다 이런 49:49 것들도 볼 수 있고요 그리고 그런 데이터를 이용을 해서 어떤 지역에 49:54 어떤 종 들이 어 있고 성장하고 있고 50:00 이런 것들을 분석을 하 내용인데요 한급 테크노밸리 같은 경우는 지식 기발 서스 뭐 게임이라던가 이런 것들 50:06 이런 것들이 어 양도 많고 성장도 굉장히 많이 했다는 50:12 거죠 분당 벤처 같은 경우에 성장률은 그렇게 높지는 않지만 어찌 됐던간에 50:17 지식기반 서비스업 또는 지식기반 제조업이 주를 잃고 있고 성남하이테크밸리 같은 경우에는 50:23 산업단지로 출발을 했기 때문에 또 제 제조업이라는 뭐 주력 기관 산업이라 50:29 식품업 이런 것들이 많이 분포를 하고 있고 그렇지만 성장률은 그렇게 높지가 50:35 않습니다 자 그래서 저런 데이터 분석하고 뭐 현장에 나와서 조사를 50:40 하고 그리고 인터뷰도 많이 했죠네 그런 이런 지역에서 어떤 사업체를 50:47 운영하고 계시는 분들 이런 분들에 대한 어 그 인터뷰 이런 것들을 통해서 50:55 몇가지 전략을 아 전략에 아니까 도시에 대한 어떤 51:01 성격 규정 이런 거를 했는데 일단 성남 화크 밸리는 제조 중심지 분담 개처 밸리 같은 경우는 실질적으로 51:08 성남의 도심으로의 역할을 하는 지역 그다음에 판교 테너 밸리 같은 경우에는 핵심 시상 직접지라는 성격 51:14 규정을 통해서 전체적인 성남산업 개발의 밑그림을 제한을 한 51:21 내용입니다 어 너무 많이 얘기 하는 거 51:27 같아서네 자 그래서 저런 그 저런 분석을 통해서 지역의 특성에 51:35 맞는 어떤 정책적인 방향을 제한을 드린 거고요 그래서 성남 하이테크 51:41 밸리 같은 경우는 제조업 중심이긴 하지만 점차적으로 지식 기반 산업이 늘어나고 있고 그런 경우에 어떻게 51:49 지원을 할 것인가 하지만 제조업이 굉장히 많은 지역이기 때문에 그걸 51:54 없앨 수는 없다고 저는 판단을 한 거고요 그러면 어떻게 제조 구조를 고도화시켜 산업을 유치를 하고 육성을 52:01 할 것인가에 대한 부분들 그리고 이미지 제고 그리고 문화기능 생활문화가 52:08 중심이 되겠죠 그 주말에 유출되는 그런 인구들 그런 유출을 맞고 52:14 전체적인 생활환경을 높임으로써 조금 더 젊은 사람들을 어 끌어들이고 52:20 산업을 위치하고 이런 방향에 대한 말씀을 드렸고요 그리고 전체적인 어 52:25 환경 분석 또는 교 시스템 구속을 통해서 교통 또는 보행환경 체제 52:30 개선을 말씀을 드렸고요 이거는 구체적인 어떤 전략 수립에 대한 아이들을 제공을 해 드린 건데 어 52:37 산단에 이제 메이커 메이커 스페이스를 제안해 드린 겁니다 그래서 조그만 52:42 제주 업체들이 굉장히 많이 있는데 이런 제주 업체들에서 어 필요한 어떤 52:50 그니까 시제품 같은 것도 만들어야 되고 또 서비스도 받아야 되고 이런 부분들이 있는데 어 그런 부분들을 좀 52:57 공적인 기능을 통해서 어 제을 만든다던가 기술 교육을 한다던가 53:02 아니면은 그 산업 단지에 있는 산업체들이 이용할 수 있는 어떤 작은 컨벤션 공간을 마련해 준다던가 이런 53:09 식의 프로그램을 제안을 한 내용입니다 자 판교 테크노밸리 같은 53:15 경우에는 어 나타난 문제 중에 하나가 일단 53:20 기업간의 교류 부분 떤 커뮤니티 부분 이런 것들을 조금 더 강할 필요가 53:26 있겠다 자 이런 부분이 있었고 자 그리고 문화가 없다는 말씀 문화가 53:31 없다는 말씀 꽤 많이 들었는데 문화가 없는 거는 아니라고 생각을 하고요 어 53:37 아마 우리나라 제일의 게임 산업 직접지 평 테크노밸리 그요 그게 어떤 문화의 어 핵심이 될 53:46 수 있겠다라는 생각을 해서 떤 이스포츠 스타디움 같은 걸 제한을 한 53:51 내용입니다네 저기서 게임 기업들이 이용할 수 있는 그런 53:57 행 일어나고 그리고 그런 행사를 통해서 젊은 사람들이 유입도 되고 54:02 그리고 단순히 스테디한 제공을 하는게 아니고 여러가지 상업 시설 또는 54:10 문화시설 또는 주변 산업들을 지원할 수 있는 공공적인 시설들 복합적으로 54:16 제공을 하자는 아이디어이고 역시나 교통이나 편성 계산 외한 부분들네 그리고 나머지는 조금 54:23 넘어가도록 하겠습니다 서 유지 유지는 아니고 지금 어린이 공원으로 사용되고 있는 54:30 지역에 이스포츠 스테디엄 제한을 해서 번에 아프리카 TV 뭐 넥슨이 이런 54:39 어 메이저 게임 업체들 또는 컨텐츠 업체들과 협력을 통해서 어 이스포츠 54:45 스타디움을 한번 만들어 보자라는 거를 지금 진행을 하고 있는 중입니다 역점 54:52 사업으로 진행이 되고 있는 중이고요 네자이 어떤 제한을 하기까지의 어 54:59 데이터 분석은 쭉 나가 있던 거죠네 자 55:05 오늘 말씀드릴 거는 여기까지입니다네	1947	2019.07.09

1
2
3
4
5

동행매력 특별시서울 로고

빅데이터캠퍼스(상암본원) : 02-2124-2951
관리부서 : 디지털도시국 데이터전략과
주소 : 마포구 매봉산로 31 에스플렉스센터 스마티움동 15층
COPYRIGHT ⓒ 2016. Seoul Metropolitan Government All Rights Reserved.