본문 바로가기 주메뉴 바로가기
온라인강의목록-강의명,조회수,등록일자로 구성된 표
강의명 조회수 등록일자

정형 · 비정형데이터 R 기초분석 1차 (2)

○ 교 육 명 : [서울시 빅데이터캠퍼스 정형 · 비정형데이터 R 기초분석 교육]   빅데이터캠퍼스에서 빅데이터에 관심있으신 기초 분석가들을 위하여 정형데이터(축제 분석 데이터 활용)와 비정형 데이터(민원 데이터 활용)를 분석 개요부터 데이터의 이해 및 분석실습과정을 연계 교육으로 8월 23일과 9월 6일 각 4시간에 걸쳐 아래와 같은 교육과정으로 실시하였습니다. 앞으로도 빅데이터캠퍼스의 데이터분석 교육의 많은 관심과 신청 바랍니다. 감사합니다.   ○ 교육과정 교육 과정 내용 1차 정형 데이터 기초분석 교육 데이터 분석 개요 데이터 조작 및 기초 탐색 이해 데이터 시각화 이해 축제 분석 실습 2차 비정형 데이터 기초분석 교육 Text 분석 개요 Text 분석 수행 방법 Text 데이터 조작 방법 이해 민원 데이터 분석 실습   [정형 ·비정형데이터 R 기초분석 교육 교안 다운로드] (스크립트) 0:02 자 시작을 좀 해보도록 하겠습니다 혹시 지금 vdi 혹시 바탕 0:08 화면에 바탕 화면 좀 잠깐 혹시 봐주시면 좋겠는데요 바탕 화면에 여기 0:15 지금 명칭이 있는 데이터셋 조회 리라는 텍스트 파일이 지금 각자들 0:21 있으십니까 자 그거를 뭐냐면 저희가 실습을 할 때 쓸 0:27 데이터가 지금 뭐 이렇게 저희가 연습하는 것처럼 한 150건 이런게 아니라 한 160만 건을 가지고 0:34 연습을 해 볼 거예요 그래서 그 데이터를 좀 읽고 오는 작업을 할 건데 지금 여기 계신 그 모든 0:42 선생님이 동시에 해 버리면 여기에 지금 부하가 줄 수도 있어서 좀 시간을 나눠서 지금 먼저 일부 먼저 0:50 데이터를 읽어 드리는 작업 좀 하려고 그래요 그래서 여기 앞에 두 줄만 두 줄에 계시는 0:56 선생님들만 그 지금요 바탕화면에 있는 데이터 조에 데이터셋 조의 리라는요 1:02 메모장을 열어 주시고 여시면 라이브러리 dbi 그다음에 1:10 라이브러리 R 요렇게 써 있는 것들이 있을 겁니다 여기까지요 strr 전까지만 1:17 요렇게 긁으라고 컨트롤 c 하신 다음에 요거를 R 스튜디오에 컨트롤 1:25 V 좀 해 주시면 됩니다 그러니까 1:32 요렇게 긁으러 하시고요 컨트롤 c 1:39 하시고 자 R 스튜디오 여셔서 자 여기 컨트롤 V 해서 이렇게 붙여 1:46 주시면 되고요 자 요거를 붙이신 다음에요 전체를 요렇게 반전시켜 1:54 가지고 이런 실행 명령을 눌러 주시면 돼요 2:00 자 그러면 제가 알아서 이제 데이터가 처리될 때까지 잠깐 좀 2:06 작업이 돌 겁니다 스튜디오에서 이게 뭐냐면 간단하게 말씀만 드리고 2:13 넘어갈게요 잠 아까 그 irs 데이터라는 거는을 설치하면 기본적으로 깔려 있는 데이터 셋이에요 2:20 근데 지금이 명령은 뭐냐면 지금 선생님들이 앉아는 2:27 자리에는 데이터베이스에 환경이 돼 있어요 그럼 여기서 쓰고 2:32 있는 데이터베이스는 우리가 이제 돈을 주고 사야 되는 데이터베이스가 오라클도 있고 mssql 있고 2:39 인포믹스 있고 dbt 있고 여러 가지가 있습니다 근데 여기 지금 빅데이터 캠퍼스에서 쓰고 있는 2:46 데이터베이스는라는 데이터베이스를 쓰고 있어요 얘는 이제 공짜입니다 그 2:52 마라는 데이터베이스를 아하고 접속을 먼저 시켜주는 작업을 해야 돼요 연결을 시켜주는 작업을 해야 되거든요 2:59 연결을 하기 위해서 저 dbi 아는 패키지 라이브러리 하고 그다음에 R 3:07 my SQ 라이브러리가 있어야 mysql 데이터베 접속을 할 수가 3:13 있어요 자 그다음에 여기 co 해놓고 DB 커넥터라는 3:18 거는 데이터베이스는 만들어져 있으면 아무나 접속하면 안 되잖아요 데이터베이스를 3:24 접속하려면 우리가 어느 홈페이지에 로인 하려면 유저 아이디 패스워드 치듯이 그 데이터베이스에 접속을 3:31 하려면 그 데이터베이스에 접속할 수 있는 정보를 넣어 줘야 되거든요 그거를 가지고 연결을 먼저 시키는 3:37 작업을 합니다 그게 DB 커넥터라는 명령이고 연결이 되고 나면요 지금 3:44 가로열고 이렇게 셀렉트 막 써 있잖아요 이게 데이터베이스에서 쓰는 3:50 csql이에요이 명령문을 통해서 데이터베이스에 있는 데이터를 읽고는 겁니다 3:57 지금 그래서 에계시는 에 계시는 선생님들만 먼저 요걸 컨트롤 c 하고 4:02 컨트롤 R 스튜에 붙여 주신 다음에 전체 반전하고 한번 실행만 좀 눌러 4:09 주십시오 자 뒤에 두 줄에 계시는 선생님들은 조금 이따가 요거를 한번 4:15 좀 해도록 할 겁니다 예 그래서 요거를 제가 이제 저희가 대표 4:20 값이라는 걸 설명하는 사이에 그 데이터가 먼저 읽혀지는 작업을 하기 위해서 렇게 좀 먼저 진행을 좀 해 4:27 주셨으면 좋겠습니다 [음악] 4:45 예 대표 값이라는 부분 이제이어서 좀 해 보겠습니다 저희가 첫 번째이 오늘 4:52 이제 수업 시작하기 직전에 데이터를 바라보는 시각 하면서 기술 통계 4:57 관점으로 요약하는 부분 그다음에 대측 모형 뭐 추론하는 방법 이런 것 좀 잠깐 말씀드렸는데 그러면 좌측에 5:04 있었던 데이터의 특성을 파악하는 접근 방식에서 그 기본적으로 알아야 될 5:09 용어들이 있어서이 장표를 만든 거예요 사실이 용어들은 통계적으로 5:15 많이 쓰는 용어들이 합니다 그 데이터 분석이라는 걸 하려면 사실 통계하고가 5:20 밀접한 관계가 있고요 뭐 머신러닝이나 딥러닝을 한다고 하더라도 통계에 대한 5:27 부분들이 많이 좀 누가 있습니다 그래서 이제요 용어 정도는 일단 5:32 일차적으로 아셔야 되기 때문에요 용어를 좀 설명 먼저 5:38 드리겠습니다 자 각각에 대한 용어 명칭이 있고요 그거에 대한 설명을 5:44 달아 놨고요이 개별적인 용어 명칭에 대해서 아에서 그러면 어떤 함수를 5:49 가지고 쓰는지 그거에 대해 옆에서 렇게 표현을 좀 해놨습니다 그래서 5:55 혼자 학습을 하시더라도요 우측에 있는 활용 예시를 쳐 보시면서 아 이게 좌측에 있는 6:03 대표 명칭에 대한 값을 찾을 때 이렇게 연결하면 되는구나 렇게 보시면 될 거 같아요 6:09 우선 평균 뭐 일반적으로 다 아는 거니깐요 근데 평균도 여러 가지가 있죠 산술 평균 조합 평균 뭐 기화 6:16 평균 여러 가지가 있는데 저희가 일단 바라보는 무조건 평균은 산술 평균만 6:21 보시면 됩니다 자 그다음에 분산과 표준편차 자 분산과 표준편차는 평균을 6:28 중심으로 얼마만큼 있냐의 정도를 나하는 도인데 용어 사실은 이게 6:33 중요한 용어 합니다 개별적으로 중요한게 아니라 다른 거하고 묶여서 쓸 때 중요하게 6:39 쓰거든요 그래서 우선 분산 분산은 제곱을 한 거고 표준 편차는 분산에 6:46 루트 씌운게 표준 차다요 정도만 하고 넘어갈게요 자 그다음에 중앙값 자 6:53 중앙값이 거를 왜 써야 되는지 평균하 자주 비교 대상이 됩니다 한번 볼게 7:06 자 데이터를 분석기를 하다 보면 데이터 값이 왜곡되는 현상들이 많이 7:14 나와요 자 간단한 예로 7:21 볼게요 자 데이터가 지금 1 2 3 4 5 6만 이렇게 들어가 있어요 7:26 자이 평균 계산하면 숫자값이 히 큰 값이 나올 거 아니에요 근데 큰 값이 7:33 평균이라는 대표 값으로만 바라보면 굉장히 큰 값이 나와 버리고 그 큰 7:39 값은 데이터들이 대부분 직금 값들을 대상 구성하고 있는데 그 평균이라는 7:44 관점만 봤을 때는 그 큰 값이 나오는 거는 얘네들을 대표할 수 있는 값이라고 표현하기 좀 하거든요 그래서 7:52 데이터를 작은 거부터 큰 거로 나열했을 때 가장 중앙에 있는값 4라는이 값이 오히려 보다이 8:00 데이터의 속성을 더 명확하게 짚어줄 수 있는 대표 값이 되는 거죠 이게 8:06 중앙값이 자 그다음에 최소값은 제일 작은값 최댓값은 제일 큰값 그다음에 8:12 범위라는 거는 최댓값 마이너스 최소값 이고요 자 빈값이 8:23 거는 뭐 이렇게 데이터가 1 2 3 3 3 4 4 5 6 있다 이러면은 8:29 가장많이 나오는 걸 값이라고 하는 겁니다 자 그다음에 1분수 3 4분수 8:36 아큐라 용어 요거는 들어보셨 수도 있을 거고 안 들어보신 분들도 있으실 8:52 텐데 자 1부터 99까지의 숫자가 있다고 할게요 데이터를 자여기이 8:58 데이터 1부 가지 숫자중에서 중앙값 한번 딱 찾아보면 얘가 중앙값이 9:06 그든 가장 전 가운데 50% 해당되는 위치값 1 4분 수라는 값은 이렇게 9:13 나열을 했을 때 25% 위치해 있는값 요겁니다 9:22 요거 1분 자 그다음에 데이터를 이렇게 9:27 열를 했을 때 75% 위치에 [음악] 9:32 있는값 얘를 3 4분위 수라고 얘기를 해요 자 그다음에 iqr이라는 용어는 9:40 뭐냐면이 3사분위 수에서 9:45 3사분위수 빼기 1사 분위 수의 값 요거를 iqr이라고 용어를 9:54 씁니다 자요 지금 대표 값에 대한 지금 저희가 명칭과 설명을 간단하게 드렸어요 자 10:01 이거 어디서 써먹는지 한번 볼게요 다음 페이지 보시면 10:10 됩니다 자 이거를 박스 10:16 플러쉬라이트 10:25 작은 거부터 큰 데로 쫙 나열을 해 보면 만이라는 10:30 숫자는 이쪽에 항상 이쪽에 와 있어요 근데 이거 이쪽에 있다고 해서 10:36 뭔 의미야라고 할 수 있어요 왜 이거를 쓰느냐 데이터를 보다 보면은 10:42 이상치 들어난게 있어요 이상치 이상치를 찾아낼 때 박스 플이라 걸 이용을 합니다 그러면이 박스 플이라 10:50 것이 무엇인지 개념을 먼저 알고 방금 전 페이지에 봤던 대표값을 연결해서 10:55 보려고 하는게 요건요 장표의 취지입니다 자 우선 데이터를 큰 거부터 좌대로 11:02 쫙 나열 했어요 자 정 가운데 있는게 중앙 값이에요 자 그다음에 데이터를 11:09 쫙 나열했을 때 25% 있는 걸 분수라고 말씀드렸어요 자 여기에 11:16 해당됩니다 75% 있는 걸 3 4분 수입입니다 자 그다음에 3 4분수 11:22 빼기 1 4분위수를 IQ 용어를 쓰는 겁니다 자 그다음에 11:29 3 4분수 여기 여기서부터 시작을 해서 iqr 값 곱하기 1.5를 한 11:35 값을 iqr * 1.5 한 값을 34분 에다가 더해주면 더해 줘서 11:42 새로운 값이 나오게 되는데요 기준점을 내 벽이라고 용어를 11:48 씁니다 자 그다음에이 내 벽이라는 기준점을 구하면 여기 어떤 값이 하나 있을까 아니에요 자 여기에다가 다시 11:55 1.5 * rq 또 더해 줘요 그거를 외벽이라 하는 겁니다 그러면 데이터를 12:03 작은거부터 큰거까지 쫙 나열했는데 아까 1 2 3 4 5 6 만 그렇게 있으면 만이라는 숫자는 12:09 이쪽에 있거든요 한참 이쪽에 외벽 중에서도 한참 나와 있어요 자 이상치란 데이터를 보는 12:17 관점을 이제 배우려고 하는 거예요 데이터가 대부분들이 작은 값들 있데 어느 값이 큰 값이 갑자기 딱 12:23 튀어나오면 아까 평균은 원래 데이터의 속성을 왜곡하지아요 12:29 중앙값은 그래도 대표 값을 표현할 수도 있겠죠 하지만 데이터들이 1 2 12:34 3 4 5 6 이런 것들이 한 10억 건 있어요 뭐 100만 건 있다고 할게요 그러다가 12:41 갑자기 대부분의 데이터들이 미만이에요 근데 200만이라는 숫자가 하나 12:46 있어요 그때 평균 구하면 200만이라는 값 때문에 나머지 값들이 평균값이 왜곡되지 않을 12:53 거예요 그럴 때 이상치 아는 걸 확인하기 위해서 이런 박스플러스 이용하는 겁니다 데이터를 쫙 나열해 13:01 봤는데요 내벽이 기준 잡고 외벽이라 기준 잡고 자이 13:06 외벽보수 있다면 걔는 이상치 아고 보는 겁니다 그래서 보통 내벽 넘어가는 13:16 거를이 상시로 볼 때도 있고 데이터를 외벽 넘어가는 것까지를이 상시로 13:21 보기도 합니다 이거에 관련된 함수들을 쓰는게 쉬운 게또 있습니다 그지만 13:27 박스 플러스의 개념을 알아야 함수를 쓰더라 이해가 되실 것 같아서 13:32 자 대표값 하고 묶어서 볼 수 있는 시각화 이거는 박스 플롯입니다 13:38 자 간단하게 한번 제가 사례로 한번 보여 13:45 드릴게요 자 지금 보여드릴 사례는 그 지금 교재에는 없는 13:51 부분이라 냥 간단하게 한번만 봐 주시면 되겠습니다 14:19 자 지금 제가 22라 있에 t 해놓고도 쓰고 1 2 3 4 5 6 14:24 하고 을을 썼어요 이게 뭐냐면 야 라는 14:30 변수에 요런 값들을 넣어라 이런 의미입니다 사실은 저희는 dpy이라는 패키지만 14:37 쓰다 보니까을 설치했을 때 고유하게 있는 기능들은 저희가 지금 수업을 한 건 14:43 아니거든요 지금 제가 2라인에 쓴 거는 아래 있는 고유한 기능입니다 14:48 원래이 화살표 반대로 돼 있는 요게 우측에 있는 걸 좌측에이라는 14:54 변수에 넣어 달라 이런 얘기예요 그리고 라는 거는 15:00 뭐냐면 어 컨케이트 뭐니까이 영어로 뭐 연결이라는 의미 됩니다 15:06 그래서이 C 아는 용어를 쓰면서 1 2 3 4 5 6 1000을 하나의 벡터로 연결해서 넣어 줘 이런 15:13 용어에 자 이거를 한번 제가 자라는 변수에 한번 담았어요 자 박스 플이라 15:20 걸 한번 그려 볼게요 15:30 자 지금 이게 밑에 지금 0 각가의 숫자들이 많아서 그런데 좀 숫자를 좀 늘릴게요 보기 15:51 편하시게 요것도 모양은 이쁜 건 아니지만 그래도 15:56 아까보다 여기가 지금 이게 박스입니다 이게 박스 박스 플롯에 그리고 여기 지금 이렇게 선 16:03 하나 위에 있고 또 아래 하나 있잖아요 요게 내 벽입니다 내벽 그다음에 지금 데이터 값이 1 16:10 2 3 4 5 뭐 이런 거 있다가 천 하나 있었잖아요 그것 때문에 데이터가 저위에 숫자 하나 지금 점치 킨 16:16 거예요 저게 이상치 아는 얘기예요 그래서 파워포인트로 박스 플레이라는게 16:22 뭔지 개념을 지금 설명을 드린 거거든요 이런 시각화를 많이 해야 됐고요 좀 있다 저희가 해 볼 거예요 16:30 자 자 이게 지금까지 했던게 이제 대표 값입니다 자 다음 페이지 그 16:36 넘어가겠습니다 20페이지를 봐 16:43 주세요 자 데이터 조작을 했어요 dpy이라는 아에서 쓰는 SQL 16:48 가지고 데이터 조작을 했습니다 데이터를 조작을 하고 직계도 만들어 16:53 보고 그니까 그룹바이 해가지고 카운터도 해보고 했어요 그것까지는 이제 숫자로서 보는 의미가 있었어요 17:00 하지만 데이터를 누군가 하고 데이터에 대해서 확인을 시키거나 이해를 시키는 17:05 작업을 하려면 숫자로 표현된 데이터보다 그래프로 딱 나와서 이거에 17:11 대해서 특성을 설명을 하는게 더 명확할 거 아니에요 자 그래서 시각화가 필요한 겁니다 그리고 보다 17:17 보면은 포드라는 걸 좀 있다 그릴 텐데 그런 걸 보시면서 또 보는 시각도 키워야 되긴 해요 한번 집접 17:24 해 보겠습니다 첫 번째로 17:58 자 지지 플로라는 패키지를 저희가 쓸 거예요 아까 dpy 아는 아에서 18:05 설치해서 쓰는 패키지가 그런 것처럼 시각화를 위해서 쓸 수 있는 패키지가 18:10 따로 또 있습니다 근데 그게지지 플러이라는 패키지예요 자 그거를 이제 저희가 18:17 설치를 이제 지금 각각에 선생님들이 앉아 있는 자리는 돼 있고 자 그거를 이제 이용할 거예요 자 지지플이라는 18:25 걸 쓰려면 첫 번째로 지지피 고 무조건 첫 번째로 무조건 이제이 18:30 문장이 있어야 돼요 그다음에 가로 열고 여기 지금 제가 좀 표현을 좀 18:36 해놨네요 ggt 하고 가로 열고 데이터 어떤 데이터셋을 쓸 건가 18:42 거기를 먼저 정의를 해 줘야 돼요 그다음에 뭐를 해주냐 여기 두 번째 18:48 줄에 있는 AS 이게 어세 뭐 이런 거 약어입니다 뭐 영어로적인 이런 18:54 약을 해요 그 어라는 걸 써가지고 뭐 표현하자면 x 축에는 어떤 항목을 19:01 넣을 건가 y 축에는 어떤 항목을 넣을 건가 그다음에 색깔은 무슨 19:07 색으로 할 건가 그다음에 데이터들을 개별적으로 데이터들 이렇게 그래프를 그린 다음에 19:14 텍스트를 찍을 건데 그 레이블을 뭐로 찍을 건가 이런 거 정의하는게 AS 19:19 안에다 넣는 겁니다 자 요게 기본으로 항상 있어야 19:24 되고요 요거에이 기본이 갖춰진 뒤에는 밑에 있는지지 플로트 함수 목록 이걸 19:32 갖다가 이제 붙이시면 시화가 돼요 근데이 지지플 2라는이 19:38 패키지는 아까 저희가 DPR 할 때 irs 퍼 세 퍼 더바이 그리고 무슨 19:46 항목 주고 또 퍼 세 퍼 뭐 이렇게 했잖아요 얘도 계속 붙여서 할 수 19:53 있어요 근데 지러 이런 거는 처음에 대 그래프를 그린 다음에 거 20:00 위에 점 그래프도 그릴 수도 있고 그 위에 선도 그릴 수도 있고 뭐 이렇게 계속 할 수 있어요 이게 어떤 20:09 개념이 투명 유리판이 있다라고 할게요 투명 유리판을 처음에 하나 깔은 20:15 거예요 그 위에 새로운 유리판에 뭔가 또 그렸어요 그걸 덮어 씌운 거예요 20:20 또 그래서 첫 번째 층 두 번째 층 세 번째 층네 번째 층 계속 이렇게 20:26 이어붙일 수 있다 얘기예요 그게이 시각화 키지의 장점입니다 20:32 그러면이 시각화 패키지를 할 건데이 시각화 패키지만 돌릴 수도 있고 20:38 저희가 앞에서 배웠던 데이터 조작 패키지인 dpl 같이 붙여서 할 수도 20:44 있어요 근데 우선 연결해서 하는 거 먼저 배도록 하겠습니다 자 개별적으로 이것도 20:53 똑같이 항로 정리를 해놨기 때문에 그거랑 21:00 묶어서 보시면 됩니다 자 페이지수를 22페이지 봐 주시면 21:14 됩니다 자 22페이지 21:20 자 첫 번째로 g 바 그래프입니다 21:29 자 바그래프 하고 그 옆에 보면은 gom 히스토그램 이런게 있어요 자 21:35 첫 번째로 바그래프고 히스토그램의 차이를 먼저 아셔야 되는데 바 21:41 그래프는 저희가 아까 통계적으로 데이터를 분류할 때 명목 서열 등간 비율 이렇게 얘기 드렸잖아요 21:48 GE 먼저 바 그래프는 명목 도일 때 즉 예를 들어서 남성은 몇 명이고 21:54 여성은 몇 명인지 뭐 이런 거 할 때 축에 항목 그냥 명칭을 잡고 그 21:59 명칭에 해당되는 건수가 몇 건인지 막대 그래프 형태로 보여 22:05 주는게 바 그래프이고 자 히스토그램은 x 22:10 축이 특정한 범위 값을 갖고 있어요 예를들어서 이런 거죠 연령 데이터 22:16 같은 경우 0에서 5세 6세부터 10세 11세부터 15세 이런 식으로 22:23 x 축에 범위를 잡은 다음에 그 범위 안에 들어가 있는 빈도수 즉 카운터를 22:30 세 가지고 그거를 막대 그래프로 표현한게 히스토그램 있니다 자 한번 직접 한번 쳐보도록 22:41 하겠습니다 자 제가 이제 먼저 쳐보고 한번 설명 부여 설명을 드릴게요 23:11 자 지금 우측 하단에 우측 하단에 아 우측 하단에 지금 그래프가 23:18 지금 나와 있고요 저 우측 하단에 있는 나와 있는 그래프를 크게 보려고 하면요 줌을 누르게 되면 이게 별도로 23:25 이제 커져서 별도로 뛰어 나오게 돼요 자 명령문 관점만 먼저 23:33 보겠습니다 자 irs 데이터셋으로 붙어 시각화를 할 거예요 자 지지플이라는 거는 꼭 써야 23:42 된다고 말씀드렸어요 그래서 지지플 해놓고 irs 쓸 거기 때문에이 23:48 파이프라인 요거를 파이프라인 기라고 하거든요 퍼센트 세 퍼센트를 연결자 23:53 자 irs 데이터로부터 시각화를 할 건데 23:59 어세 적으로 요게 항목을 하나만 쓰면 축이에요 그래서 세 스라는 걸 x 24:06 축에 깔아주고이 각각의 세스의 값들을 카운터 막대 그래프를 그려줘 24:15 이런어요 그렇게 했을 때 원래 세 스라는이 값은 숫자 값이에요 24:22 숫자인데 숫자이지만 카운트되지 못하는 법은 없잖아요 그래서 숫자값 카운터를 24:29 세 가지고 막대 그래프를 그려 줘 한 거고요 DPR yr 그래는 퍼센트 24:35 거세 퍼트라 걸 가지고 연결자 썼어요이 시각화에서지지 플이라이 24:41 시각화에서 연결자 퍼센트 커세 퍼센트를 쓰는게 아니라 얘는 더하기를 24:47 씁니다게 차이입니다 자 요거 한번 쳐 쳐 보시겠습니다 24:58 자 한번 쳐 보시고 우측 하단에 그래프 나오는 것도 한번 보시면 좋을 것 25:07 같습니다 자 요거 한번 쳐봐 주시고요 자 그 사이에 제가 좀 미리 25:13 히스토그램을 좀 준비를 좀 해 놓겠습니다 25:42 자 요거 이제 되신 분들은 조금만 편리하겠습니다 저희가 25:48 좀 실습을 해보려면 왜냐면 저희가 조금 전에 dyr 할 때 데이터 조임 부분에 25:54 대해서는 설명만 드리고 실습 안 해봤거든요 그 이제 뒤에 저희가 25:59 마지막 4장 쪽에 실질적으로 축제 데이터를 가지고 실질적으로 160만 26:05 건을 가지고 데이터를 처리를 해 볼 건데 그때 존이라는 거 써보기 위해서 한번 지금 좀 빨리 해보려고 하는 26:11 겁니다 자 히스토그램 있니다 자 제가 히스토그램에 지금 26:17 교재에는 지금 이제 goa 원더바 히스토그램 해놓고 뭐라고 써 있을 거예요 근데 지금 아무것도 안 쓴 26:23 상태에 히스토그램을 먼저 했어요 자 이렇게 했더니 빨간 것로 뭐가 26:30 나왔는데이 빈스이 30을 이용해 했다 이렇게지 표현이 돼 있어요 빨간색으로 26:35 이게 26:49 뭐냐면 빈스 이렇게 3 이게 돼 있는 건 런 항목 기들을 알이 알아서지가 26:56 알아서 30개로 만들어서 를 잡았다 얘기예요이 축을 조종할 수 있잖아요 27:03 조종해야 되거든요 필요에 따라서는 아까 0세부터 5세 6세부터 10세 27:09 이렇게 할 수도 있고 어떨 때는 0세부터 10세 이렇게 할 수도 있잖아요이 폭을 조정할 필요도 있는 27:14 거죠 그때 조종하는게 여러분들 선생님이 갖고 계시는 자료에 써 있는 27:20 문장입니다 제가 한번 조정을 한번 해 볼게요 27:29 여기에 저는 그냥 빈스 해볼게요 빈스 해놓고 3을 27:35 줘 버릴게요 어떻게 하는지 한번 봐주세요 자 이렇게 세 칸으로 나오는 27:43 겁니다 축의 범위가 넓어지는 거죠 자 데이터에 대해서 가장 많이 봐야 될 27:51 시각화 중에 하나가 바그래프 히스토리입니다 자 요런 식으로 쓰는게 27:58 히스토그램이라는 함수 자 그 뒷장을 이제 한번 또 28:04 보겠습니다 23 28:10 페이지입니다 자이라는이 패키지 안에서 막대그래프를 28:15 그릴 수 있는 기능은 딱 세 가지가 있어요 바그래프 히스토그램 그다음에 그니까 g 바 28:22 bar 바 g 더바 히스토그램 그다음에 g 라는 함수가 28:29 있습니다 자 gom 바나 gom 히스토그램은 x 축만 딱 정의를 28:37 해주면지가 알아서 카운터를 세 가지고 막대 그래프를 그려 줘요 근데 28:43 데이터를 만지다 보면은 X 축과 Y 축을 제가 값을 다 구해 놓고 걔를 28:49 가지고 바 그래프를 그고 싶을 때가 있거든요 그때 쓰는게 더라는 28:55 함수입니다 지금 저희가 이제 해보려고 하는 게 그 함수입니다 자 한번 보겠습니다 제가 29:02 한번 쳐 볼게요 29:12 [음악] 29:39 자 제가 친 명령에 대해서 한번 설명을 드리고가 보겠습니다 자 dpy고 그대로 29:46 연결해서 그냥 쓴 겁니다 자 irs 데이터로부터 먼저 스페시스 항목으로 29:53 그룹을 잡 잡은 다음에 몇 건씩 있는지 카운터를 해 본 거예요 자 카운터를 했다 30:00 보니까 여기 서머라이즈 거만 해가지고 실행을 시키면 결과값은 스페시스 항목별로 몇 건씩 30:08 있는지 그게 두 개지 데이터 값만 나오거든요 자 제가 지금 이렇게 긴 30:13 문장을 쳤지만 문장을 치다 보면은 가끔 에러가 할 때도 있어요 그럴 30:19 때는 부분부분 끊어서 해 볼 수도 있습니다 한번 볼게요 제가 30:25 지금이 문장을 이렇게 썼어요 자 선까지만 한번 렇게 30:30 반전시켜서 얘만 제대로 나오는 건지 이렇게 돌려봐도 돼요 그래서 지금 돌려보니까 스시라 30:39 항목고 n이라는 항목 두 개가 이제 딱 잡힌 거잖아요 자 그러면은 얘를 30:45 X 축을 y 축으로 한 다음에 바 그래프를 그리고 싶은 거예요 그래서 30:51 go 원더바라는 함수를 쓰면 같이 묶어서 돌리면 X 축 y 30:58 축 다 그려진 바 그래프가 나오는 31:04 거죠 연 연월 별로 연월 별로 유동 인구수가 어떻게 되는지 이렇게 카운터 31:10 해 가지고 x 축에 연월 y 축에 유동 인구수 뭐 아니면은 월별로 카드 31:19 사용 금액 러면 x 축에 월 y 축에 카드 사용 금액 이렇게 데이터를 구한 31:25 다음에 시각화를 하면 되는 거죠 자 이게 원 co 대는 31:34 함수입니다 자 그다음에 포인트를 한번 해 31:41 볼게요 자 포인터는 스케트 플이라 용어들 쓰는데 점도는 굉장히 중요한 31:48 시각과 패키지 중에 또 하나입니다 함수 중에 자 제가 산점도를 직접 한번 31:54 지금 교재에 있는 그대로 한번 쳐보겠습니다 a 32:43 자 산정도 두 개를 좀 비교를 할 텐데요 자 32:50 지금 자 이게 첫 번째 산전동 window 자 보시면 전부 색깔이 32:56 검정색이에요 그렇죠 자 얘네들을 특정한 그룹별로 특정한 집단별로 색깔을 달리 쓰기 해서 33:04 명령문을 준게 선생님들이 갖고 있는 교재에 컬러라고 돼 있고 스시라고 써 33:11 있는 부분이 있어요 그거를 주면 여기에 이제 점도의 색상들이 달리 33:16 표현이 되는 거예요 그라는 그 부분에 쓰는게 아까 33:21 X 축 좌표 x 항목축 항목 그다음에 컬러 33:28 그다음에 막대 그래프 색깔 라벨 뭐 이런 거를 쓰는 거예요 자 한번 33:33 컬러스고 줬을 때 똑같이 한번 교재 있는 거 똑같이 한번 쳤을 때 어떻게 되는지 볼게요 자 요렇게 색상별로 33:40 나옵니다 자 33:46 그러면 자요 산점도를 봤어요 그려봤어요 33:55 잠깐만요 자 산점도를 그렸습니다 어 그렸어 이거 근데 뭐지 그렸으면 된 34:03 거 아니야라고 하면 안 됩니다 자 보세요요 빨간색 세토 34:10 사예 자 그다음에요 초록색이 버지 하려고요 청색의 비그 34:17 니에요 산점도 분명히 그렸어요 자 근데 빨간색 34:23 세토는 다른 붓꽃 종류에 비해서 꽃받침과 34:30 꽃이가 확연이 다르잖아요 그러 숫자값을 가지고 34:36 얘가 세토사 버칼 비지 명확하게 얘는 구할 수 있단 얘기예요 그렇게 34:43 해석하는게 필요한 거예요 자 그다음에요 나머지 34:51 비하고 칼라 같은는 중간에 교차되는 분이 34:56 있어요 건가 고민해야 되는 거예요 데이터들을 이렇게 이런 거 35:03 한번 생각해 볼까요 35:09 세수대야에 콩도 놓고 돌 덩어리도 놓고 그다음에 뭐 35:14 좁쌀도 놓고 막 섞어 있어요 자 데이터를 분류를 해야 35:20 돼요 이거를 분류를 할 때 세수 대에 물론 담겨 있지만 이거를 35:32 [음악] 35:41 자 요런 통에다가 다 옮겼다고 할게요 세수 대가 있는 거를 자이 35:48 통을 막 돌린다고 할게요 회전을 한다고 할게요 자 그러면 제일 35:53 무거운게 밑에 오겠죠 자 제일 가벼운게 위로 오겠죠 지금 버디 니하고 비클 지금 섞여 36:00 있어요 중간에 저 데이터들을 어떻게 돌리던 뭐 하던간에 36:07 요렇게 중간 무거운 거 제일 무거운 거 가장 가벼운 걸 이렇게 분류를 해놨을 때 가벼운 끼리는 지네들끼리 36:15 지금 잘 뭉쳐 있을 거 아니에요 집단으로 뭔가의 특성을 분류를 할 때 같은 집단의 36:23 끼리는 결이 잘되게 해놓고 집고 간의 관계는 멀리 떨어뜨려 놔야 되는 거야 36:30 이거를 숫자상으로 표현하면 내부 집단끼리 평균을 중심으로 분산이 표준 36:38 편차가 가깝게 해줘야 되고 36:56 집단고소 원래 데이터는 이렇게 왔어요 이거 이제 분류해야 되잖아요 그러면 37:02 필요에 따라서 이런 개별적인 값들에 제곱을 하던지 아니면 로그를 씌우던 루트를 37:10 씌워보고 산점도를 그려봐서 집단들간에 자 분류가 되는지를 해봐야 되는 거예요 이런 것들이 아까 처음에 37:18 데이터 분석 방법론 말씀드릴 때 모디파이라는 과정이 있었어요 그런 37:23 접근할 때 이런 걸 쓰는 겁니다 데이터들 에는 명확하게 뭔가 37:29 분류할 수 있는 기준점을 마련해야 그 데이터를 대변할 수 있는 속성값이 되는 37:34 거거든요 자 그런 관점에서 산점도를 먼저 그려보고 데이터에 탐색 이해를 하는 작업을 하는 37:44 겁니다 예 다음 페이지 한번 [음악] 37:51 보겠습니다 자 30 2페이지는 좀 쉽게 하나만 도록 하겠습니다 이건 38:00 뭐냐면이이 그래프 상에 x 축으로 선을 하나 글 거냐 y 축으로 선을 38:05 그 거냐 이겁니다 선을 하나도 그 수도 있고 몇 개도 그릴 수 있어요 근데 선 직선을 하나 그냥 임의의 38:13 위치에 그니까 뭐 특정한 값 위치에 선 하나 그리겠다 y 축에 선 하나 그리겠다 38:19 이게 V 라인 H 라인 이렇게 표현한 겁니다 V 라인은 버티컬 라인 H 38:25 리탈 라인이 해서 것뿐입니다 하나만 실습을 좀 38:32 해보겠습니다 자 산점도로 있는 걸 가지고 한번 실습을 해 보겠습니다 그래서 24페이지 오른쪽 거죠 리존 38:45 라인 자 제가 한번 그대로 한번 쳐 볼게요 39:25 자 제가 지금 39 인의 지금 반전한 부분입니다 한번 해석좀 한번 같이 39:31 하고 가겠습니다 자 irs 아는 데이터로 붙어 시각화를 하는데 x 축에는 세팔 39:39 랭스 y 축에는 페 랭스를 가지고 잡아주고 시각화는 산점도로 해 줘라고 39:47 해서 포인트라는 함수를 쓴 거예요 자 그럼 3도까지 그래프가 나왔겠죠 점들은 아까 했을 때 여기 컬러라는 39:54 부분이 있었어요 자 색상을 집어넣는게 두 가지 방식이 있어요 요렇게 40:01 개별적으로 컬러 뭐 아까 스펙 컬러스 뭐 이렇게 쓴 거 있었잖아요 그거를 40:06 저희는 파라미터는 용어를 씁니다 컴퓨터에서 전산 아시는 분들은 파라미터는 용어를 40:12 쓰는데 색 색깔과 관련된 파 색상과 관련된 파라미터는 두 가지가 있습니다 40:18 컬러스 아는 이거 영국식 발음으로 컬러스고 쓰기도 하고요 그냥 컬러라고 써도 돼요 40:24 미국식으로로 써도 되고요 컬러스고 써도 상관없어요 그다음에 40:38 필이라인전이나 선의 색깔을 넣 때는 컬러라고 쓰는 거고요 막대그래프에서 40:43 색상을 넣을 때는 피를 쓰는 거예요 거만 기억을 하시면 돼요 자 40:49 그래서 우선 바 그래프를 그니까 히스토그램을 그렸고 아 스케트 플롯을 40:55 그렸고 거기에 h 리존 라인을 그릴 거예요 그러니까 리존 라인은 x 축이 41:02 아니라 y 축 기준으로 손을 그리는 거기 때문에 x 인터트 x 상수값을 잡은 41:09 거예요 거기에 상수값 어떤 값을 대입을 했냐면 irs 스라는 값의 41:16 평균값으로 그냥이 상수를 잡아 줘라고 쓴 거예요 그리고 색상은 빨간색으로 칠해 41:23 줘 세팔 랭스의 평균도 한번 구해서 41:30 이렇게 선 그릴 수도 있고 테팔 랭스의 평균값 구해서 이렇게 선 그릴 수 있잖아요 41:36 그러면 각각의 x 축의 항목의 평균값 y 축의 항목의 평균값 들 기준으로 41:43 선이 하나씩 그려지니까네 개의 면이 나올 거 아니에요네 개의면 중에 데이터의 분포가 어떻게 있을까 이렇게 41:49 또 생각도 해 볼 수 있는 거예요 그러면서 계속 찾아보는 겁니다 이런게 41:54 탐색이라는 과정에 걸쳐야 될 과정들이 그 하나입니다 42:01 자 요거 이제 한번 넘어가 보도록 42:06 하겠습니다네 gom 텍스트는 일단은 있는 거로 한번 42:11 보도록 하겠습니다 교재에 있는 거로 그래서 25라 이의 자축을 보시게 되면 자 irs 이제 명령문 있는 42:19 데를 봐주세요 irs 퍼 세 퍼 해놓고 지지플 해놓고 AS 축에는 42:27 세스 y 축에는 페스 그다음에 레이블 레이블이라고 주게 되면 어떤 명 42:34 텍스트를 이제 문자를 글자를 쓸 건데 레이블에 어떤 거를 글자로 쓸 건가를 42:40 정의를 해 주는 겁니다 항목 명칭을 정의를 해 주는 거예요 그런 다음에 42:46 g 원더바 포인트에서 산점도를 먼저 찍고 텍스트를 쓸 때는 원더 텍스트라 42:53 또 함수를 가지고 쓰는 것뿐이에요 근데 거기에 제가 찌 언더바 x 42:58 해놓고 0.2 잡아 놓은게 있어요 이게 뭐냐면지 언더바 x = 0.2를 안 43:05 쓰면 그 점 위에 글씨가 찍혀요 그거를 약간 옆으로 피해기 하기 43:11 위해서지다 x 걸 쓴 겁니다 예 그렇게만 봐 43:18 주시고요 우측에 있는 박스플러스 한번 그려 보겠습니다 예 아까 저희가 박스 43:24 플이라 의미를 왜 쓰는지를 한번 설명을 드렸으니까 박스 플이라 걸 한번 43:30 그려보겠습니다 자 120 그니까 25 라인에 자 스페이스라는 개벽이 43:36 항목별로 스페시스 세 가지가 있었어요 그 항목별로 세팔 랭스는 거에 대해서 43:43 박스 플러 시각화를 해 보는 겁니다 44:25 아 지금 제가 쓴 거하고 여분 선생님들이 지금 보 쓰실 44:30 거하고는 좀 다른 부분이 좀 있습니다 자 44:38 지금 교재 있는 부분은 자 여기까지만 돼 44:43 있어요 요거죠 요거 자 이거로 했을 때 박스 플러 그리 데는 전혀 문제가 44:49 없습니다 이렇게 나오면 되니깐요 자 그다음에 지금 여기 버러 쪽에 검정색 44:55 점하나 있어 칩니다 굉장히 낮은 값이 뭔가 다른 것들은 큰데 얘는 낮다라는 얘기예요 45:02 근데 제가 지금 요런 명령을 부 45:07 붙어요지지 플러트이 시각화 안에는 여러 가지 함수들이 또 이게 45:13 시각에 관련된 시각화에 관련된 함수들이 많이 있습니다 근데 첫 번째는 여기에 지금 45:18 선들이요 이렇게 뭔가 그려진게 없이 그냥 끊어졌으니 요게 서을 좀 45:24 표현하고 싶은 거예요 걸 라고 얘기를 합니다 라바 그래서 여기에 라바를 좀 45:32 표현을 하려고 여기 stat 언더바 박스 45:37 플러 해놓고 g이 놓고 라바 이렇게 하면 저기 선들이 45:43 커져요 그니까이 에스트라는게 스태틱의 약어입니다 통계적인 박스 플러 통계적으로 박스 45:52 플을 그려서 넣는데 라바를 넣어달라 45:57 라고 병어를 쓴 거예요 이거를 돌리면이 시각화의 46:03 위치에 x 축에 선들이 이제 그려져서 나타나게 46:08 됩니다 자 요렇게 표현이 되는 46:16 겁니다 예 그렇게 되고요 다음 페이지로 한번 보겠습니다 46:27 다음 페이지 두 개는 설명을 하고 넘어가도록 하겠습니다 자 스라는 거는 46:33 지금 저희가 시각화를 했는데 시각화를 했는데 지금 영문으로 스시스 그다음에 46:40 세스 이렇게 잡힌다 이거죠 x 명칭을 붓꽃 종류 축의 명칭을 46:49 뭐 꽃바침 뭐이 뭐 이런 식으로 한글 명칭으로 바꾸거나 할 때 46:55 또는 에 여기 타이틀을고 싶을 때 또 47:01 서브타이틀을고 싶을 때 이럴 때 용어를 쓰는게 스라는 함수를 붙여서 47:06 쓰면 되는 겁니다 아까도 말 플로트는 층을 계속 쌓는 거예요 그니까 47:12 여기까지 시각화를 해서 층을어요 거기에다가 스라는 걸 한을 싼 거예요 47:18 그렇게 해서 나타난다는 거죠 그다음에 우측에 있는교 측에 47:25 있는 과은 x 축의이 구간을 더 넓힐 거냐 47:34 얼마부터 얼마까지 보여주게 할 거냐이 좌표값의 범위를 잡는 겁니다 디폴트로 저희는 지금 X 47:41 축하고 Y 축을 구터 해 줘 이런 얘기를 안 했거든요 아무것도 안 하다 47:46 보니까지가 알아서 시카가 x 축의 최소값 얼만지를 구하고 하마 y 축의 47:51 최댓값 얼만지 구하고 이런 식으로 해서 그렸을 거예요 근데 이거를 뭐 0부터 그리게 하고 싶다 47:58 꼭짓점을 0부터 시작하고 싶다 그러면은 이제 xli y 축도 꼭짓점 시작하고 싶다 48:03 그면 yli 이런 식으로 값을 조정해서 시각화를 보여주는게 우측에 있는 48:11 함수입니다 예 여기까지가 사실 제가 준비한 시각과 패키지인데요 시각화 48:17 패키지가 지금 설명드린 거가 꼭 아셔야 되는 시들만 먼저 설명을 드린 48:23 거예요 부수적인 시각 패키지들이 있습니다 함수들이 좀 많이 어요 근데 그런 48:28 부분들은 긴 시간이 요하기 때문에 시각화는요 정도까지만 48:37 하고요 늘 제가가 많은 분들 앞에서 이제 이렇게 48:43 강의하는 거를 많이 안 해 받기도 했지만 48:49 아 그 지금 설명드리는게 제가이 시각화까지 하는 것도 보통 48:59 한 20시간 정도 작업을 해야 되는 과정이에요 49:04 제가 예전에 이제 그 데이터 분석과 관련된 학원 49:12 주말에 이렇게 수업 금하게 했다는 경험 속 있어서 말씀을 드리는데 이게 지금 제대로 하려면 좀 오래 걸립니다 49:20 근데 그중에서 정말 꼭 이거 정도만 알아도 우선 해볼 수 있는 거만인 49:26 지금 계시는 내용들이에요 그래서 그 부분에 대해서만 먼저 집중적으로 설명을 드리는 49:33 거고요 하간 지금까지 했던 부분들을 가지고 이제 축제에 대한 시습 분석을 49:40 한번 좀 해 보도록 하겠습니다 아 이거를 하기 전에 우선 잠깐 쉴 건데요 이제 뒤에 계시는 49:49 분들 아까 SQL 아에서 데이터를 먼저 49:54 생성하는 작업들을 좀 해야 되거든요 자 그거를 이제 한번 또 돌려주시면 50:00 좋겠습니다 [음악] 50:06 아 자 바탕 화면에이 파일이 있습니다 데이터셋 조에 리라고 돼 있는 파일이 50:13 있습니다 바탕화면에 바탕화면이 없는 분들은 손을 좀 들어 주시면 50:19 되고요 그래서이 파일을 여가지고 다시 말씀드리지만 분 복 50:28 R 스튜디오로 붙이시기 하신 다음에 R 스튜디오로 붙인 50:33 다음에 요렇게 붙이신 다음에이 전체를 이렇게 반전시키고 런을 시켜 주시면 50:40 돼요 요거 데이터를 긁고 오는데 한 4분 정도 정도 걸릴 거예요 데이터 50:46 건수는 한 160만 건 되고요 자 이거를 가지고 실습을 직접 해 보려고 하는 거기 때문에 요거를 좀 생성을 50:53 하는 겁니다 보통 실습을 할 때 데이터 뭐 한 뭐 2천건 3천건 이렇게 하는 거는 좀 의미가 없으실 50:59 것 같아서 이왕 하시는 거 좀 제대로 해 보는게 맞지 않을까 해서 좀 제가 이렇게 미리 준비를 좀 한 건데요 51:05 요게 지금 저희 수업의 과정이 아닐까 생각입니다 제일 고비가 아닐까 이게 잘 생성이 돼서 바로 뒤고 좀 51:12 연결해서 가야 되는데 그게 좀 염려가 되긴 합니다 자 본격적인 시작에 쳐서 어떤 51:20 거를 분석할 건지 잠깐시기 전에 요것만 설명해 드릴게요 2페이지를 좀 봐주시면 51:26 서울시에서는 여러 가지 그 기간별로 축제들을 하고 있습니다 저도 이제 가보진 않았지만 51:33 지나가면서 본 거는 같아요이 뭐롱 빛초롱 축제라는 걸 하는 거 같은데 51:39 저희가 지금 활용할 데이터는 2014년도 가고 2015년도 데이터입니다 빛초롱 데이터에 대해서 51:47 일단은 데이터 셋이 지금 빛초롱 데이터라는 거를 구성하는 데이터셋이 어떻게 구성이 돼 있는 거고 자 이걸 51:55 가지고 그러면 어떤 거를 분석하지 주제를 또 뽑아야 되잖아요 그 주제를 뽑는 걸 간단하게 아까 저희가 처음에 52:02 데이터 분석 주제를 찾는 것처럼 어떤 분석을 해 볼 거야 그걸 뽑는 것도 똑같은 시각으로 52:09 한번 생각을 해보고 그거에 따라서 개별적인 실습을 해 보도록 하겠습니다 52:14 예 잠시 쉬다가 시부터 진행 아 시부터 진행을 하도록 52:24 하겠습니다 저희가 오늘은 정형 데이터를 하 있지만 사실은 또 관심이 52:30 있으신 분들은 또 비정형 데이터에 관심들이 또 있으실 수 있어요 비정형 52:36 데이터는 사실 지금 이제 다 다다음 주에 이제 하겠지만 사실 일반적으로 비정형 52:43 데이터 분석한다 그러면 만일 생각하는게 워드 클라우드 정도만 생각하시는데 그거 말고도 사실 여러 52:49 근거도 있습니다 근데 이제 우리 한국 한국이라는 나나 물론 특성만 봤을 52:55 때는 한글이라는 부분이 조금 영어처럼 분석이 깔끔하지가 않아서 한글에 53:02 대해서 비정용데 있다 분석을 한다 그 형태소 분석이라는 걸 해야 되거든요 그래서 형태소분석 그니까 우리 문장에 53:10 대해서 아홉 가지의 품사를 공유하거나 22가지의 품사로 립을 해서 거기서 53:16 이제 품사 어떤 것들을 뽑을 건지 이런 것들을 또 찾아내야 되는 작업 합니다 지금 갖고 계시는 교제 뒤쪽에 53:23 보면 이제 텍스트 분석하는 방에 자료를 제가 거기에 다 표현을 좀 해 놨어요 다음에 이제 또 오시게 되면 53:32 어 텍스트 데이터에 대해서 형태소 분석기를 돌려 가지고 나온 결과치에 대해서 이제 한글만 찾는 특히 또 53:40 명사 단어만 찾는 뭐 이런 작업도 해야 될 거 같고요 사실 형태소 분석이나 이런 거를 하는 이유가 53:47 나중에 문장을 가지고 데이터 셋을 만들어서 머신러닝이나 딥러닝에 태울 53:53 수 있는 기반 데이터도 되기도 합니다 CNN 님 알파고 같은 경우는 CNN 이제 알고리즘을 쓴 거고요 뭐 54:00 체포시 이런 것들은 rnn 많이 쓰는데 그런 거를 할 때 체포시 54:06 용어들 많이 쓰죠 체포 시스템 뭐 이런 것들 그런 거 할 때 어쨌든 한글에 대한 특성 데이터를 만들려면 54:13 아 저희 한국이라는 나라 관점에서 형태시 분석를 해야 되고 그거에 대한 54:19 결과 답 변치 만들어서 R 맨으로 막 돌리고 하는 작업들이 이어져야 되는데 54:24 어쨌든 전 처리로서 어 텍스트 분석의 개념을 알아야 집단을 진행하시는게 쉽지 않을까 54:30 생각이 듭니다 예 이제는 실습입니다 실습이 아까 잠깐 54:38 말씀드린 것처럼 초롱 데이터에 대해서 실습을 해 보겠습니다 사실 제가 이제이 빛초롱 54:47 축제에 대한 데이터를 뭐 예를 들어 2018년 것까지 있고 그러면은 이제 54:53 좀 몇 년 치에 대해서 좀 다양하게 볼 수도 있을 텐데 현재 여기 빅데이터 54:58 퍼스에이 축제에 관련된 데이터가 14년 거하고 15년 거밖에 없어서 55:04 그래서 요거밖에 못 쓰는 거고요 데이터 건수는 그래도 한 160만 건 되니까 55:10 아무래도 저희가 다루는게 데이터 분석이라는 주제를 다루긴 하지만 그 앞에 빅라 단어가 항상 붙는 상황에서 55:17 하는 거니까 일단 160만 건이 오히려 좀 의미가 있지 않을까 생각이 듭니다 자 데이터셋 한번 볼게요 55:27 자 지금 저희가 활용할 데이터셋은 아 여기 지금 항목 명칭이 55:33 조금 일률적이지 사실 않습니다 여기 자가 이렇게 들어가 있는이 단어들은 55:39 원래 코드 데이터라는 얘기인데요 원래는 코드 데이터로 들어가 있는데 55:45 저희가 이제 수업을 하기 위해서 제가 아까 그 한씩 돌려가지고 데이터 55:51 만드는 업을 했었잖아요 스크립트로 그 가지고 여기에 코드가 아니라 명칭이 55:58 이렇게 들어가게 제가 로직을 짠 겁니다 근데 어쨌든이 지금 활용할 56:04 데이타 명들은 축제 연도와 뭐 축제명 그다음에 섹터 코드라는게 있는데 56:10 여기는 전부 각들이 1루 들어가 있고요 그다음에 연월일이 있고 업종 56:15 업종 명칭 성별 명칭 연령대 명칭 그다음에이 축제에 대해서 외부에서 56:22 어디 사람들이 제일 많이 들어왔나 유지에 대한 명칭들 그다음에 시간대 정보들 그다음에요 시간대에 맞는 카드 56:30 매출 금액이 얼마큼 되는지 그다음에 건수가 어떻게 되는지 런 정보들을 이제 갖고 있습니다 자 그러면 아까는 56:38 주제를 정했던 관점이었고 역시 이거를 똑같이 이렇게 나열을 해서 뭐 무엇을 묶어 가지고 한번 56:47 데이터를 탐색해 볼까 이런 거 이제 생각을 해볼 필요가 있다는 거죠 그래서 제가 생각할 때 그냥 56:53 저희가 실용으로 하기 위해서 그렇게 다섯 가지 정도는 한번 해보면 어떨까라고 해서 주제를 그냥 뽑은 57:00 겁니다 일단은 관심사가 될 만한게 연별로 매출액의 차이가 매출 금액에 57:06 차이가 있는지 뭐 예를 들어서 축제 기간 전에 당연히 축제 기간 전보다 축제 57:13 기간 동안 매출이 올라갈 건데 맞는지 확인도 한번 해봐야 될 거 같고요 57:18 그다음에 축제 기간 동안에 매출이 발생을 하지만 이게 성별로 또 차이가 있는지도 궁금할 거고 아니면 보다는 57:26 이제 업종 관점에서 어떤 업종이 가장 많이이 축제 기간에 매출액이 많이 57:33 올라가느냐 그다음에 시간대별로 봤을 때는 어느 시간대에이 축제가 사람들이 57:39 많이 호을 하고 있는지 뭐 이런 것들도 보는 거죠 또 지금은 개별적인 항목별로 57:46 이렇게 제가 지금 표현을 해 놨지만 크로스 체크를까 교차 집계 표라고 얘기를 57:51 하거든요 예를 들어서 성별된 시간대의 현황이 비슷한지 뭐 이런 것들 근데 데이터리 58:00 통계적인 분석 접근을 좀 많이 해 보는 것들이 사실 좀 해 볼 수도 있습니다 근데 이제 통계적인 용어들이 58:06 들어가고 그런 것들을 이제 해 보려면 이제 통계 총론 뿐만이 아니라 강론 58:12 통계학의 기본을 총론이 하고요 회기분석 인자분석 주성 분석 뭐 이런 58:18 개별적인 것들 강이라고 하는데 강론에 대한 이론을 조금이라도 들고 이렇게 58:24 하면 이제 여러 가지 분석들도 해 볼 수도 있 있을 것 같은 생각도 드는데 우선은 접근 방식에 대한 그러니까 58:30 제가 오늘 준비한이 자료는 데이터를 분석을 한다 그러면 사실 나무를 먼저 58:36 보는게 아니라 숲을 먼저 봐야 돼 그러면 습 관점에서 먼저 보고 그다음에 나무 관점으로 해석을 해 58:43 들어가야 되는데 지금 저희가 실습할려는 요것도 나무 관점이 하나입니다 그래서 아까 말한 것처럼 58:50 예측 쪽인 아니지만 현황에 대한 특성을 이해하고 현황에 대해서 어떤 어떤지를 58:57 탐색해서 인사이트를 찾는데 목적이 있으니까 기술 통계 정리 관점에서 59:02 저희가 데이터 분석을 실습을 해 59:09 보겠습니다 자 이제 아까 저희가 이제 요거를 잠깐 돌렸었는데 요거 간단하게만 설명을 드리고 밑에 쪽은 59:17 저희가 좀 한번 확인을 해보면서요 명령을 개별적으로 또 돌릴 수도 있습니다 자 우선은 다시 말씀드리지만 59:25 저희가이 분석을 하기 위해서 아까 첫 번째로 dpy이라는 패키지를 저희가 59:33 배웠습니다 자 그다음에지지 플로라는 시각화 패키지를 저희가 설치를 해서 59:39 배웠습니다 자 그다음에 dbi R SQL 아까 말씀드린 것처럼 여기 59:46 지금 빅데이터 캠에서 쓰는 데이터베이스가 mysql이기 때문에요 두 개의 라이브러리들이 59:53 있어야 mysq 데이터베이스 붙을 수도 있고 또 붙은 다음에 그 59:58 데이터베이스에서 정보를 끌고 올 수가 있는 겁니다 그 끌고 오기 위한 명령이 여기 지금 셀렉트 문으로 쓴 1:00:05 거고요 요게 안시 SQ라는 겁니다 자 안시 퀘를 가지고 데이터를 했고 여기 1:00:12 저 보시면 요런 용어는 이제 아웃트 조인 이렇게 나와 있잖아요 아까 1:00:18 아래는 아웃트 네프트 웃 조인 아이오타인 이런 것도 있었고 세미조인 안티조인 뭐 이런 것도 있었잖아요 1:00:26 이런 명령을 쓰 써 가지고 안시 SQ 아는 걸 만들 거 만든 겁니다 자 1:00:33 그다음에 지금 개별적으로 앉아계신 선생님들 자리에서 1:00:39 데이터를 str 해 놓고 언어 언더가 데이트 하면은 데이터 하면은 한글이 1:00:46 깨질 나오는 부분들이 있을 수도 있어요 자 한글이 깨진 거를 원래대로 1:00:52 복원하는 작업을 좀 하려고 합니다 그때 쓰는게 라는이 함수를 쓰는데요 이게 뭐냐면 1:01:00 이게 아가 인터네션 약자입니다 그래서 국가 코드로 변형을 1:01:06 시키는 함수 그래요 자 우리가 쓰는 일반적인 1:01:12 데이터는 문자든 특수 기든 이런 것들을 관리하고 있는 데이터 코드값이 1:01:17 있어요 컴퓨터에는 이걸 캐릭터 셋이라고 하거든요 그래서 기억 니 이런 1:01:23 것들마다 코드를 부여해 있어요 근데 데 이거를 이제 표준화시켜 만든 1:01:30 것들이 utf 8이라는 표준화에 대한 캐릭터 셋이 있습니다 지금 저희가 쓰는 것들은 1:01:37 utf 8이라는 캐릭터 셋이 돼 있는데 저희가 지금 R 기반하에 1:01:43 ysq 접속을 해가지고 데이터를 읽었는데 한글이 깨지는 경우가 좀 간혹 나와요 1:01:49 그거를 한글에서 관점에서 해석을 좀 안 깨지게 하는 데이터 셋으로 변형을 1:01:55 하려고 그래 그게 CP9 49라 명칭으로 불리는 데이터 셋입니다 1:02:01 캐릭터셋 캐릭터셋 그래서 utf 8로 돼 있는 캐릭터 1:02:06 셋을 CP9 49는 캐릭터셋으로 변형하는 거를 다섯 개의 항목에 대해서 수행을 좀 할 거고요 자 1:02:14 그다음에 여기 str 스라는게 있어요 요거는 1:02:21 뭐냐면 요거는 s r이라는이 키지에 있는 1:02:27 함수인데요 저희가 문장을 다루거나 막 이럴 때 막 이상하게 막 스페이스가 1:02:33 많고 특수교 있고 이런 것들이 있어요 그런 것들을 깔끔하게 정리해 주는 함수가 str 스라는 함수가 있습니다 1:02:42 거 한번 좀 있다 보여 드릴게요 자 그다음에 원래 1:02:47 데이터가 렇게 읽었을 때 원래 데이터가 아까 연월일 데이터가 있다 1:02:53 그랬어요 연월 데이터 연월이 중에 연월 1 이렇게 붙어서 있다 보니까 1:02:59 월 데이터만 월별로 제가 추위를 비교하고 싶을 때 연어리 통째로 1:03:05 있으니까 이게 보기가 불편한 거예요 그래서 연월일 데이터 중에 월 1:03:10 데이터만 잘라서 별도로 데이터를 만들려고 해요 그니까 DPR yr 1:03:17 뮤티 이런 걸 써 가지고 기존에 있는 데이터 항목에 새로운 걸 추가하려고 그래요 근데 월 데이터만 추가를 할 1:03:24 겁니다 그래서 str 더바 SV 즉 데이터를 잘라라 1:03:29 서브스트링 해라라는이 함수의 요거가 str 더라는 함수 그요 어디서부터 1:03:35 얼마만큼 잘라라 이런 함수 그렇게 해서 데이터를 월 데이터를 만들 1:03:41 거고요 그다음에 지금 언더바 머니나 1:03:47 시즌 언더바 이어 런 데이터들이 머니 데이터는 숫자형으로 1:03:53 데이터가 딱 잘 읽혀지면 되 숫자형으로 안 익혀줄 때가 있어요 1:03:59 그래서 숫자형으로 좀 변형하는 작업을 잠깐 한 거고요 그다음에 시즌 데이터 1:04:05 같은 경우 시즌 연월 그니까 몇 년 도지 뭐 이런 연월 데이터도 문자형으로 이거는 익혀야 되는데 1:04:11 거꾸로 숫자형으로 익힐 때가 있거든요 그래서 그거를 문자형으로 변환하는 작업들을 이렇게 좀 할 겁니다 자 1:04:18 제가 이제 하나씩 쫓아 저랑 한번 맞춰서 진행을 해 보도록 하겠습니다 1:04:37 자 지금 str 해 1:04:45 놓고 자 지금 str 해 놓고 49 라인에 제가 지금 반저 친 것처럼 한번 쳐봐 1:04:53 주세요 그렇게 했을 때 지금 한글이 빛초롱 PC 방 뭐 이런 식으로 1:04:59 보이시면 1:05:08 괜찮습니다 근데이 글자들이 깨져서 나 나오시는 1:05:16 분들은 지금 데이터를 약간 변형을 해 주는 작업들을 해야 되는데요 1:05:52 자 지금 icv 같은 이런 기법을 써서 1:05:58 데이터를 한글이 깨진 것들을 안 깨지게 변형하는 작업들의 명령문들의 1:06:03 이렇게 개별적으로 좀 쳐주시면 됩니다 한글 안 깨지신 분들 1:06:10 있나요 str 했을 때 str 했을 때 요게 한글을 안 깨주고 요렇게 1:06:17 나오면 됩니다 안 깨지고 깔끔하게 1:06:23 나오면 바로 진행을 하도록 하겠습니다 니다 아 그러면은 진행을 좀 해 1:06:30 보도록 하겠습니다 자 첫 번째로 할 1:06:37 거는 30페이지 좀 봐 1:06:45 주세요 자 지금까지 했던 30페이지 보시면 지금까지 했던 DPR yr지지 1:06:53 플로 2라는이 시각화를 연달이어서 특성을 제 문장을 1:07:00 만들어가지고 스크립트를 만들어서 실행 결을 활용하는 겁니다 활용하려는 목적은 뭐냐면 비초 축제에 대해서 연 1:07:09 월별로 즉 월을 축으로 1:07:15 고은 매출금액을 표현할 거예요 근데 연도별로 막대 1:07:22 그래프를 분리해서 보여주게려고 하는게 의 목적입니다 자 그 문장을 한번 지금 30페이지 1:07:30 있는 거를 한번 쳐 봐서 결과치를 한번 확인을 해 주시고요 저도 한번 1:07:35 치고 설명을 드리도록 하겠습니다 1:08:03 아 한글 깨시는 분 계시나요 좀 손을 좀 들어 주시면 1:08:09 예 아 한글 깨지는 분들은 지금요 명령을 좀 때려 주시면 1:08:16 되겠습니다 교재에도 교재에도 지금 29페이지 1:08:21 밑쪽에 보시면 4번에 글 제가 표현한 1:08:26 부분이 있거든요 29페이지 쪽에 그거를 보시고 하셔도 되고요 지금 화면에 떠 1:08:33 있는 지금 명령문을 쳐 주셔도 됩니다 자요 명령문에 대해서 그러면 설명을 1:08:40 좀 드릴게요 지금 데이터 1:08:47 셋인 언리 언더바 데이터요 안에 1:08:52 이언 데이터 안에는 그중에 하나의 항을 찾아 들어갈 때는 1:08:59 달러 표시를 쓰게 돼 있어요 그래서 an 언 데이터 안에 하나의 1:09:07 항라는요 하나만 저 말씀을 드리면 언더바 데이터 안에 1:09:15 있는 어라는이 항목 하나만 utf 8로 돼 있는 걸 1:09:24 CP 해 다시 그 자리에 넣어라 이런 1:09:39 의미입니다 한글이 안 깨지고 제대로 나오신 분들도 1:09:47 있으신가요 그냥 편안하게 손만 들어 주셔도 돼요 1:09:55 요 화면을 잠깐 좀 떼워 놓을테니까 요걸 한번 보시면서 변형을 좀 시켜 1:10:01 주는 작업을 해 1:10:08 주십시오 자 요거 되신 분들은 제가 지금 sqr 언더바 스라는이 함수가 1:10:15 의미가 뭔지를 좀 설명을 드리려고 밑에 좀 토스를 먼저 만들어 놓을테니까 아 먼저 한글 깨지는 1:10:21 부분들을요 명령을 가지고 조금 맞춰 주시고요 Ah 1:11:25 예 천천히 하셔도 됩니다 예 실습은 30분 정도면 아까 저희가 1:11:31 다섯 가지 분석 방법에 대해서 한번 데이터 조이까지 해서 마무리할 수 1:11:37 있기 때문에 일단 캐릭터 셋이 일단은 깨진 부분들만 이렇게 1:11:44 맞춰주시면 됩니다 제가 조금 생각이 짧았네요이 1:11:52 문장까지 그냥 만들어서 여러분들 배포를 해서 로 할 수 있게 할 거를 1:11:57 사실 처음에 그 생각도 했다가 부나 함수를 한번 설명을 드리고 직접 쳐 1:12:03 보시는게 낫지 않을까 생각해서 그요 부분을 뺐었던 근데 막상 지금 실습을 1:12:09 해보는 과정에서 느끼는게 아 이것도 드리는게 맞서 나쁘다라는 생각이 들긴 합니다 1:12:45 아 지금 데이터 이제 tv's 읽는 명령문 날렸을 때 결 가치가 안 1:12:51 떨어지고 이렇게 하단에 빨간색으로 뭔가 이렇게 뜨는 경우가 있거든요 그거 1:12:57 지금 작업이 진행 중이라는 얘기입니다 그래서 데이터를 지금 160강 읽다 보니까 데이터베이스에서 1:13:04 바로 금방 갖고 오지 못하고 약간 좀 시간이 걸려서 읽어 오는 상황입니다 1:13:49 예 스트링가 셔 1:14:20 그다음에 1:14:34 익숙해 자 제가 이거 지금 작업이 돌고 계시는 분들도 있고 하니까 요거 1:14:39 그냥 간단한 것만 하마 설명을 드릴게요 지금 str 시키라는이 1:14:44 함수만 좀 설명을 드리려고 해요 저 함수는 스트링 R이라는 패키지 안에 1:14:51 있는 함수입니다 그래서 저 함수를 또 1:15:02 면 제가 61 라인에 친 것처럼 요런 명령을 먼저 실행을 하고 그다음에 1:15:09 이게 실행이 돼서 역시 아까 파워포인트가 올라와야 되는 것처럼요 1:15:14 스트링 아이라는 패키지라는게 뭐냐면 함수들 개별적인 함수들 묶어 놓은 걸 1:15:19 패키지라 그래요 그래서요 스트라는 키지 안에는 여러 함수들이 1:15:25 습니다 근데이 알이 정말 통계적인 분석을 하거나 1:15:32 시각화를 하거나 그다음에 데이터를 조작하는데 굉장히 훌륭한데요 불편한게 하나 있다면 이런 1:15:41 패키지들 함수들을 묶고 놓은 이런 패키지들 라이브러리라고 얘기하거든요 이게 너무 1:15:48 많습니다 그러니까 전 세계의 날고 기시는 분들이 이런 거를 만들어 1:15:53 가지고 이 1:16:00 캔가라가라 그 사이트에 올리면 거기서 이런 것들을 개발하신 분들이 1:16:06 만든게 제대로 잘 돌아가는 건지 의미가 있는 건지 검증을 해서 의미가 1:16:12 있다라고 판단이 들면 이거를 일반 사용자들이 쓸 수 있게 배포를 하는 거거든요 그래서 이런 패키지들이 여러 1:16:18 가지가 굉장히 많습니다 근데 그 많은 것들을 사실 다 기억을 하기는 못해요 1:16:25 못해 가지고 저도 구글 검색이나 어떤 패키지가 어떤 함수가 필요한데 이게 1:16:32 어떤 패키지에 있었지 기억이 안 날 때는 막 검색해서 찾아보고 패키지 이렇게 다시 로딩하고 하게 합니다 1:16:39 근데 쓰다 보니까 저 같은 경우도 15개 패키지를 넘어서 쓰지는 않아요 1:16:45 대부분 할 때 한 개이 정도의 패키지 안에서만 대부분 핸들링 하고요 그 1:16:51 정도만 하더라도 충분히 웬만한 뭐 어떤거든간에 핸딩 한데 지장은 없었던 1:16:58 것 같습니다 그리고 1:17:03 데이터를 이렇게 지금 주제를 정하고 분석하는 방법을 찾고 해보지만 사실 1:17:09 가장 그거보다 더 중요한게 있습니다 그거보다 가장 더 중요한 거는 업무 1:17:16 지식이요 저희는 이제 도메인 난리라고 얘기를 하는데 어떤 하고 계시는 업무의 1:17:23 깊이가 있을 때 누구보다도 이거를 이렇게 이렇게 분석하면 이런 의미가 나오지 않을까 1:17:30 그런 생각을 얼마든지 누구보다도 잘 하실 수 있거든요 그래서 업무에 대한 지식을 갖고 계시는게 가장 크고요 1:17:37 그다음에 그 지식 기반하에 이런 제 데이터 분석 방법을 알고 데이터 도작 1:17:44 방법을 알고 활용하면서 그동안에 못 봤던 것들을 찾아내는 거죠 1:17:59 야 저 말씀드린 것처럼 skr 스라는이 함수는 스트링 R 안에 있는 1:18:05 함수인데 제가 여기 지금 무궁 앞에 글자 스페이스게 띄우고 중간에도 막 1:18:11 스페이스 놓고 막 이렇게 해서 문장을 넣어 놓고 얘를 스케치라는 함수로 태니까 1:18:17 결과치가 앞앞에 있는 스페이스 중간에 막 몇 개씩 있던 스페이스가 하나로 1:18:23 딱 압축이 돼서 뒤는 없애버리고 중간 거는 하나로 뭉치고 요렇게 해서 1:18:29 표현하는게이 st 스케치라는 함수입니다 왜 요거를 여기 지금 1:18:34 저희가 분석하고 있는 데이터셋에 썼냐면 데이터가 지금 1:18:41 데이터베이스에 정말 깔끔한 데이터베이 데이터가 데이터베이스에 깔끔하게 1:18:46 들어가 있으면 문제가 전혀 없는데 제가 사실은 전공이 1:18:54 데이터베이스 쪽을 하다가 이제 분석으로 넘어온 케이스다 보니까 데이터베이스 튜닝이나 이런 거 많이 1:19:00 다녔거든요 그쪽을 해보면서 느끼는 거지만 정말 정말 뛰어난 큰 1:19:07 기업들도 쓰레기 데이터가 엄청 많습니다 그래서 데이터를 봤을 때 1:19:14 이런 정리 작업들을 많이 해 줘야 돼요 그러다 보니까 이런 함수들도 활용을 해서 맞춰주는 작업들이 1:19:21 필요하고요 그중에 하나가 시라는 함수를 쓴 겁니다 지금이 지금 1:19:28 서울시에서 보유하고 있는 비초 데이터이 데이터에도 한글 명칭이 앞에 1:19:33 스페이스가 붙어 있고 막 이런 것들이 있어서 그걸 없애려고 렇게 명칭을 한 1:19:39 겁니다 예 이제 그러면 한번 직접 한번 데이터를 이제 한번 1:19:45 실습을 해보겠습니다 페이지를 보시면 자 1:19:52 30페이지 먼저 한번 치고 여기에 또 이제 새로운 명령기 그니까 파라미터가 1:19:57 있기 때문에 요거에 대한 설명을 제가 먼저 치고 말씀을 드리도록 하겠습니다 1:21:09 지금 혹시 교재 보시면서 한번 쳐 보셔도 괜찮습니다 먼저 쳐 보시고요 1:21:16 제가 치고 나서는 설명을 좀 모직에 대해서 설명을 드리도록 하겠습니다 1:21:48 [음악] 1:22:23 m m 1:23:45 자 로직을 한 번만 좀 화면을 좀 봐주십시오 기존에 썼던 거하고 1:23:51 똑같습니다 저희가 d 하고 플로트를 1:23:56 쓴 겁니다 근데 약간 기능이 좀 추가됐죠 아까에서 안 봤던 기능들이 1:24:01 있는데요 우선 서머라이즈 같은 경우는 전체 금액에 합을 해놓고 너무 숫자가 1:24:07 크니까 제가 그냥 100만 단위로 나눈 것뿐인 거고요 자 여기에지지 1:24:13 플에 조금 다른 파라미터가 있습니다 자 x 축은 원로 1:24:18 잡았고요 y 축은 S 1이라는 새롭게 만든 변수의 값을 이제 같습니다 1:24:26 그다음에 박스 플을 그릴 거예요 박스 플을 그릴 거기 때문에 색상을 또 1:24:32 달리해서 그릴 거예요 아까 색상과 관련해서는 필리라 파라미터가 있고 1:24:37 컬러스 파라미터가 있다고 말씀을 드렸어요 자 컬러라는 파라미터는 1:24:42 점이나 선을 위한 파라미터입니다 색상을 근데 필리라이 파라미터는 막대 1:24:49 그래프를 그릴 때 그 막대 그래프의 색상을 넣는 파라미터에 그래서 1:24:55 를 색상으로 채울 건데 연도별로 색상을 채우라고 준 1:25:00 거예요 연도별로 색상을 취해 고요 자 그다음에의 원더바 co X 축과 Y 1:25:08 축을 정의한 상태에서의 막대 그래프 그거를의 원더로 한다고 그랬어요 막대 1:25:14 그래프는 바 그래프가 바의 원더바 bar 있고요 gom 언더바 1:25:20 히스토그램이 있고요 gom 더바이 있는 겁니다 자 근데 제가 지금 여기 포지션 1:25:27 해놓고 도지려고 줬어요 요거 잠깐 뺄게요 빼고 그래프가 어떻게 나오는지 한번 보시고 요걸 넣었을 때 어떻게 1:25:34 나오는지 보시면 1:25:48 됩니다 자 지금 GE 원더바를 막대 그래프를 그리는데 1:25:58 자 어떤 차이가 있으신지 아시겠죠 gomc a 포지션 이로 1:26:04 도지고 주게 되면 얘가 위로 지금 계속 쌓이는 거를 옆으로 1:26:11 떨어뜨려요 지금은 do 원더바에 포지션 이구로 도지라는 걸 1:26:18 뺀 상태입니다 로직을 근데 포지션 이코로 도치라 주면 이게 1:26:24 밑으로 떨어집니다 그리고 필라는 파라미터를 줬을 때 그 필에 해당되는게 색상을 1:26:32 넣기도 하지만 컬러하고 똑같이 컬러하고 똑같이 색상을 넣기도 하지만 1:26:38 요쪽에를 잡아주는 기준이 돼요 필과 1:26:43 러스가요를 잡아주는 기준이 됩니다 색상을 분하는 이유는 뭔가 1:26:51 어떤 항을 기준으로 구하려는 거잖아요 그 기준이 내에 그대로 나타나는 1:26:59 겁니다 자 g에 요번에는 다시 한번 1:27:05 볼게요 자 포지션을 넣는 상태에서 돌려 1:27:16 보겠습니다 자 넣어놓고 돌려보니까 이제 옆에 막대 그래프가 밑으로 1:27:21 떨어지는 거죠 자 이거만 봤을 때 지금 현재 데이터 자체가 10월 1:27:27 데이터 11월 데이터 12월 데이터 3개월치 밖에 없는 거예요 그리고 14년도 15년치 대한 거예요 1:27:34 그러면은 14년도에 비초 촉에 10월 11월 12월에 데이터 1:27:41 현하고 15년도에 10월 11월 12월 현황의 데이터를 이렇게 막대 1:27:47 비교를 해본 거죠게 하나의 탐색이 되는 겁니다 이것도 색말 조금 점에 탐색도 한번 1:27:55 해 1:28:06 볼게요 예 그 31 페이지를 보시면 요거는 똑같은 거기 때문에 1:28:13 설명만 하겠습니다 방금 정권은 매출 금액의 합시 있는데 요번에는 매출 1:28:18 건수의 합입니다 그러니까 차이가 딱 칼럼 하나가 바뀐다는 거밖에 없 없죠 요거는 1:28:25 똑같은 개념이기 때문에 넘어가고요 그 뒤에 거를 한번 [음악] 1:28:33 볼게요 자 32 페이지가 이제 핵심이 되겠습니다 저희가 지금까지 했던 거에 1:28:40 집대성이 있는게 여기에 있다라고 보시면 1:28:46 돼요 자 뭐냐면 업종별로 업종별로 어떤 업종이 말이 1:28:54 축제에 제일 많이 활성화돼 있는지 알려고 하는 거예요 자 1:29:00 그래서 업종별로 분류를 하니까 여기 지금 저희가 갖고 있는 데이터셋에 1:29:05 업종을 카운터를 해보니까 몇 가지 업종이 있냐면 513 종인가 업종 1:29:10 있더라고요 513 종을 축에 다 려니까 너무 큰 거예요 1:29:17 그래서 상위 20개 업종만 뽑으려고 해요 자 그러면 상위 20개 업 만 1:29:25 가려내고 20개의 업종만 관리하고 있는 데이터를 다시 1:29:30 긁어낼 거예요 세 개의 작업을 할 겁니다 첫 번째는 상위 20% 업종만 찾아낼 1:29:39 거예요 자 업종을 찾았어요 근데 원래 데이터에는 상위 20% 있는 업종만 1:29:46 있는게 아니라 모든 업종이 다 있잖아요 그래서 20위까지 있는 1:29:52 업종만 갖고 있는 데이터셋을 새로 만들 거예요 그때 이용할 때 조인이 1:29:57 걸 이용을 할 겁니다 조인을 해서 데이터를 만들어 놓고 그 만든 걸 기준으로 20개의 1:30:05 업종 배에서만 매출 금액의 현황이 어떤지를 1:30:12 연도별로 비교를 하려고 합니다 자 이게 저희가 실습 하려는 취지입니다 자 1:30:19 그러면 한 줄 한줄 한번 해 보겠습니다 32 라인에 32페이지 자 위에 있는 거부터 제가 먼저 1:30:26 로직을 좀 만들고 설명을 좀 드리도록 할게요 1:31:46 자 우선 부분 부분별로 끊어서 한번 설명을 드리겠습니다 1:31:55 자 아까 말씀드 제일 데이터 분석에서 제일 중요한 거 업무라고 했습니다 자 업무 다음에 그다음에 중요한 건 1:32:02 조이에 조작을 잘시키고 데이터셋을 잘 정리를 하고 그런 다음에 분석 모형에 1:32:07 태우면 되는 겁니다 분석 모형은 알고리즘이 다 나와 있어서 분석 모형이 무 무엇을 쓰는 분석 1:32:13 모형이지만 알면 되시는 거예요 자 우선 여기 로직을 1:32:18 볼게요의 데이터를 가지고이 데이터를 가지고 1:32:25 코드별로 매출 금액에 합수 구했습니다 여기까지가 어쨌든 업종별로 얼마만큼 1:32:33 배이 있는지를 알려고 한 거잖아요 자 한 다음에 제가 상위 1위부터 20위까지 1:32:39 뽑으려고 그래요 그러다 보니까 우선 금액을 1:32:46 기준으로 내림차순으로 하게 되면은 가장 위가 제일 큰 업종의 데이터 1:32:51 금액이 나올 거 아니에요 그래서 렌지를 한 겁니다 정렬을 그래서 1:32:56 디센딩 한 거예요 센딩을 해 놓으면 제일 위에 있는 여기까지 여기까지 1:33:03 디센딩 렌지에서 여기까지만 한 거만 하면 가장 금액이 큰게 제일 위에 1:33:08 있을 거고요 그다음에 제일 낮은 거는 제일 아래 있을 거예요 거기에 1:33:13 1위부터 20까지 뽑기 위해서 필터라는 걸 한 1:33:19 겁니다 얘는 기에요 파이프라인에 걸르고 걸르고 걸르고 걸르고 해서 1:33:25 로직이 완성이 되는 것들이에요 그래서 필터를 해 가지고 필터를 할 1:33:32 건데 순위를 번호를 먹일 거예요 1번 첫 번째 있는 데이터는 1 두 번째는 1:33:37 2 해 가지고 순번을 매겨 가지고 순번을 먹긴 거를 기준으로 1위부터 1:33:43 202 번까지만 뽑아라 렇게 한 거죠 그런 1:33:48 다음에 여기까지만 하게 되면은 모든 항목이 다 나오는 겁니다 근데 제가 1:33:54 필요한 건 업만 알면 되잖아요 그래서 업종만 셀렉트를 하자라고 해서 C 1:34:00 CD 붙인 거예요 자 파이프라인 있니다 계속 1:34:05 이어갑니다 다시 한번 갈게요 an 데이터로부터 1:34:11 업종별로 매출 금액의 합을 구한 겁니다을 1:34:17 구했어요을 구했는데을 구한 기준으로는 큰게 먼저 나올 수 있지 작은게 먼저 1:34:22 나올 수 있지라 그러다 보니까 정을 좀 할 거예요 금액별로 가장 큰 거를 제일 위로 1:34:29 하기 위해서 어렌지 정렬을 했습니다 근데 제일 큰 거를 위로 나오게 1:34:34 하려면 디센딩 정를 해야 되니까 DSC 쓴 거고요 그 정을 시켰습니다 1:34:41 자 그다음에 제일 위에 있는 거는 넘버 1 사적으로 번호를 붙일 거예요 1:34:47 그거를 로라는 걸 가지고 1 3 4 숫자를 붙어요 1:34:52 다음에 숫자까지 만 뽑으면 이제 순위가 되니까 그크 뽑기 위해서 1:34:57 필터라는 걸 가지고 필터와 비트윈으로 해서 1위부터 20일까지만 뽑은 1:35:03 겁니다 여기까지만 했을 때는 모든 항목들이 다 이제 데이터들이 나오게 되는데 그중에 언더바 CDM 뽑기 1:35:10 위해서 셀렉트를 한 겁니다 자 요거를 부분 맵을 끊어서 1:35:15 한번 볼게요 자 데이터를 로직을 짜겠다 1:35:23 보면은 에러가 나는 경우 아까도 말씀 혹 발생합니다 그때 어디가 에러가 1:35:28 났는지를 확인하는 가장 쉬운 방법은 부분별로 실행하 보는 거예요 자 지금 제가 먼저 해 1:35:34 볼게요 자 여기 지금 선라이즈가 이렇게 반전시킨 다음에 돌려서 1:35:40 정상적으로 데이터 처리가 나오면은 일단은 끝나는 1:35:46 거죠네 이렇게 나왔습니다 여기 정상적으로 나온 거예요 자 그다음에 1:35:53 얘를 어레인지까지 시켜요 정렬까지 시킬 겁니다 여기 반전시킨 다음에 역시 또 돌려면 되는 1:36:03 거겠죠 자 이렇게 정렬을 하니까 한시 10점이 제일 큰 거로 1:36:08 지금 나와 있어요 자 이거에서 1위부터 2까지만 뽑기 위해서 필터까지 붙여 가지고 다시 한번 돌려 1:36:15 보면 1:36:21 되겠죠 그랬더니 나온게 업종 명하고 금액하고 두 가지 1:36:28 항목이 나왔어요 근데 제가 필요한 건 업종 명만 알면 되잖아요 그래서 1:36:34 셀렉트라 걸 뒤에 붙여 가지고 업종 명만 뽑은 행위를 취한 1:36:40 겁니다 자 요거를 취한 거를 top 언더바 C 언더바 CD 아는 변수의 1:36:47 요거를 담은 거예요 1:36:54 자 변수에 담았습니다 그래서 to 언더바 C 1:36:59 언더에는 1위부터 20까지 20까지의 업속 명만 있어요 이제 자 그러면 1:37:07 원래 데이터에는 500 몇 건의 업종 데이터 다 있는데요 업종만 있는 거 하고만 연결 1:37:14 시켜가지고요 업종에 해당되는 데이터만 쑥 뽑아내려고 하는 거예요 그래서 인이라는 걸 하는 1:37:22 겁니다 하는 거예요 자 조인을 하는데 어떤 조인을 할 거냐 양쪽 다 같이 1:37:29 있는 데이터를 비교해서 갖고 오면 되니까 인어 조이라는 걸 할 거예요 1:37:34 자 그게 32페이지 2번이라고 표현되 있는 1:37:41 부분입니다 자 인어 조인 제가 먼저 문장을 만들고 설명을 좀 1:37:47 드리겠습니다 1:38:18 다시에 한 1:38:38 자 지금 자 아까 저희가 실습은 안 1:38:44 했지만 주인이라는게 여러 가지 있다고 말씀을 드렸어요 자 인이라는 걸 인어 조인이 양쪽에 같이 있는 데이터만 1:38:51 갖고 와라고 조인을 했습니다 데요 문장 안에는 바이라는이 부분이 좀 1:38:57 나타났어요 그리고 언더바 CD 또 뒤에도 언더바 CD 이런 항목이 1:39:03 있어요 요거를 뭐라 그러냐면 키라 그럽니다 키 요거는 1:39:30 자 저기 여기 앉아계신 선생님이나 저에 대해서 만약에 정보를 관리하는 1:39:36 시스템을 만든다 그러면 어떤 행위를 취하냐 저희 개개인들의 정보를 1:39:43 관리하는 항목들을 이제 찾는 작업들을 해요 이제 간단하게 갈게요 자 1:39:49 이름이라는 항목이 있을 거고요 그다음에 뭐 주소라는 항목 그다음에 1:39:58 전화번호 1:40:08 그다음에 주민번호도 있을 수 있고요 성별도 있을 수 있고 뭐 여러 가지 1:40:13 항목이 있겠죠 자 이런 항목들 중에 중에 저라는 1:40:21 사람을 다른 분들하고 중복이 안 되고 유일하게 절하는 사람을 대변할 수 1:40:26 있는 항목들이 있을 거예요 그러니까 이름 하나만 가지고는 저라는 사람하고 1:40:32 똑같이 사람 있는 사람이 있을 수도 있잖아요 그리고 전화번호는 물론 좀 1:40:38 다르겠죠 하지만 명확하게 전화번호로 또 제가 언제 바뀔지도 모르잖아요 1:40:44 그래서 이름하고 주소도 언제 바뀔지도 몰라요 근데 이름하고 주민번호 정도만 1:40:51 이렇게 연결을 하면 저라는 사람을 제일 유니크하게 유일하게 구분 수 있는 항목이 될 1:40:57 거란 말이에요 이런 항목을 뭐라 그러냐면 진주라고 얘기를 하는 1:41:05 거예요 근데 이런 항목으로 사람을 개개인들을 관리를 하면 너무 항목이 1:41:12 많아질 수도 있으니까 요거를이 진주를 대변할 수 1:41:19 있는 명칭을 하나 만듭니다 그게 1:41:26 고객 아이디 같은 거를 만드는 거예요 예를 들어서 회사 같은 경우는 1:41:36 번이라는게 그 사 사원을 유일하게 만드는 아이디 값으로 부여하는 거 1:41:42 이거를 가주어 아고 얘기를 해요 원래는 가주어 진주를 대변하기 1:41:48 위해서 가상으로 만든 주어다 1:41:54 데이터를 관리를 할 때는 그 데이터를 정말 유일하게 구분 수 있는 가주어 1:41:59 진주어 이런 것들이 다 있습니다 자 이런 거를 뭐라고 얘기를 하냐면 1:42:08 이거를 프라이머리 키라고 얘기를 해요 주된 키라고 용어를 1:42:14 씁니다 자 그러면 왜 바이저를 이런게 있냐면 자 1:42:22 볼게요 Ah 1:43:18 자 지금 제가 여기 지금 칠판에 1:43:23 박스들을 몇 개 그렸습니다 자 요기 지금 요런 요런 표시 있죠 요런 거 요거를 발이라고 1:43:31 표현을 하는데요 요렇게 세 가지가 있는 쪽하고 선 하나만 있는 쪽이 있어요 1:43:39 요거를 1대 m 관계라고 얘기를 해요 1:43:45 고게 홍길동이라는 고객이 세탁기라 상품을 구매할 수 1:43:52 있잖아요 자 홍길동이 1:43:59 세탁기를 구매를 했습니다 근데 2018년 1월 1일자로 구매할 수 1:44:05 있죠 자 그다음에 홍길동이 세탁기를 1:44:11 2018년 9월 1일 날도 또 계약을 할 수 있어요 자 홍길동이 한 1:44:18 사람이에요 홍길동이 계약을 여러 번 할 수 있기 때문에 1대 의 관계가 되는 1:44:24 거예요 상품도 중복이 없어요 근데 홍길동에 말고 또 다른 사람들도 상품 1:44:30 살 수 있잖아요 세탁기 그래서 1대 m 관계가 되는 거예요 자 요렇게 1:44:36 만들어진 요런 거를 키라고 얘기를 합니다 요런 거를 그러면 요쪽에 있는 1:44:43 데이터와 요쪽에 있는 데이터를 연결을 하려면이 키를 기준으로 연결을 해야 1:44:49 되거든요 그게 저기의 바이에 1:44:55 인이라는 걸 할 때는 값들을 가지고 연결을 해 줘야 되거든요 홍길동이라는 고객이 상품을 1:45:03 세 개를 샀다 그러면 1 * 3 해가지고 세 것만 나와야 1:45:09 되는데 홍길 고개가 이하고 고개가 이하고 딱 연결하면 세건이 1:45:14 나와요 근데 고명하고 여기에 만약에 고명이 1:45:20 있다 그러면 세이 몇 올지 몰라요 왜냐면 중복 있는 고객들도 있을 수가 1:45:27 있으니까 그래서 데이터 인이라는 것 저렇게 인어 조인 세미조인 아웃조인 1:45:33 뭐 이런 거 할 때 데이터를 연결을 할 때는 데이터를 유일하게 분할 수 1:45:39 있는 키를 가지고 연결 하는 거거든요 그 키 1:45:44 항목이 an 언더바 데이터에는 C 였기 때문에 1:45:51 또는 에도 언더바 CD 항목이 요렇게만 연결하면 건수 곱하기 1:45:59 건수만큼 딱 나오기 때문에 1대의 관계이기 때문에 왜 top 언더바 C 1:46:04 언더바 CD 아까 1위부터 20위까지 항공만 있잖아요 중복이 없단 말이죠 1:46:10 1대 1대의 관계인 거예요 1대 m 그래서 두 개를 조인을 하는데 1:46:18 연결을 시키는데 어떤 항목으로 연결을 해라고 정의를 해주는 1:46:24 부분이요 부분입니다 즉 키하고 키를 연결해 1:46:29 주는 부분이에요 두 데이터의 셋에 대해서 연결 할 때 이런 인이라는 기법을 1:46:36 쓰는데 인이라는 기법을 쓸 때 어떤 항목과 어떤 항목을 연결해 줘 정의를 1:46:42 해야 되거든요 그 항목을 정의할 때 바이라는 걸 쓰고요 1:46:49 그다음에이라는 거는 벡터의 용어입니다 그냥 C 이런 이런 거를 연결할 때 항상 C 1:46:55 용어를 쓰는 거예요 그냥 기본으로 앞에 있는 top 언더바 C 언더바 CD 1:47:01 데이터셋에 언더바 CD 있으니까이 항목 하고 뒤에 있는 1:47:08 데이터셋에 아 요거죠 Cop 아 요요요 항목 an1 언더바 데이터에 1:47:15 C 언더바 CD 항목 하고 그다음에 topc 언더바 CD요 항목에 1:47:21 데이터셋에 언더바 CD 둘리를 연결을 해서 찾아 줘라고 한 거예요인 조인을 1:47:29 자 그래서 20에 해당되는 데이터만 싹 다시 원천 데이터에서 부분 데이터로 뽑아낸 겁니다 뽑아낸 1:47:37 결과치를요 변수에 그냥 다시 담은 거예요 자 조 변수까지 이제 1:47:45 담아냈으면 마지막으로 이제 해야 될 거는 자 저 3번이죠 시각화를 하는 1:47:51 작업을 하면는 자 1:47:57 시화를 3번 교재를 좀 봐주세요 어떻게 했는지 한번 요거는 설명만 좀 1:48:03 드리겠습니다 똑같습니다 자 to 언더바 C 1:48:08 언더에서 그룹을 잡는데 x 축에는 업종 코드를 잡았습니다 자 y 축에는 워를 1:48:17 잡았어요 아 그룹바이 하는데 c c 종하고 하 연을 기준으로 해서 그룹 1:48:24 바이를 했어요 세계 항목별로 해서 매출 금액에 합을 구한 1:48:30 겁니다 자 다시 말씀드릴게요 업종 명하고 업종이 월 월별로 얼마만큼 1:48:39 사용을 했는지 알기 위해서 그룹 바이를 한 거예요 그 항목으로 썸을 한 겁니다 썸을 한 1:48:46 다음에 어렌지 여기 굳이 안 들어가도 될 거 같은데 제가 지금 표현을 해놨네요 자 그런 다음에 플 해서 1:48:53 시각화를 축에는 업종을 20 까지를 나열을 1:48:58 했어요 그다음에 축은 금액을 표현하면 되겠죠 숫자 1:49:04 데이니까 그다음에 월별로 좀 분해서 표현하려고 색상을 구해서 표현하려고 1:49:11 필라는 명령을 쓴 겁니다 거기에 테스트라고 이렇게 돼 1:49:17 있는 거 있죠 거는 아에서 원래 기본적으로 제공하는 함 데 뭔지 한번 잠깐만 1:49:38 볼게요 제가 지금 요런 문장을 1:49:46 날렸습니다 개별적으로 요거 하나의 벡터 그요 요것도 벡터 요것도 벡터에 1:49:53 개별적인 벡터를 패스트 제로 하니까 하나로 묶어 버린 거예요요 차입니다이 1:50:05 함수예제 데이터가 연월 떨어져 있는데 요거를 묶어서 그냥 1:50:13 표현하려고 그 세 번째 줄에 필라는 부분에 그 명령을 집어넣은 1:50:19 겁니다 자 그런 다음에 막대 그래프를 go 원더바로 한 1:50:25 것뿐이에요 거기에 포지션은 도지로 줬으니까 위로 1:50:31 쌓지 않고 옆으로 떨어뜨렸 있죠 그렇게 표현된 거고요 랩스는 걸 1:50:36 통해서 X 축 y 축 명칭들을 바꿔 준 겁니다 자 그렇게 해서 나온 시각화가 1:50:43 32페이지 있는 시각화 그요 아 지금 제가 사실 대별 다 1:50:49 해보고 싶은데 시간이 좀 그래서 마지막으로 하나만 해보고 똑같은 방식인데까지만 해보고 조금 시간이 1:50:55 넘더라도 요거까지만 좀 해봤으면 해서 하나만 더 해보고 시각화의 의미를 1:51:00 하나만 더 해보고 오늘은 마무리를 좀 하도록 하겠습니다 35페이지 좀 1:51:06 봐주실래요 1:51:15 자 35 밑쪽을 좀 봐주시면 선 그래프를 그리는 1:51:21 거거든요 는 데이터의 특성을 파악하는데 막대 그래프보기 1:51:27 씁니다 그래서 선 그래프를 좀 그리는 작업을 할 1:51:32 건데요 여기서 포인트가 있어서 제가 이거를 설명을 드리려고 1:51:37 그래요 선 그래프라는이 관점은 축이 시간의 흐름이나 크기의 순서가 1:51:46 있는 거 잡아줘야 돼요 근데 저희 데이터에는 간의 흐름이라는 1:51:54 부분들을 지금 뭐 연 월도 있지만 1:52:06 [음악] 1:52:18 요거를 자 저희가 지금 실습하는 데이터에는 1:52:25 2014년 10월 11월 12월 데이터가 있고요 1:52:31 2015년 10월 11월 12월 이렇게 있다고 할게요 자 얘가 분명히 1:52:37 시간의 흐름이에요 자 이거를 선으로 1:52:43 그리면 2014년 10월 11월 1:52:49 12월 2015년 10월 11월 12월 이렇게 나올 거예요 근데 제가 그리 1:52:57 지금 자료에 있는 거는 14년고 1:53:13 15년을 요렇게 표현하려고 하는 거예요 그래야지 비교를 할 수 1:53:19 있으니까요 그래서 요 데이터가 원래 시간의 1:53:25 흐름인데 새로운 시간의 흐름의 기준을 먼저 만들고 이거를 그리려고 하는 거예요 그걸 어떻게 1:53:32 만드느냐 지금 자료를 보시면 1:53:50 2014년도에 자 요렇게 데이터가 있는 1:53:55 2014년도에 10월을 1 11월 2 12월을 3 렇게 만들고요 1:54:02 15년도 1 2 3을 만들면 축을 얘로 1:54:10 잡고 y 축을 금액으로 하고 필 필이나 라인 컬러를 연도로 1:54:19 잡으면 이게 겹쳐서 나오는 형태가 되는 1:54:25 거예요 이렇게 해야 연도의 별로 추위에 대한 비교를 할 수가 1:54:32 있거든요 근데요 형태의 데이터만 갖고는 표현하기 어려우니 강제로 1:54:39 시간의 흐름 또는 크기의 순서가 있는 거를 만드는 거예요 그래 1:54:44 최종적인 저희가 데이터 조작부터 시각화 1:54:51 탐색이라는든 을 집대성한 부분이 일단은 35페이지 밑에 부분이라요 1:54:58 부분을 실습을 해보도록 해 보겠습니다 예 제가 먼저 저도 한번 1:55:04 쳐 보고요 쳐보고 설명을 드릴게요 1:55:30 C 1:55:52 C 1:56:52 m 1:57:38 네 지금 예 지금 저의 화면은 지금 포 1:57:43 저 화면을 보시면 요렇게 지금 현재 라인 그래프를 그린 겁니다 자 요렇게 1:57:50 라인 그래프가 나온 배경에 대해서 로직을 한번 보고 설명을 1:58:08 드릴게요 자 우선 to 언더바 C 언더바 CD 어 데이터를 머리를 할 거예요 1:58:16 머리를 할 건데 어 제가 조금 굳이 중간에 안해도 되는 머리를 좀 거 1:58:22 같은 느낌이 좀 있네요 여기 그룹 바부터 여기 여기 타임으로 한번 선 1:58:30 머리를 안 해도 되는데 굳이 한 거 같아요 그 요거 여기 밑에 다시 또 그냥 타임 1:58:37 없는 상태에서 선 머리를 또 했는데 요거 굳이 안 해도 되는 거를 했 두 번 좀 선 머리가 들어간 거 같아요 1:58:43 요건 제가 실수인 거 같고요 그래서 to 언더바 C 언더바 시로부터 연 1:58:52 월별로 먼저 데이터 값을 구한 다음에 구한 다음에 이제이 연 월로 연월 기준으로 1:59:02 아까 말한 노 넘버를 붙이는 거예요 그래서 1 2 3 1 2 3을 붙인 겁니다 뮤티 해 가지고 자 붙인 1:59:11 다음에 데이터를 조금 보기 편하기 위해서 연도별로 이제 정렬을 한번 해 1:59:16 준 거예요 정렬을 하고 시각화를 하는데 X 축에는 14년도에 1 2 1:59:23 3이 있고 15년에도 1 2 3이 있으니까 x 축의 기준은 마치는데 동일하니까 x 축을 RN 숫자 넘버 1:59:31 부여한 거로 한 거고요 그다음에 y 축은 금액의 하 1:59:37 그다음에 색상을 구분하기 위해서 라인 그래프는 컬러를 쓴다 그랬어요 그래서 1:59:43 컬러로 해 가지고 연 월과 붙여서 같이 표현하기만 해줘라 이렇게 한 거 1:59:49 패스트 아까 제로 그걸 한 거고요 그다음에 시각화에 선 그래프를 그릴 1:59:55 거기 때문에 g 라인으로 해서 표현한게 이제 이쪽 시각화의 결과치가 2:00:06 되겠죠 자 그래서이 시각화가 나온 거고 아까 패스트 제로 해 가지고 연 2:00:13 연도 그다음에 한글로 연자를 같이 붙이게 하고 그다음에 12월 11월 2:00:19 12월이 있으니까 그거를 같이 이렇게 묶어서 색상별로 해라 이렇게 정의를 2:00:26 한겁니다 그렇게 해서 추위를 비교를 해봤더니 2:00:31 10년하고 14고 15년 비슷한 추위가 나온다는 거는 그 확인을 해본 2:00:38 거죠 여기까지가 우선 모든 정형데이터 분석기법은 다 아니지만 2:00:45 우선적으로 제가 이드 2:00:50 교는 맞춰서 제가 신경 써서 한번 해 본 거기 때문에 저거는 한 번씩 보시면서 다른 데이터셋이 만들어진다 2:00:58 하더라도 실습을 해 보시는데 지장은 없으실 거예요 조기 함수들을 가지고 잠깐 데이터 명칭만 바꾸면 되니까 2:01:05 그렇게 해서 익히시면 충분히 데이터 조장하고 시각화 부분은 2:01:10 어느 정도 쫓아오질 거라고 확신은 듭니다 또 한 가지 여기서 좀 더 갖추시면 좋은게 아이라는 부분은 2:01:18 기본적으로 다뤄야 될 몇 가지 기능들이 좀 있습니다 그거에 대한 기초 교육만 한번 더 받으시면 어 2:01:25 제가 볼 때는 어느 정도 조작 부분들은 금방 좀 쫓아오질 거라고 생각이 듭니다 예 정형 데이터 2:01:31 관점에서는이 정도로 수업을 끝내고 다다음 주에 또 뵙게 되면 다다음 주에는 정형 데이터 설명드렸던 일부 2:01:40 부분들을 또 다시 설명을 하는 부분이 앞에 있거든요 시각화 부분하고 2:01:45 그다음에 dyr 스트링 R이라는이 함수 패키지 2:01:50 그다음에 주식이라는 어떤 이런 기법들이 몇 가지가 더 있는데 어 2:01:56 텍스트 된 분석하는 쪽에 또 오늘 오신 분들이 오시게 되면이어서 2:02:01 들으면은 또 오히려 또 좋 효과가 또 나올 수도 있기 때문에 기회가 되면 뵙고 자세히 한번 설명을 또 드리도록 2:02:07 하겠습니다 예 먼데까지 와셔 들어 주셔 감사하고요 예 수업 뵙도록 하겠습니다 감사합니다 2:02:14 [음악]

214 2019.10.01

정형 · 비정형데이터 R 기초분석 1차 (1)

○ 교 육 명 : [서울시 빅데이터캠퍼스 정형 · 비정형데이터 R 기초분석 교육]   빅데이터캠퍼스에서 빅데이터에 관심있으신 기초 분석가들을 위하여 정형데이터(축제 분석 데이터 활용)와 비정형 데이터(민원 데이터 활용)를 분석 개요부터 데이터의 이해 및 분석실습과정을 연계 교육으로 8월 23일과 9월 6일 각 4시간에 걸쳐 아래와 같은 교육과정으로 실시하였습니다. 앞으로도 빅데이터캠퍼스의 데이터분석 교육의 많은 관심과 신청 바랍니다. 감사합니다.   ○ 교육과정 교육 과정 내용 1차 정형 데이터 기초분석 교육 데이터 분석 개요 데이터 조작 및 기초 탐색 이해 데이터 시각화 이해 축제 분석 실습 2차 비정형 데이터 기초분석 교육 Text 분석 개요 Text 분석 수행 방법 Text 데이터 조작 방법 이해 민원 데이터 분석 실습   [정형 ·비정형데이터 R 기초분석 교육 교안 다운로드] (스크립트) 0:00 [음악] 0:11 수업을 하게 된 상이라고 합니다 0:16 반갑습니다 일단 저희 빅데이터 캠퍼스에서 보통 이제 그 입주자분들 0:21 대상으로 이렇게 교육을 하는데 어 지금 오늘 이제 3회차입니다 사실은 3회차인데 1회 0:28 차하고 2회차 때가 학생분들이 사실 많이 오셔요 근데 오늘은 지금 직장에 0:34 계시는 분들이 많이 오신 거 같아서 일단 좀 다른 느낌이 들기도 0:40 하는데요 아 일단 지금 그 오늘 수업할 내용이 뭔지를 이제 일단 0:46 사전에 알고 오셨을 거라고 생각이 들긴 하는데 명확한 건 또 여기 계시는 0:52 분들이이 데이터 분석 관련된 일을 하시는 분도 있으실 수도 있고 아니면 0:57 이쪽 분야에 지금 처음 이제 한번 이게 무엇인가 궁금해서 오신 분이 있지 않을까 생각이 1:04 듭니다 제가 이제 사실은 이쪽 분야에 몸을 담은지는 한 12년 정도 1:10 됐는데요 사실 뭐 그렇다고 해서 제가 뭐 많이 하는 건 아닙니다 먼저 그냥 좀 선행으로 이쪽 분야를 먼저 1:18 뛰어들었다는게 좀 오늘이 자리에게 된 계기인 거 같고요 일단 지금 1:23 처음하시는 분들도 실 거고 해보신 분도 1:28 있겠지만 부터 많이 아시는 분들까지도 제가 한번 좀 다 수용할 수 있도록 1:36 데이터 분석이라는 부분을 정관점 비정형 관점으로 해서 한번 오늘 1:42 시간이라는 시간 동안에 정형 데이터에 대해서 분석만 먼저 진행을 좀 해보도록 1:49 하겠습니다 참고로 일단은 지금 여러분들이 갖고 계신 교제는 어 나중이라도 일단 쫓 수 1:58 있도록 제가 좀 하나하나 넘겨보면서 쫓 되는 분들이고 2:05 처음에 앞부분에는 데이터 분석에 대한 접근 방식을 제가 이제 하는 방식을 좀 표현을 해놓은 겁니다 그래서 2:12 데이터 분석이라는게 어떻게 시작을 하고 어떤 식으로 접근하는게 가장 효율적인가 그다음에 데이터 분석에 2:18 대한 방법론은 어떤 식으로 진행하는게 효과적인가를 제가 나름대로 표현해본 부분이기 2:24 때문에 앞부분에 대해서는 아 이런 식으로 하면 되겠구나라는 개정 이해를 2:29 면 좋을 것 같습니다 고게 끝난 뒷부분부터 실제적으로 실습을 해보면서 2:35 제가 좀 최대한 설명을 드릴 수 있는 부분들은 어 자세하게 한번 설명을 드려 보도록 하겠습니다 3:00 아부 시작을 해 보겠습니다 처음에 이제 인프로 3:06 부분인데요 혹시 이영화 보셨는지 모르겠네요 뭐 사실 데이터 분석 3:11 이렇게 처음에 누군가가 설명을 할 때 뭐 영화 타이틀이 라든지 아니면 분석 3:17 사례나 이런 데이터들을 가지고 이제 많이 설명들을 하는데 저도 사실 좀 세 가지의 맥락에 대해서는 런 자료를 3:24 좀 준비를 했습니다 우선 머니보이 영화인데요 이거 보신 분들도 있고 3:30 분도 있 것 같은데 주연이 브레드피트이 영화가 이제 3:36 2014년도에 만들어진 영화인데 2010년도에 그 EMC 그 3:44 하드웨어를 취급하는 세계적인 회사죠 EMC 부회장이 한국에 한번 내방을 3:49 한 적이 있었어요 근데 그분이 한국에 와가지고 첫 번째로 한 말이 왜을 안 쓰냐 한국은 그리고 3:58 니라는 영화 얘기를 했었습니다 그 EMC 부회장이 했던 그 머니볼 지금 4:04 여러분이 앞에 보고 계시는이 화면에 영화입니다이 영화가 이제 실질적으로 4:10 있었던 사례고 뭐 여기 줄거리를 잠깐 보시면 브리드 피트가 정말 최하위 9단의 그 4:20 구단주에 근데 매번 이제 메이저리 나갈 때마다를 하고를 하고 4:25 있는데 브레드피트가 다른 팀에서 정말 선수를 스카우트하기 4:31 위해서 여러 팀들을 돌아다니다가 그 경영학을 전공한 4:37 사람을 한 사람이 만나는데 그 경영학 전공자가 데이터를 분석을 해가지고 4:44 선수들을 어떻게 정하면 승률을 높일 수 있는지 그런 거를 취급하는 경도가 있었어요 그 4:52 경영 학도를 만나면서 리피가 데이터를 분석을 해서 야구 게임을 할 때 선수을 할 수을 을 5:00 하던 중에 그 경영학도 한번 나랑 한번 손을 5:05 맞춰서 내가 이끌고 있는 9단을 한번 키워 보자라고 지을 합니다 그러면서 5:11 그 경영가 참여를 하면서 선수들을 이제 분석을 해 가지고 시합에 5:16 내보내게 되는데 근데 그냥 단순히 내보내는게 아니라 다른 구단에서 막 쫓겨 놨던 선수들 정말 나이도 많고 5:25 그다음에 또 바른 빠른데 치지를 못하고 이런 선수들을 가 영이를 해요 5:31 그런 선수들로 구성을 해 가지고 메이저리그에 실질적으로 이제 참여를 5:36 하게 되는데 그때부터 이제 시작이 돼서 메이저 리그에서 지금 역사적인 기록을 몇 번 세운 케이스가이 머니 5:44 모라 영화입니다 여기서 가장 핵심이 이제 스포츠 과학이라는게 여기서 5:50 탄생을 했고요 데이터 분석을 통해서도 이런게 가능하다라는 첫 번째 이제 사례죠 6:01 어 또 하나 영화 말씀드릴게요이 영화는 또 보셨는지 6:07 모르겠는데이 남자가 이제 그 닥터 스레인 증가라는 주연을 맡은 배우입니다 6:13 근데이 남자가 젊었을 때 사진인데 그 이미테이션 게임이라는 6:18 용어를 아시는 분도 좀 있으실 것 같아요 원래 이제 이미테이션 게임은 6:24 두 개의 방에다가 방을 만들어 놓고 한쪽에는 사람이 들어가 있고 한쪽에는 6:30 컴퓨터를 갖다 놓는 거예요 그래놓고 방 밖에서 무슨 새로운 문제를 내요 6:36 문제를 내는데 그 문제에 대해서 컴퓨터가 답을 하는 경우와 사람이 답을 하는 경우 이거를 제 3자가 6:45 마칠 수 있느냐 없느냐를 확인하는 게임이 원래 이미테이션 게임이에요 근데이 영화 속에 이미테이션 게임이란 6:52 제목은 이게 이제 2차 세계 대전 때 실질적으로 있었던 사례 영화입니다 2차 세계 대전 때 6:59 독일군이 암호를 만드는데이 타자기 같은 거를 거 7:05 타자기 안에다 알고리즘을 심어서 누군가가 글을 입력을 하면 이게 암호화가 되는 거예요 근데이 암호화 7:12 되는 거를 연권 입장에서는 빨리빨리 풀어 가지고 대응 전략을 세워야 되는데 이거를 풀 수 있는 사람이 7:19 없었던 거죠 그래서이 영화 속에 이제 주인공으로 나오는 런 튜닝이라는 7:25 사람이 어 살가 세계적으로 제일 젊은 박사라고 7:31 하는 거 같더라고요 수학자 하는데 그 앨런 님이라 7:36 사람이이 독일군의 암호를 자기가 풀 수 있는 방법이 있다 하면서 이제 그 연합군의 기지를 찾아가서 암호를 풀 7:44 수 있는 기계를 만들기 시작을 해요 그 기계를 만들어 놓고 독일군의 7:50 암호를 가지고 학습을 시켜서이 암호를 해독을 해가지고 독일군들이 실제적으로 7:55 전략이 무엇인지를 거꾸로 끄집어내는 그런 를 만드는데 그 기계가 제가 개인적으로 8:02 생각할 때는 이게 멋있는 시작이 아닐까 이런 생각이 좀 듭니다 한번 8:07 기회가 되시면이 게임을 한번 영화 재밌 재밌는 영화거든요 이미테이션 8:13 게임이라는 영화를 한번 꼭 보시기 바라고 그다음에이 엘런 튜닝이라는이 학자의 이름을 따서 우리 노벨 문학상 8:20 뭐 이런 것도 있는 것처럼 it 관련된 노벨상을 앨런 트니 상이라고 만듭니다 그만큼 이제 유명한 학자라고 8:28 하네요 8:34 자 마지막 사례 하나만 설명드리고 본격적으로 진행을 하겠습니다 아 8:41 프랑스에서는 와인에 대해서 이제 그 매거진을 이렇게 출판을 하고 있는데요 8:46 프랑스에서 정말 유명한 와인이 두 가지가 있대요 보르도 와인이라는 거 하고 뭐 8:53 부노 와인이라는게 있는데이 와인이 8:58 전세계적으로 말 그 최고의 유라 평가를 받고 있을 시기에 어 아센 9:04 필터라는 사람이 해당 특정한 연도에 그 연도의 9:11 강우량이나 기온이나 그다음에 강수량 이런 거를 가지고 와인의 맛을 평가할 9:17 수 있는 제일 위쪽에 있는 와인의 품질이라는 저는 방정식을 만들었어요 저 방정식을 만들어 9:25 놓고 앞으로 와인이 오크통에 담기기도 전인데도 이 도에 생되는 인은으로 최고의 맛이 9:33 될 거야이 예을 해본 겁니다 처음에 아필 사람이 이런 걸 만들어서 9:39 메거진에 기보를 했는데 인이라는 걸 하는 9:44 사들이이 아필 사람의 말에 대해서 굉장히을 많이 했어요 말도 안되는 9:50 소리를 한다 인이라는 거는 통에 담아놓고 정한 시이 지난다음에 9:59 와인이 최고의 맛인데 아닌 판단할 수 있는데 담아보기도 전에 어떻게 그거를 10:04 네가 만드냐 뭐 이런 얘기를 했던 거죠 그러면서이 아선 펠트라이트 10:12 받았어요 근데이 아선 펠트는 사람이 얘기했던 와인 그게 시간이 흐르면서 10:19 흐르면서 정말 와인 맛을 시험할 수 있는 시기가 됐을 때 과거에 10:24 훌륭하다고 평가했던 와인보다 더 맛이 뛰어난 걸 결론들이 나왔습니다 그래서 최고의 또 데이터 분석 사례 10:31 중에 하나가 지금 첫 번째 줄에 보이는 저 방정식 사실이 10:37 방정식 어 아시는 분들도 있겠지만 회기 분석이라는 이론을 통해서 그냥 데이터를 놓고 돌리면 저런 공식이 10:45 나옵니다 저희가 이제 그 정형 데이터라는 걸 분석하는 거는 사실 관점에 따라서 좀 있다 한 보시게 10:51 되겠지만 예측 모델을 만든다 할 때 이런 방정식 금방 나와요 그래서 10:57 데이터 분석 그러면 어려운 작업이다 이런 생각 안 하셔도 되고 한번 관점에 따라서 좀 다르겠지만 조금만 11:05 시간 투자하셔서 조금 더 깊이 공부하시면 충분히 할 수 있는 분야라고 확신을 드릴 수 11:13 [음악] 11:20 있습니다 자 이제부터 본격적으로 저희가 이제 본 수업에 들어가보도록 11:25 하겠습니다 아 오늘 수은 정데이터서 는 내용으로 진행을 할 거고요 어 11:32 제가 이제 2주 뒤에 2주 뒤 금요일 오늘 같은 시간대에 비정형 데이터에 11:37 분석하는 거 또 한번 설명을 드릴 겁니다 우선 데이터 분석 경영 데이터 11:43 먼저 하나씩 보도록 하겠습니다 11:48 오늘 진행할 내용은 지금 앞에 보이시 것처럼네 가지로 진행을 할 건데 11:53 저희가 수업을 이제 4시간을 진행하면서 중간에 쉬는 타임이 없으면 안 되니까 번에 잠깐 쉬는 타임을 좀 12:00 갖도록 할게요 갖도록 하는데이 진행되는 상황에 따라서 어느 시간대 12:05 쉬는게 좋은지 제가 그 다시 한번 말씀을 12:12 드리겠습니다 자요 맵 장만 이제 개호 부분인데요 일단 지금 갖고 계시는 12:18 교재 페이지를 넘겨 가시면서 같이 보시면 더 좋을 것 같기도 합니다 데이터 분석 그러면 가장 먼저 12:26 떠오르는 단어가 예측 모델이에요 대부분이 뭐 데이터를 분석해 달라 12:31 뭐하다 보면 뭔가 데이터를 가지고 앞으로 일어날 수 있는 일에 대해서 12:36 알고 싶은게 제일 많이 접근하는 분석 방법입니다 근데 사실 예측 모델만 12:43 데이터 분석이 사실 그건 아니거든요 지금 이제 제가 앞단에 여기 기술한 왼쪽에 있는 기술요약 12:50 관점 그다음에 데이터 추론 관점 이게 사실 두 가지로 눠서 볼 수 있습니다 데이터를 분석하는이가 그 13:00 된거 그러다 보면 인사이트를 찾는데 어느 관점에서 그 인사이트를 찾을 13:06 건가 그것도 정의가 필요하기도 하고요 그러다 보니까 데이터 분석 그러면 13:11 예측의 모델만이 아니라 기술 관점에서도 접근하는게 데이터 석 한 13:16 축이다 좀 생각하시면 될 거 같고요 그 기술이라는 건 뭔가 한번 간단하게 13:23 써 있는 요술은 13:28 상을 진짜 요약을 하고 특징을 뽑아내는 작업입니다 그 특징을 뽑는데 13:33 그럼 어떤 특징을 뽑을 거냐 일반적으로 통계에서 용어들 많이 쓰죠 13:38 대표 값이라는 용어 대표값 그러면은 뭐 현대 통계학의 아버지라는 사람이 13:45 평균 분산 첨도 외도 뭐 이런네 가지 용어를 썼다고 하더라고요 근데 우리가 13:51 일반적으로 익히 아는 거 평균 그다음에 데이터를 작은 거부터 큰 수대로 했을 때 가장 중앙에 있는 거 13:59 그 중앙가 그다음에 어떻게 자주 제일 많이 나오는가 최빈값 그다음에 최소가 14:05 최대값 이런 것들이 대표 값들의 유형들이 그런 것만 파악을 해도 14:11 자료에 대해서 일단 특징을 보는 겁니다 또 그거에대 조금 더 들어가서 14:16 저희 학교 다닐 때 분산 표준 편차 공식도 외우고이 의미에 대해서는 깊이 14:22 모르지만 어떻든 느기는 했습니다 근데 분산 표준 편차가 학교 다닐 때는 14:27 들고 왜 써야 되는지 사실 모르거든요 그런 부분들을 요약을 해서 한번이 개념을 14:39 데이터고속도로 14:49 요약하는 분석 방법입니다 또한 데이터는 하나의 14:54 데이터만 보는게 아니라 데이터고속도로 봐 줘야 되거든요 15:00 우리가 사는 세상 속에서는 세 가지의 관계가 있다 그러죠 상관관계 인과관계 15:07 연관관계 렇게 세 가지 관점에서 데이터하우스 15:29 이런 용어는 들어보셨을 것 같기도 하지만 회기분석 그다음에 뭐 일반화 선형 모형 이런 용어는 좀 안 들어 15:34 보실 수도 있고요 통계 전공 하셨다면 요런 용어들이 이제 익숙하실 수도 15:40 하는데 꼭 통계를 전공 안 하셨더라도 앞으로 하시면서 요런 용어들은 이제 15:45 익숙해 되실 거예요데 지금은 이제 모르신다 그래도 부담은 안 가셔도 15:50 됩니다 그다음에 좀금 더 넘어가서는 가장 요즘에 핫 이슈죠 알파고 때문에 15:56 유명해진 머신러닝이나 딥러닝 뭐 이런 부분들이 예측에 관련된 16:02 모형으로 많이 쓰는 데이터 분석의 한축을 또 이루고 있는 16:14 부분입니다 이제부터가 이제 어쩌면 그 실질적으로 현업으로 돌아가셨을 때 16:21 또 개개인 여기 계신 선생님들이 본업으로 돌아가셨을 때 여기서부터 16:26 이제 고민하셔야 될 부분이 아닌가 좀 생각이 드는데 제가이 장표를 만들면서 저도 사실이 16:34 방법이 맞다고는 말씀을 못드리지만 막연했던 형태보다는 요렇게 접근하면 16:39 좀 부가 풀리는게 있어서 렇게 좀 표현을 좀 자료를 만들었습니다 16:46 우선 좌측부터 좀 볼게요 좌측에 보시면 여기 지금 16:52 서울시 빅데이터 스라는는 데이터 장입니다 수많은 데이터들을 보유하고 16:57 있는데요 지금 데이터 명이라고 정의돼 있는 지금 이렇게 나열돼 있는 항목들을 개별적으로 이렇게 보시면 17:05 나름대로 이렇게 묶을 수 있는 항목들이 좀 있어요 그거를 우측에 좀 한번 표현을 해 본 겁니다 데이터 17:12 데블 유형 해 가지고 부동산에 관련된 건 부동산이라고 명칭을 좀 묶어서 표현을 해봤고요 그다음에 교통에 17:19 관련된 건 어 교통에 관련된 데이터들이 어디 있는지 한번 표현을 해 본 거예요 17:25 요렇게 원시 데이터들은 이렇게 있는데요 데이터들을 나름대로 이렇게 17:31 대분류 카테고리로 한번 묶어 놓고 요거를 요렇게 우측에 한번 표현을 해 17:37 본 거예요 자 부동산도 있고 교통도 있고 교통 시설도 있고 유동인구 카드 17:44 소독 이런 데이터들 셋트에 있는데 이것들을 가지고 뭐를 묶으면 17:50 어떤 거를 한번 찾아볼 수 있을까 그런 주제를 이제 첫 번째로 생각해야 되는 작업이 데이터 분석 주제를 17:57 선정하는 방법입니다 그 영화나 이런데 많이 보면은 수사하는 분들이 벽에다가 범죄 18:07 사진도 놓고 그다음에 뭐 포스트 있으로 명칭도 사람 이름도 쓰고 막 18:12 선도 긋고 막 이러잖아요 데이터 분석이라는 거는 첫 번째로 그 작업부터 시작을 해야 되겠죠 내가 18:18 무엇인가를 분석을 하려면 분석 주제를 정하는게 필요합니다 분석 주제를 18:24 접근하는 방식은 제가 경험이 있어서 많이 한다 잘한다 이게 아니고 여기 18:29 앞에 계시는 선생님들이 더 잘하실 수도 있어요 그거는 창의적인 생각에 많이 집중되기 때문에 그런 분석 18:36 주제를 접근하는 방식을 막연하게 그냥 데이터 셋만 보고 접근해서는 잘 안 보이니 요렇게 요약을 해서 붙여 놓고 18:47 붙여 놓은 상태에서 잠깐 떨어져 가지고요 데이터세트를 보게 되면 주제를 접근하기 쉽지 않을까 그래서 18:54 저는 요런 방식으로 좀 주제 선정할 때 활용을 합니다 19:03 자 그러면 주제가 선정이 됐습니다 그 주제가 선정이 됐으면 본격적으로 이제 19:09 데이터 분석을 들어가야 되는데요 장표가 지금 눈에 딱 보시기에 굉장히 복잡해 보이실 수도 19:16 있어요 근데 큰 그림만 말씀을 드리겠습니다 어 제가 지금 나름대로 19:23 여기 센마 막 이렇게 저는 읽고 있는데요 요거는 데이터 분석 일반적인 19:28 방법 에요 근데요 방법론 말고 다른 방법론도 여러 가지가 있습니다 근데 19:34 수행하는 절차 부분들은 비슷해요 첫 번째로 제일 저 앞단에 19:40 있죠 주제 정의및 데이터 수집입니다 바로 앞장에서 우리가 무엇을 주제로 19:48 분석할 건가를 정의를 하고 나면 그 주제에 맞는 데이터들이 정말 있는지부터 이제 확인을 해야 되잖아요 19:55 그러면 주제에 맞는 데이터들을 수집을 해야 되는데 보유하고 있는 데이터 관점에서 모든 주제를 하는데 충분히 20:03 데이터량이 되거나 데이터가 다양하다면 상관이 없죠 하지만 그렇지 않을 경우가 또 태광 이거든요 그럴 경우에 20:11 예를 들어서 외부에 있는 데이터를 사오기도 하거나 아니면 뭔가를 20:16 만들어서 소셜 같은 데이터 같은 경우에는 크롤링이 솔루션을 만들어 20:22 만들거나 아니면 오픈소스로 있는 크롤링 솔루션을 구입 받아가지고 페이스북 이나 트위터나 20:29 이런 거에 데이터를 긁고 올 수 있거든요 그 그래 가지고 또 하나의 데이터를 수집을 하는 작업들을 하죠 20:35 그 데이터를 먼저 수집을 하면 그 수집된 데이터들은 아직 체계가 안 20:41 갖춰져 있는 데이터들이 그냥 막 어떤 거는 비정형 데이터 어떤 거는 정형 20:46 데이터 또 데이터도 값이 들어가 있는 경우도 있고 안 들어가 있는 경우도 20:51 있고 그다음에 어떤 데이터는 뭐 연월일 시분초 이렇게 한 덩어리로 20:57 묶여 있는 경우도 있고 또 어떤 데이터는 연월만 있기도 하고 뭐 서로 간의 규칙이 안 맞는 거죠 그런 21:03 관점에서 어 데이터는 수지까지 했는데 데이터를 그러면은 실질적으로 21:09 분석적으로 넘어가기 위해선 데이터를 잘 다듬어 작업을 해야 됩니다 그거를 21:16 이제제 데이터 모델링이라 이용을 좀 쓰기도 합니다 아 간단한 21:23 예로 영리를 추구하는 법인은 가장 상단에 세 개의 관점으로 바라보는게 21:31 필요합니다 즉 어 제가 화이트보드를 좀 써 가면서 하겠습니다 21:36 [음악] 21:46 [음악] 22:03 그 영리를 추구하는 법인은 가장 최 상단에 고객과 상품과 조직이라는 가장 22:10 핵심 데이터 유형들이 있어야 됩니다 고객은 있는데 상품이 없으면 22:15 또 무의미 하잖아요 그래서 가장이 고객과 상품과 조직이라는이 관점에서부터 데이터가 흘러갑니다 한번 22:24 볼게요 고객이 품을 구입을 합니다 그러 22:30 구입을 하게 되면은 계약이라는 행위가 이어지거든요 22:37 그러면 가장 계약서에 메인에 해당되는 계약 마스터 정보가 나오는 거죠 근데 22:44 계약을 할 때 고객이 상품을 구입을 할 때 상품을 하나 구입할 수도 있고 또 세 개 구입할 수도 있고 개도 할 22:51 수 있잖아요 근데 어쨌든 계약서 자체 맨 장에는 상품을 하든 100개를 22:59 구입을 하든 전체 썸머리 금액만 있는 거죠 그게 계약 마스터입니다 23:05 그러면 계약 마스터 밑에 또 나오는게 있겠죠 계약서의 상세한 23:13 내역이 계약 디테일이라는 정보가 이제 나올 수 있는 거죠 23:19 그다음에 계약서에이 계약이 이루지고 계약 디테일까지 나왔는데 그러면 상품을 23:26 구매를 해가지고 행위가 끝났어요 그래서 상품도 납품이까지 됐어요 근데 상품을 쓰다 보니까 상품에 또 하자가 23:33 발생을 하네요 그러면은 계약서에 있는 상품 기준으로 하자 처리를 해 줘야 23:39 되잖아 그러면 간단하게 23:45 또 상품에 대한 AS 접수 정보가 나올 수가 또 있거든요 요런 관점에서 봤을 때 23:52 데이터는 가장 최상단에 고객과 상품과 조직을 기준으로로 펼쳐지는 겁니다 23:59 뭔가 분석하는 주제를 정했으면 그 주제에 맞는 데이터들을 막 뭔가를 24:04 모아봤어요 모아봤는데 데이터들 간에는 보면은 이렇게 계층적인 계층적인 구조 체계로 충분히 24:12 나올 수도 있겠구나 생각하고 접근하는게 첫 번째로 필요합니다 그래서 그런 작업들을 데이터 모델링 24:19 즉 데이터를 담아 그을 그릇을 만드는 작업을 먼저합니다 자 그릇을 만들었으면 빈껍데기 상 24:28 이기 때문에이 그릇 만들어 놓고 수집된 데이터를 그 그릇에 제대로 옮겨 놓는 작업을 해야 되거든요 24:35 요거를 데이터 마 그레이라고 합니다 근데 우리가 일반적으로 24:40 기업이나 이런 데서 사실 데이터를 관리하는 거는 데이터베이스라는데 안에 다 저장이 돼 있거나 아니면 엑셀 24:47 파일로 정리가 돼 있거나 아니면 뭐 텍스트 파일로 돼 있다라도 나름대로 정리가 돼 있어요 그래서요 앞단의 24:55 부분들은 쉽게 갈 수도 있겠죠 뭐 뭐 그냥 그 만들고 모델링을 하거나 25:01 데이터 마이그레이션 할 필요 또 없을 수도 있습니다 하지만 일반적인 첫 번째 스타트부터 데이터 분석 방법론 25:08 쪽으로 접근을 하면 요런 행위들이 먼저 이루어지는 거죠 자 요렇게 해서 25:14 그릇까지 담았습니다 담았으면 그 그릇 속에 담겨 있는 개별적인 데이터들에 대해서 25:21 평가를 좀 해봐야 되거든요 그 평가를 이제 어떤 걸 하냐면 앞장에서 잠깐 거 처럼 기술 25:29 통계 관점에서는 대표 값들이 뭐가 있는지 그다음에 데이터들이 정말 빠져 25:35 있지 않고 잘 채워져 있는지 그다음에 데이터들 중에서 대부분들이 낮은 숫자 25:41 그니까 제품이 판매되는 수량이 두 건 세 건 다섯 건 요렇게 밖에 판매가 안 되고 있는데 어떤 특정한 항목만 25:49 갑자기 데이터 값이 뭐 만 이렇게 써 있다면 이런 만이라는 데이터가 맞는 25:55 건지 뭐 요런 것들이 있다는 걸 확인을 해야 돼 요 그거를 탐색 26:00 작업이라고 합니다 그릇에 담겨 있는 음식물이 생각을 했을 때 그 음식물이 짠지 26:09 반지 아니면 너무 싱거운지 이런 의미를 파악하는 것처럼 데이터가 26:15 그릇에 담겨 있으면 그 데이터의 속을 어떤 제이 이해하는 작업을 탐색 작업입니다 요렇게 탐색이 끝나고 나면 26:23 데이터에 대해서 더 깔끔한 작업을 수행하기 위해서 이제 정제화 모디파이 작업을 26:30 합니다 즉 데이터 값이 비어 있으면이 값을 새로운 값으로 대체를 하는 26:36 작업들 한다거나 아니면 동일한 의미의 데이터들 같은 경우에는 하나로 좀 26:41 압축을 해서 하나의 새로운 항목을 만들어 낸 되거나 뭐 이런 작업들을 하는게 데이터 모디파이 26:48 작업입니다 요렇게 모디파이 끝나고 나면 실적으로 분석 주제에 맞는 분석 26:54 모형에 태워서 정말 알 는 인사이트를 찾는데 적용하는 여러 가지 분석기법에 27:02 태우게 되는 거죠 렇게 태운 결과치에 대해서 최종적으로 평가로 이어지는게 27:09 일반적으로 데이터 분석하는 방법론이 센 말하는 방법 요거를 지금 잘 27:15 간단하게 설명을 좀 드린 겁니다 저희가 오늘 할 거는 데이터셋이 있습니다 데이터셋이 27:23 있고 저희가 그 데이터셋에 대해서 일부 모디파이 저을 마지막에 을해 27:28 되실 거고요 그다음에 실습이 된 걸 가지고 여러 다양한 이제 예측 모델이 27:34 아니라 저희는 오늘 기술 통계 관점에서 즉 기술 요약 관점에서 데이터를 어떻게 정리를 하고 그 27:41 데이터를 시바 그까지 이어지는지 그 흐름을 한번 해 볼 거예요 자 저희가 오늘 하는 거에 27:48 예측 모델을 만드는 것만 빠져 있지 나머지 과정들은 똑같이 진행된다고 보셔도 됩니다 그래서 실질적인 업무 27:56 활용에 조금이나마 좀 도움이 되실 수 있도록 한번 오늘 수업 내용을 좀 28:01 구성을 해 봤어요 자 28:08 이제부터 실질적으로 이제 키보드를 쳐 보시면서 이제 한 줄 한 줄 이렇게 28:14 이제 익혀 가시는 작업을 해야 되는데요 첫 번째로 저희는 이제 28:19 아이라는 걸 가지고 데이터를 조작하는 방법부터 좀 배울 28:24 겁니다 어 지금 데이터베이스라는 부분들을 좀 아시는 28:32 부분 분도 있으실 것 같긴 한데 일단은 전혀 모르신다고 생각하고 이제 28:38 시작을 하겠습니다 데이터베이스 데이터베이스 용어는 많이 들어보셨을 거고요 28:45 데이터베이스를 다른 말로 또 깡통이라고 하는 경우도 많이 있고요 자 그러면 깡통 속에 있는 데이터를 28:53 제가 뭔가 필요한 거를 끄집어 오려면 뭔가 명령을 줘야 필요한 데이터를 끄집어 28:59 간단하게 엑셀 시트 같은 경우 저희가 메뉴 중에 필터라는 항목을 딱 첫 29:05 번째 컬럼에 정의를 하면 그 항목을 가지고 필요한 데이터 뽑아 내잖아요 29:10 그러한 것처럼 어떤 데이터셋이 있습니다 데이터셋이 있는데 그 29:15 데이터셋을 조작을 해가지고 제가 필요한 데이터를 뽑아내려고 그래요 그때 써야 되는 29:21 언어가라는 언어입니다 SQL이라는 언어인데이 SQL이라는 언어는 원래 모든 29:29 데이터베이스에 표준 옵니다 원래 명칭은 안 SQL이라고 얘기를 29:35 합니다 이시라는 용어는 데이터베이스에서 쓰는 언어요 근데 29:43 아에서에서 SQL 같은 기능을 할 수 있는 SQL 있습니다 데이터를 조작을 29:51 하고 데이터를 가공을 하고 데이터의 특성을 파악하고 할 수 있는 그런 언어가 29:57 있어요 언어가 아에서는 dplyr이라는이 패키지 안에 들어 30:03 있는 함수를 이용하면 SQL 똑같은 언어처럼 쓸 수가 있습니다 30:10 그래서 데이터를 잘 조작을 하고 데이터에 대한 특성을 파악하고 30:15 그다음에 그거에 대해서 모디파이 작업을 하고 이런 작업이 30:20 이루어져야 정말 분석하고자 하는 주제에 맞는 모형에 태울 수가 있거든요 간단한 예로 알파한테 바을 30:29 시켰기 때문에 알파고가 바을 잘하는 거지 만약에 알파고 같은 머신에 30:35 기계에다 수학을 알려주고 싶은데 국어책 갖다가 학습시키면 수학 이해하는 거 아니잖아요 분석 주제에 30:42 맞는 내용을 뭔가 잘 예측을 하고 싶고 뭔가 알고 싶다면 그 분석 주제에 맞는 데이터를 잘 줘야 좋은 30:50 결과치가 나오게 됩니다 그러면 그 좋은 결과치를 기 위해서 좋은 30:55 데이터를 만들어줘야 되 좋 데이터를 만들고 찾아내는 작업을 할 때 제일 31:00 많이 써야 되는게요 패키지입니다 그래서요 기능들에 대해서 31:05 한 번씩 한 번씩 쫓아가면서 한번 해보도록 할게요 지금 현재 그이 페이지 지금 31:13 페이지 10페이지 요거는 지금 11페이지 요것들을 조금 더 상세하게 좀 제가 31:19 나열해서 정리한 자들이고 요거는 직으로 좀 표현 자니까 앞으로 나중에 31:26 자 이렇게 습하 할 때 명령문이 자꾸 페이지 앞뒤로 왔다 갔다 하시면서 31:33 보시기 어려우실 것 같아서 요걸 먼저 만든 거예요 그 다음 페이지는 이것들에 조금 상세하게 풀어놓은 31:39 장들이 그거라고 보시고 한 장씩 한장씩 실습을 31:45 [음악] 31:51 해보겠습니다 자 일지 11페이지 이제 시작을 하겠습니다 그리고 키보드도 31:56 이제 다 열어 [음악] 32:10 주시고요를 지금 처음 해 보시는 분들도 있으실 것 같아서 하나씩 하나씩 한 스텝 한 스텝씩 설명을 좀 32:17 드릴게요 우선 요거를 키보드로 본격적으로 치시기 전에 딱 하나만 먼저 간단하게 설명을 드리고 실습을 32:25 들어가겠습니다 자 어떤 32:37 자 요게 깡통에 데이터가 들어가 있습니다 자이 깡통에 수많은 32:42 데이터들이 들어가 있는데 여러 유형의 데이터도 있고요 자이 깡통에서 제가 32:48 필요한 데이터를 뽑고 싶어요 그때 쓰는 명령이 어떤 항목을 뽑을 건가라는 32:55 거를 정의하는 거는 셀렉트라는 명령을 합니다 저희가 지금 화면에 보이는 첫 33:01 번째 제일 위에 있는 셀렉트가 그거예요 자 어떤 항목을 뽑을 거야 그게 33:09 셀렉트이 데이터 깡통에서 고객 명칭만 갖고 와 그러면 33:15 셀렉트 고객명 이렇게 되는 거예요 이거부터 이제 하나씩 하는 겁니다 자 33:20 그다음에 셀렉트를 할 건데 고객 명칭을 셀렉트를 할 거예요 근데 어디서부터 셀렉트를 해야 될지 또 33:26 정의가 돼야 되 그러면이 프롬이라는 명령을 쓰는 데가 33:34 있습니다 지금 우선 요거는 제가 아까 방금 전에 데이터를 핸들링할 때 모든 33:41 데이터베이스에서 표준으로 쓰는 언어가 시라고 얘기를 33:52 드렸어요 자이 안시의 SQL 아래 지금 저희가 실습에서 배울이 SQL 33:57 는 연계가 굉장히 깊 그래서 이제 요거를 먼저 간단하게 말씀을 드리려고 하는 거예요 자 34:05 셀렉트 고객명을 가지고 오려고 합니다 근데 어디서부터 갖고 올 34:11 거냐 그게 제 고객 정보를 고객에 대한 정보를 34:17 갖고 있는 데이터 셋부터 갖고 오는 거죠 자 여기까지 하면은 모든 고객이 34:23 다 나오는 거예요 자 근데 일을 하다 보면은 모든 고객 34:29 정보가 다 필요한게 아니거든요 예를 들어서 연령이 20대인 사람들만 갖고 올 때도 있고 남성이 성별이 남성인 34:35 선과 가져올 때도 있고요 아니면 특정한 고객의 전화번호가 여기에 해당되는 사람만 갖고 올 때도 34:41 있습니다 그런 거를 할 때 이렇게 웨어라는 거를 줘 가지고 34:48 갖고 오기까지 하는 데이터에 필터링을 합니다 즉 34:55 웨어에 고객 명이 간단하게 이제 표현을 좀 35:01 할게요 자 이순신이라는 사람의 고객에 아 여기 지금 고객 명의 35:07 중복이 있네요 [음악] 35:13 그러면 자 35:20 전화번호가 전화번호가 010111 222 해당사는 사람에 35:26 명칭을 꾸고 싶다 할 때 렇게 쓰는 겁니다 자 고객이라는 정보를 갖고 35:34 있는 고객 정보를 갖고 있는 데이터셋에서 고객 명을 갖고 올 거예요 근데 조건은 전화번호가 0 35:43 111에 2인 사람만 갖고 오겠다 요겁니다 그러면 그러면 여기에 화면에 보이는 35:51 관점으로 한번 좀 볼게요 자 여기 지금 있는 거는 안시는 용어입니다 35:58 자 지금 화면에 보이는 셀렉트 아래도 쓰는 SQ 똑같이 셀렉트라 문건을 36:05 씁니다 자 그다음에 필터라고 여기 나온 거 있죠요 필터가 안시 SQL 36:12 웨어에 해당되는 거라 똑같은 겁니다 사실은 데이터라는 거를 조작을 36:19 하고 데이터를 분석을 하게 되려면 데이터라는게 들어가 있는 36:25 매체가 어딘가를 한번 우는 생 잠깐 해볼게요 일반적으로 아까도 말씀 36:30 텍스트 파일로 데이터가 들어갈 수도 있고 셀에도 있을 수도 있어요 또 반면에 데이터베이스 있을 수도 36:37 있거든요 근데 데이터의 사이즈를 보고 고민한다면 텍스트 파일이나 엑셀은 36:44 데이터를 담는데 한계가 있어요 하지만 데이터베이스는 그렇지가 않거든요 36:50 10억 건 이건 100억 건 이건 억건 데이터베이스에는 담겨 있습니다 그럼 데이터베이스는 데이터를 끌고 올 36:56 때 써야 되는 문장은이 안시로 쓰는 거고요 데이터를 R 아이라는 언어를 37:03 통해서 긁어 불러왔어요 온 뒤부터 써야 될 SQL 이거를 쓰는 거예요 37:09 자 한 주씩 그러면 해 보겠습니다 37:30 자 아이라는 거를 먼저 좀 띄울 건데요 자 37:47 우선 자 그 바탕 화면에서 R 스튜디오라는요 메뉴가 있을 37:54 겁니다 자 이거를 더블 클릭하시면 지금 화면에 보이시는 거 38:00 같은 윈도우 창이 하나 열리게 됩니다 자 이게 열린 38:06 상태고요 열렸을 때 지금 요렇게 아무것도 요렇게 돼 38:12 있는 분들도 있으실 거예요 아무것도 이렇게 없이 요런 명령만 있을 수도 있어요 그거 신경 안 쉬도 38:20 되고요 일단은 요렇게 뜨게 되면 여기 메뉴 중에 파일이라는게 38:26 있습니다 파라는 메를 클릭을 하시고 그다음에 뉴 파일이라는 메를 또 클릭 38:32 서브 메뉴를 클릭하시고 그다음에 그 옆에 있는 스크립트라는요 메뉴 요거를 한번 38:39 클릭을 해 보시면 이렇게 빈 화면 에디트 창이 하나 38:47 뜹니다 자 여기까지 한번 눌러봐 주세요 파일 38:52 누르고 뉴파일 클릭을 한하고 스크 눌러주시면 38:58 됩니다 요거는 누를 때마다 요런 창들이 하나씩 더 생겨요 자 요거까지 되신 39:07 상태에서 첫 번째로 저희가 11페이지에 있는 셀렉트 먼저 좀 시작을 해 39:13 [음악] 보겠습니다 자 셀렉트에 저희가 활용할 39:19 데이터는 자라는 그 꽃 꽃중에 39:25 꽃이라는 그 명칭이 라는 데이터라고 하더라고요 용어로 쓰더라고요 iris 39:32 아 잠시만요 제가 화면을 좀 39:46 키울게요 이제 좀 잘 보이십니까 뒤쪽에 보이십니까네 자 iris 아는 39:53 데이터를 가지고 이제 데이터 조작을 해 볼 거예요 자 iris 아는 데이터가 그러면 40:00 어떤 데이터인지 한번 좀 궁금하잖아요 이거를 이제 보기 위해서 40:06 데이터의 속성을 좀 이제 이해하는 작업을 해야 됩니다 자 먼저 40:12 str 한번 쳐 보시고요 그다음에 괄로 열고 40:19 iris 해놓고 괄로 닫아 주신 다음에 자 40:25 요거를요 지금 커서가 이렇게 쳤던 줄에 이렇게 40:31 껌뻑껌뻑 거릴 때 요렇게 놔둔 상태에서 해도 되고요 아니면 요걸 40:36 렇게 반전시켜서 해도 되고요 또는요 상태에서 컨트롤 엔터를 쳐도 됩니다 40:44 커서가 거기 깜빡깜빡 거릴 때 컨트롤 엔터를 추셔도 돼요요 irs 데이터를 렇게 반전시킬 40:51 때는 또요 위축 중간에 위에 중간에 런이라는 명령이 있어요 40:57 요거를 누르셔도 됩니다 요걸 누르게 되면 저 밑에 41:06 쪽에 자 요렇게 뭔가 정보가 지금 반전 제가 시켜 드린 것처럼 이런 41:12 정보 정 유형들이 나옵니다 자이 irs 데이터라는 41:21 거는 여기 보시면 세팔 랭스는 거 그 41:26 꽃받침 꽃받침의 길이 폭 꽃잎의 길이 폭 41:33 그다음에 irs 아는 데이터는 세 가지 유형의 종류가 있다고 하더라고요 그게 41:41 세토사 버지 칼라 비그 이렇게 세 종류가 있다고 합니다 그래서 데이터를 41:47 보니까 세 가지 종류의 붓꽃 데이터인데 꽃받침과 꽃잎에 대한 41:54 길이와 폭의 정보를 가지고 있는 데이터에 그리고 요걸 또 보시는 방법을 41:59 간단하게 말씀드리면 여기 데이터 점 프레임 이렇게 돼 있어요 요거는 쉽게 42:05 말씀드리면 엑셀 같은 거라고 보시면 돼요 데이터가 첫 번째 열에는 숫자가 42:12 있고 두 번째는 한글 명칭이 있고 세 번째는 뭐 날짜가 있고 이런 42:19 식으로 데이터가 우리 행렬 같은 거는 숫자값만 들어가 있야 되는데이 42:25 데이프레임 거는 엑셀 시트 같은 거라고 생각하셔도 돼요 그래서 세팔 42:31 랭스 세팔 위스 페팔 랭스 페팔 미스는 숫자형을 데이터야이 유 이게 42:38 넘버의 약자입니다 넘버 타입이야 숫자 타입이야 이런 얘기고요 그다음에 스페시스 거는 여기 42:47 팩터 이렇게 돼 있어요요 팩터는 거를 간단하게만 좀 42:53 말씀드릴게요 통계에서는 통계학에서는 데이터를 크게네 가지의 척도로 구분 43:01 합니다 어떤 척도면 명목 서열 등간 비율 렇게 척도로 나눠요 요거 43:08 간단하게만 좀 말씀드리겠습니다 43:17 [음악] 43:31 저희가 사는 우리가 일상적으로 살아가는이 세상 속에서 데이터 하고도 43:36 매핑을 한번 시켜 셔도 돼요 자 한번 보겠습니다 명곡이라는 척도는 우리가 43:43 간단하게 이름을 비 부여한 거예요 예를 들어서 성별 성별은 남녀 이렇게 43:50 있잖아 그다음에 서울시에도 강남구가 있고 서초구가 있고 송파구가 있고 43:56 이렇게 구로 그다음에 뭐 개개인들의 이름들 이런게 44:01 명목 44:06 도입니다 지금 명칭을 부여한 거죠 예로 이제 뭐 이름 같은 거 구정보 44:13 뭐 이런 것들이 이제 명목 고요 서열 도라는 거는 우리가 길거리를 다니다 보면 44:21 설문 조사를 해달라는 분들이 많이 있어요 설문지를 조사해 달라고 할 때 44:27 가지 이렇게 딱 받아보면 뭐라는 회사의 44:34 음료수는 맛이 어떻습니까 문항이 있고 그 밑에 뭐 매우 맛있다 런게 하나 있고 44:43 맛있다 요게 있을 수 있고요 보통이다 맛이 없다 매우 맛이 없다 44:51 런 식으로 표현되 있는 데이터들이 있어요 요런 것처럼 들 지금이 답안지 안에는 지금 45:00 분명히 서열이 있어요 서열이 있는데 맛있다 보통이다 뭐게 더했을 45:08 때 매우 맛있다라고 되는게 아니잖아요 요와 같은 거 즉 사칙 연산이 안 45:13 되지만 데이터 간에는 순서가 있는 거 크기가 있는 거 요런 도를 서열 45:19 도라고 합니다 자 등간 도하고 비율 도는 같은 의미의 맥으로 많이 45:25 쓰는데요 하고 비율 도라의 데이터는 숫자 45:37 데이터예측 쉽게서 온도계를 보시면 돼요 0도 미만으로도 값이 있잖아요 45:44 그와 같은 것들을 등간 적도 비율에서 0 밑으로 떨어지는 비율은 없거든요 45:49 그 숫자 데이터가 0까지 돼 있는 갈 수 있는 것들 그런 데이터들을 비율 45:55 적도 데이터 이렇게 합니다 자 그러면 지금 화면에 보이시는이 시스라는 46:01 항목은 팩터는 여기에 지금 써 있는데 요게 아래는 데이터를 명목 도하고 46:09 서열 척도로 표현할 때 쓰는 명칭이에요 여기게 쉽게 말씀드리면 46:15 명목이나 서열 척도를 만들 때 쓰는게 아래는이 터라는 요소를 씁니다 그래서 46:23 지금 시스라는 데이터는 명목 아니면 서 도야 렇게 보시면 돼요 근데 46:30 요렇게 딱 돼 있는데 서열 속도는 지금 팩하고 돼 있을 때는서 도가 46:35 아니라는 얘기예요 그냥 명칭만 있다라는 얘기예요 그 명칭이 세토사 46:40 버지 칼라 비니 이렇게 세개 명칭으로 있다 그 얘기입니다 이제 이게 46:47 보신게 자 그러면 irs 데이터를 이제 저희가 렇게 다섯 가지 항목으로 46:53 지금 구성이 돼 있고 전체 데이터 건수는 지금 150 있다라는 얘기입니다 자 이걸 가지고 데이터 46:59 조작을 해보겠습니다 자 첫 번째로 irs 47:07 아는이 데이터 안에서 자 세팔 랭스 하고 세팔 47:13 위라는 데이터 두 개를 갖고 오려고 해요 아래에서 쓰는 명령문들의 47:19 대부분이 가로를 열게 돼 있습니다 한번 볼게요 47:29 여기까지 쓰시면 이게 뭐냐면 자 irs 47:36 데이터로부터요 퍼센트 세 퍼센트가 이렇게 있는데요 요거는 연결입니다 연결자 즉 47:44 irs 즉 앞단에 있는 좌측에 있는 거를 통해서 연결해 가지고 단이 47:49 이어져라 이런 의미입니다 그래서 자 irs 47:55 데이터로부터 해가지고 항목을 갖고 올 거야 즉 셀렉트를 할 거야 요게 48:02 명칭입니다 그러면 셀렉트를 할 때 어떤 거를 그러면 셀렉트 할 건가를 정의를 해 48:08 줘야 되거든요 그때 저희가 세팔 랭스는 거 하고 세팔 위라는이 두 48:15 항목을 한번 셀렉트를 해 보려고 해요 그러면 지금 셀렉트라이 가로 48:21 열려 있는 부분에 명칭들을 써주면 됩니다 참고로은 대소문자를 분을 48:27 합니다 그러니까 그거를 참조해서 저처럼 한번 써 보셔도 되고요 교재 48:32 11페이지에 있는 명령 그대로 한번 쉬 보셔도 돼요 자 한번 쳐 48:45 보겠습니다 자 아래는 기본적으로 몇 가지 명령을 치면지가 자동적으로 나타나기도 해요 그 항목이 나타날 때 48:52 선택하셔도 되고요 자 이렇게 선택을 친 상태에서는 컨트롤 엔터를 치시거나 48:59 아니면 얘를 반전시켜서 런이라는 명령을 버튼을 눌러 세도 49:06 되고요 어떤 방식으로 하더라도 상관이 없습니다 실행을 시키면 결과 치들이 49:12 아 잠시만요 자 아이라는이 DP yr 49:17 저희가 쓸 거거든요 그럼 얘를 메모리에 올려 놓는 작업을 먼저 해 줘야 돼요 요게 라이브러리라는 함수가 49:23 있습니까 명령문이 있습니다 요거부터 좀 할게 49:30 게요 자 요렇게 라이브러리 해 가지고 가로 열고 DP yr 먼저 꼭 치셔야 49:37 됩니다 요게 뭐냐면은 전 세계 모든 개발자들이 49:44 새로운 기능들을 계속 만들어냅니다 자 그러면 새로운 많은 49:50 분들이 새로운 기능들을 만들어 냈는데 그거를 제가 쓰고 있는이 컴퓨터 설치를 해야 되거든요 49:57 그 기능을 설치를 하는 명령문이 인스톨 패키지라는 명령문이 있어요 50:04 근데 설치를 하기는 했어요 근데 그 쓰려고 하려면 실행을 시켜 줘야 50:09 되거든요 그게 무슨 얘기냐면 저희가 오피스를 구매를 했어요 파워포인트를 쓰려고 그럼 50:17 오피스 깔아야 되잖아요 그게이 아래는 인스 패키지라는 50:22 명령입니다 오피스를 깔았다고 해서 바로 파워포인트 쓰는게 버튼을 실행시켜야 파워포인트가 뜰 거 50:29 아닙니까 그것처럼 아래 쓰는 SQL 설치를 했으면 걔를 50:35 뛰어 놔 줘야 돼요 그게 라이브러리라는 명령입니다 저 명령을 50:42 통해서 내가 dplyr 즉 아에서 쓰는 SQL 쓸 50:48 거야라고 띄어 놔야 돼요 그다음에 irs 퍼 세 퍼 이런 50:54 명령을 치면 실행이 되게 돼 입니다 한번 좀 쫓아 51:00 보겠습니다 자 라이브러리 이렇게 먼저 하고요 51:17 워요 아 안 보입니까네 크게 드릴게요 51:30 [음악] 52:02 자 지금은 이제 폰트를 최대한 키워 봤습니다 자 이렇게 했을 때 잘 보이실 거라고 생각이 듭니다 자 52:10 라이브러리 해가지고 얘를 먼저 메모리 파워포인트를 실행을 시키는 것처럼 52:16 로딩을 먼저 시켜 놓고요 자 그다음에라는 52:23 데이터로부터 데이터를 셀렉 할 겁니다 가져올 겁니다 어떤 항목을 갖고 올 52:29 거냐면 세팔 스라는 데이터와 세팔 스라는 거 갖고 올 겁니다 렇게 52:36 해서요 상태에서 컨트롤 엔터를 치거나 런을 명령을 실행을 하면 이와 같이 52:42 데이터들이 쫙 올라와요 근데 이게 지금 너무 많으니까 한번에 보기가 52:48 뭐해서 지금 선생님들이 갖고 계시는 자료에는 여기에 뒤에 연결자 또 다시 52:56 를 제가 또 표현을 해놨어요 그다음에 53:02 헤드 즉 앞단에 몇 개만 보고 싶다 이렇게 쓸 때 쓰는 명령문이 헤라는 53:09 명령입니다 그래서 여섯 거만 보겠어라고 이렇게 표현을 한 53:16 거예요 자 이렇게 뒤에라는 데이터로부터 두 개의 항을 53:23 갖고올 거고 갖고오는 만 보여줘 렇게 하는게 헤라는 53:29 명령입니다 렇게 실행을 시키면 여섯 건의 데이터만 이제 보여주게 되는 53:34 거죠 자 그래서 보니까 세 스하고 세 스하고 전부 53:40 숫자 데이터라는 거 저희가 지금 확인을 해봤고요 자 요게 기능 자체의 셀라는 53:51 명령입니다 데이터를 조작하는이 기법을 알아야이 를 가지고 시각화까지 연결을 53:58 하고 그러고 나서 데이터 탐색을 한 다음에 최종적으로 분석 활용하고자 하는 데이터 셋을 만드는 작업을 54:04 이거로 다 끝내야 돼요 자 그래서 첫 번째로 이제 셀렉트를 해 봤고요 54:10 11페이지 밑에 있는 필터라는 부분을 좀 해보겠습니다 자 필터라는 거는 조건입니다 조건 특정한 조건에 있는 54:17 걸 만족하는 걸 갖고 와죠 요런 부분이고요 한번 쳐 보도록 하겠습니다 54:40 자 제가 지금 명령문을 좀 하나 쳤는데요 자 필터라는 조건을 54:52 걸었습니다 자 irs 아는 데이터로 붙어 어 위에만 쳤네요 아 위에 거는 먼저 55:00 설명할게요라는 데이터로 붙어 걸러내 주는데 어떤 거로 걸릴 거냐 irs 55:07 데이터 안에는 스시라 항목이 분명히 있었습니다 얘는 명목 도였어이 시스라는 값이 세토사 거만 55:16 갖고 와죠 이렇게 한 거예요 근데 여기 지금 중간에 등호가 두 개가 55:22 있습니다요 명령이 같다라는 의미를 찾을 때 런 기호를 씁 니다 그래서 55:28 irs 데이터로부터 세토사 아는 데이터만 걸러 줘 단 걸른 다음에 55:34 여섯 개만 보여 줘 앞에 있는 여섯 개만 보여 줘 요렇게 쓴 거예요 자 여기까지 한번 실행을 시켜 55:42 보시고 안 되는 분들은 교재도 한번 보시고 그래도 안 되면 말씀을 해 55:53 주세요 자 요렇게 해서 결과치가 세토 사이에 해당되는 데이터 여섯 거만 55:58 나오면 합니다 자 그러면 저희는 특정한 항목을 갖고오는 셀렉트를 좀 56:04 해 본 거예요 자 그다음에 데이터를 갖고 왔는데 그거만 갖고 오지 말고 이제 걸러 보자 해서 필터하는 거 좀 56:11 해봤어요 자 그다음에 다음 페이지 한번 넘어가 56:20 보겠습니다 자 현재라는 거는 다섯 개의 항목으로 구성된 데이터인데 56:26 여기에 제가 새로운 항목을 더 추가하고 싶어요 그럴 때 쓰는게 12페이지에 56:33 있는 티라는 함수입니다 자 함수라는 용어에 대해서 56:41 굉장히 나을 수도 있는데요 아시는 분은 아시겠지만 함수라는게 뭔지를 한번 56:48 간단하게 말씀을 좀 드려 볼게요 저희가 지금 셀렉트는 명령도 56:55 그렇고 필터라는 명령도 그렇고 이게 전부 함수입니다 57:09 함수 저희가 학교 다닐 때 이런 기호들 좀 봤잖아요 제가 57:16 여기에다가 1이라는 어떤 전하고 3이라는 구를 두 개를 넣었을 57:22 때 여기 결과치가 3이 나왔어요 그 이 함수는 곱하기 함수라는 얘기잖아요 57:28 이와 같은 똑같은 겁니다 필터라는 저 명령은 시스라는게 세토는 걸 넣은 57:37 거예요 넣으면지가 알아서 거기에 맞는 거 찾아서 주는 57:42 거예요 그래서 셀렉도 57:55 함수고정 처리 결과들이 앞뒤가 묶여서 처리되고 결과치가 나오는 겁니다 자 58:02 그러면 뮤트라는 걸 해 볼 건데 58:08 뮤테라피 명령입니다 자 12페이지에 있는 58:14 뮤트를 한번 쳐 볼게요 [음악] 58:28 [음악] 58:33 똑같이 한번 제가 쳐보도록 하겠습니다 59:07 자 일단은 기능에 대해서 한번 먼저 설명을 드려 59:12 볼게요 자 irs 데이터로부터 세토사 거만 갖고 와서까지 했어요 그러면 59:19 세토사 갖고 온 겁니다 필터를 했습니다 다 필터한 다음에 제가 59:28 빈이라는이 변수를 하나 만들려고 하는 거예요요 변수를 만들 건데 어떤 59:34 변수에요 변수에 뭘 채울 거냐면 세판 스라는이 값의 평균 59:41 평균값을 채우려고 해요 기존에 다섯 가지 항목 밖에 59:47 없었는데요 여섯 번째 항목을 기존에 있 데다가 더 붙이려고 하는 거예요 59:53 그때 쓰는 명령이 티 라는 함수를 쓰는 겁니다 59:59 그래서 계속이 아에서 쓰는이 dplyr 즉 SQL 같은 1:00:06 거라고 그랬죠 얘는 계속 렇게 퍼센트 록에 퍼센트를 이렇게 붙이면 계속 1:00:13 연결해서 데이터를 조작할 수가 있어요 굉장히 강력한 기능입니다 1:00:19 이게 그래서 데이터를 알 가지고 분석하시는 분들은이 DPR 1:00:24 yr이라는요 패키지 즉 SQL과 같은요 패키지를 굉장히 많이들 쓰셔요 1:00:30 요걸 또 쓸 수밖에 없고요 물론 이와 유사한 패키지들도 있습니다만 대부분들이 이거를 많이 1:00:37 쓰세요 그래서 데이터를 첫 번째 조작하기가 쉽기 때문에 그래서요 1:00:42 기능을 먼저 첫 번째 시간에 익히려고 하는 겁니다 자 1:00:48 그래서로부터 스페시스 세토사 것만 먼저 갖고 와 범위 끝난 겁니다 1:00:53 갖고온 뒤에을 추가해 줘 뮤티 해 줘 하는데 1:00:59 어떤 항목을 추가할 거냐면 세팔 랭스의 평균값을 추가해 줘 추가해 1:01:06 주는데 그때 명칭은 세팔 점 랭스 점 1:01:12 민 이거로 그릇으로 만들어서 추가해 줘 이렇게 한 겁니다 자 이게 뮤트라는 개별적인 1:01:19 함수 명령입니다 자 그 밑에 한번 또 한번 1:01:25 볼게요 12페이지 밑에 자 뮤티 다음에 디스트라 함수가 1:01:33 있습니다 얘는 제일 유니크한 값들만 뽑아주는 역할들을 1:01:39 합니다 그 중복돼 있지 않고 단일화된 값만 보여주기 위해서 하나 명령 1:01:44 있데요 한번 쳐 볼게요 1:01:57 자 제가 지금 라인에 이렇게 irs 퍼센트 거세 퍼센트 1:02:04 디스팅트 디스팅트 해놓고 스페시스 항목을 유니크하게 단일화 시켜서 한번 1:02:11 보여 줘봐 이렇게 한 [음악] 겁니다 그랬더니 이제 세 개 스페시스 1:02:18 irs 아는 데이터에서 갖고 있는 세 개의 부권 명칭들 세토사 버지 칼라 1:02:24 비그 나온 거예요 자 요게 1:02:31 디스고 예 그다음 페이지인지 한번 좀 봐주십시오 자 13 1:02:40 페이지입니다 자 13 페이지인데 13 페이지에는 그룹 바이라는 거하고 1:02:47 라이라는 두 가지가 이제 같이 나열돼 있어요 자 지금 저희가 셀필 1:02:56 런 뮤티 이런 것들은 개별적인 데이터들 항목을 많이 취급할 때 1:03:02 쓰는데 그와 좀 다르게 데이터에 대해서 그룹을 주고 1:03:09 집단으로 좀 묶은 다음에 뭔가의 값을 알고 싶을 때가 있어요 그때 쓰는게 그룹바이 1:03:17 라이라는 함수입니다 선 이렇게 한번 볼까요 1:03:27 이런 알고을 있거든요 그라는이 데이터 전체를 하나의 그룹으로 보는 겁니다 1:03:34 자 그다음에 그렇게 안하고 또이 irs 데이터에는 스라는게 이게 1:03:40 세 가지 꽃 종류가 있는데 얘 개별적으로 몇 건씩 있어 이렇게 보 1:03:45 할 때도 있잖아요 그럴 때 제가 그룹으로 묻고자하는 항은 그룹바이 1:03:52 다음에 쓰는 거고요 그음 뭐를 서머라이즈 요약할 건가 카운터를 요약할 건가 그니까 몇 1:03:59 건이 있는 걸 요약할 거냐면 카운터라는 걸 쓰는 거고요 아니면 평균을 구하고 싶다 그러면 아까처럼 1:04:06 민이라는 함수가 들어가는 거고 그거를 저희는 이제 그룹 함수라고 얘기를 하는데 자 1:04:13 볼게요 어떤 특정한 항목에 1:04:20 대해서 자 특정한 항목에 대해서 그룹을 정했다고 했을 때 정했다고 1:04:25 했을 때 전체도 하나의 특정한 그룹이 될 수 있습니다 자 어떤 거를 그룹이라는 걸 1:04:30 정의했을 때 여기에 딸려올 수 있는 그룹 함수가 무이 있는지를 한번 생각을 해 보려고 해요 가장 간단하게 1:04:39 그 그룹별로 최소값이 얼마가 제일 작은게 얼마가 있어 런 거 알아볼 수 있거든요 그 그룹별로 가장 큰 값이 1:04:47 얼마가 있을까 요런 거 알아볼 수 있고요 그룹별로 전체적으로 그룹별로 1:04:52 건수가 몇 건씩 있어 요런 거 알아볼 수도 있고 요 그룹별로 평균이 얼마야 1:04:59 이런 거 알아볼 수 있거든요 요런 것들을 뭐라고 얘기를 하냐면 그룹 1:05:05 함수라고 얘기를 합니다이 그룹 함수는 아래만 쓰는게 1:05:11 아니라 모든 프로그램 언어에는 다 이런 그룹 함수들을 쓰는 거예요 저희가 엑셀 쓸 때도 똑같이 그룹 1:05:17 함수 있잖아요 그와 같은 개념 똑같은 겁니다 자 1:05:22 그러면 룹 바이라는 거를 이제 서머라이즈 거 같이 할 건데 그룹 1:05:28 바이라는 거를 정의를 해서 어떤 항목으로 그룹을 잡아 줘라고 정의를 해 놓고 서머라이즈 써야지 아래는 1:05:38 무엇으로 요약을 할 건지를 인식을 해요 그래서 그룹 바이와 선라이즈를 1:05:43 같이 이제 그 지금 보시는 페이지에 나열이 돼 있는 겁니다 자 요거를 1:05:49 한번 실습을 좀 해 보도록 하겠습니다 1:05:59 [음악] 1:06:11 [음악] 1:06:17 자 제가 지금 11 라인에 명령문을 쳤습니다 한번 봐 주세요 자 irs 1:06:23 아는 데이터로부터 그룹 바이를 합니다 스페시스는 항목으로 그룹을 먼저 잡은 거예요 1:06:31 자이 스페시스 항목으로 그룹을 잡았고이 항목별로 세탈 랭스는 거에 평균치를 1:06:40 구해서 보여 달라 이렇게 용어를 쓴 겁니다 자 그룹 바이와 서머라이즈 1:06:47 항상 실과 바늘처럼 쫓아다닌다고 생각을 꼭 하시면 돼요 1:06:56 그래서 지금 실행된 결과가 밑에 쪽에 스페시스 스페시스 있는 세토사 평균이 1:07:05 5.01이고 버지 칼라는 5.94 비그 니카는 6.59 이렇게 1:07:11 지금 결론 치가 나온 겁니다 지금 저희가 그룹바이 그룹 바위의 서머라이즈 요거 하나만 한 것도 사실 1:07:19 데이터의 특성을 이해하기 위한 하나의 행위를 취한 겁니다 막 고차원적으로 막 뭐 어려운 1:07:26 이론을 쓸 필요가 없이 이와 같은 행위 자체도 하나의 특성을 파악하는 1:07:32 작업입니다 자 그러면 그룹 아이하고 선라이즈는 이제 넘어갈게요 그다음에 1:07:37 렌지라이프가 1:07:56 여기에 퍼센트 거세 퍼센트를 붙여 1:08:06 주고요 앞에 서머라이즈 할 때 변수를 지금 하나 만든 다음에 거기다 담았거든요 그때 변수명이 1:08:14 민이에요 자 민로제 하려고 1:08:24 해요 자 요렇게 치면 민 . VA L 정렬을 해 1:08:30 주는데 센딩을 해 달라는 얘기입니다 그러니까 오름차순으로 정렬을 해 달라 1:08:36 할 때는 어렌지 해 놓고 가로 열고 그냥 명칭만 주면 정렬을 센딩을 1:08:42 한끼다 근데 정렬을 할 때는 우리가 거꾸로 큰 거부터 내려오고 할 때도 있거든요 그 디센딩 하고 싶을 때가 1:08:49 있어요 그때 저 어렌지 안에 1:08:56 이 민 val 앞에 자 한번 화면을 좀 봐 1:09:04 주세요 자 요렇게 DC 해 가지고 한번 민 vaal 한번 감싸 주고 1:09:12 나서 실행을 시켜 주면 이게 데이터가 어센딩이 아니라 디센딩 이렇게 바뀌게 1:09:18 됩니다 1:09:26 이제 기업에서 취급하는 데이터가 굉장히 많은데 예를 들어서 취급하는 상품이 많다라고 1:09:33 할게요 취급하는 상품이 한 천 가지가 되는데 그 천 가지의 상품에 대해서 1:09:39 매일같이 매출이 일어나고 있어요 매출이 일어나고 있는데 갑자기 1:09:45 팀장님이 궁금하신게 1위부터 상위 20위까지의 매출 상품만 좀 갖고 와 1:09:51 봐 매출 건수가 어떻게 되는지 갖고 와 봐 했을 때 디센딩 해야 되잖아요 센딩을 했으면 이제 정렬이 돼서 큰 1:10:00 매출 수부터 자까지 거꾸로 나온단 말이에요 근데 202 것까지만 가져오라 그랬어요 그러면 여기에다 1:10:07 뒤에 퍼센트 세 퍼센트 해놓고 헤드 한 다음에 20 이러면 20만 나오는 1:10:14 거죠 지금 저희가 했던 명령들을 앞에서 하다 보면 걸 계속 지금 붙이면 이어도 올 수가 있는 1:10:21 겁니다 헤드 하고 가로열고 20하 나오는 거예 그런 식으로 이어갈 수가 1:10:31 있습니다 자 그러면 어지는 좀 했고요 다음 페이지 한번 1:10:40 [음악] 보겠습니다 자 비트인이라는 함수를 좀 1:10:47 배우겠습니다 우리가 데이터를 다루다 보면은 전체 데이터 중에 정한 부분만 1:10:55 때가 아까 필터라는 항모가 가지고 또 봤어요 근데 필터라는 거를 쓸 때 1:11:00 아까 세토사 아 스페시스 세토 사인 것만 뽑아 줘 이런 걸 해 봤거든요 근데 1:11:08 그게 아니라 매출 건수가 그니까 상품이 1천 가지가 있는데 천 가지 중에 1:11:15 방금 전에 22까지 뽑는 거를 헤드 해 가지고 20 하면 된다고 그랬죠 요런 기능을 헤드 안 1:11:23 쓰고 어디서부터 어디 사이에 있는 것만 뽑아 줘라고 정의를 달리할 수 1:11:28 있는 방법이 있습니다 그게 트윈이라 함수에 우리 영어에 비트인 A and 1:11:33 B 이렇게 쓰잖아요 그 개념입니다 비트인 1 and 10 그러면 1과 1:11:41 1도 포함되고 10도 포함되 있는이 사이에 모두 숫자를 말하잖아요에서 쓰는 인이라고 저희가 1:11:48 지금 배우려고 하는 것도 똑같은 개념입니다 자 한번 실습을 통해서 보고 한번 말씀을 드릴게요 m 1:12:08 [음악] 1:12:33 예 한번 보겠습니다 지금 14 라인에 제가 반전 쳐 놨는데요 자 irs 아는 데이터로부터 1:12:40 자 필터 걸러낼 거예요 걸러낼 건데 비트인 해놓고 가로 열고 자 1:12:48 세팔 랭스는 값이 5.5도 포함하고 최소는 5.5 1:12:55 최대는 6.5 사이에 있는 것들만 다 보여 줘라고 한 거예요 거기 너무 1:13:01 많으니까 헤드 해가지고 열 거만 보여줘 이렇게서 끄는 거죠 자 요렇게 1:13:06 특정한 값에 대해서 프롬투 범위 안에 있는 걸 뽑을 때이 1:13:13 dpy이라는에서 쓰는에서 쓰는 이비 함수를 쓰는 1:13:18 겁니다 자이 비트인 함수는 앞에 것들은 셀렉트 필터 그룹바이 1:13:25 서머라이즈 테티 어렌지 이런 것들은 하나의 통차 데이터 셋이 즉 1:13:32 하나의 엑셀 시트가 있을 때 썼던 거예요 근데 요거 지금 잘 들으세요 1:13:37 B2 2는 특정한 항목만 하나지 명칭을 가르쳤어요 요렇게 비트인 같은 요런 1:13:44 특정한 하나의 명칭 항목에 대해서만 바라보는 이런 함수를 벡터 함수라고 1:13:50 합니다 수학에서 우리 행열 이렇게 표현하잖아요 1:13:55 수학에서는 행 데이터를 행 벡터 열로 돼 있는 걸 열 벡터 이렇게 얘기를 1:14:01 합니다 근데에서는 행벡터 열벡터 구분 안 하고 그냥 모든 거를 벡터라고 1:14:07 얘기를 합니다 그래서 인이라는 거은 세스이 하나만 항목으로 보기 때문에 1:14:14 그냥이 벡터 함수 이렇게 얘기를 하는 겁니다 비라는 1:14:22 걸요 자 그다음에 중간에 있는로 언더바 넘버라 걸 좀 1:14:28 보겠습니다 자요 기능은로 언더바 넘버라이 함수는 벡터 함수인데 벡터 1:14:35 함수인데 굉장히 유용합니다 아까 데이터베이스에서 쓰는 1:14:42 SQL 안시 SQL 아고 말씀을 드렸는데 저 안시 SQL 지금 저희가 1:14:49 하려고 하는로 언더바 넘버라 값을 만들어 내기가 굉장히 어려워요 근데 1:14:55 아래는 그냥 저 함수 한 줄만 쓰면 나옵니다 이게 1:15:00 뭐냐면 그냥 명칭 숫자값을 부여하려고 그래요 데이터를 정렬한 상태에서 1:15:06 숫자값을 부여하던 아니면 현재 이렇게 섞여져 있는 상태에서 숫자값을 구현하던 순번을 부여하는 겁니다 순번 1:15:14 아니면 특정한 항목에 대해서 그룹을 정한 다음에 그 그룹 안에서 큰 1:15:20 숫자부터 1 2 3 4 순번을 부여할 때 이럴 때 쓰는게 로 언더바 넘버라 1:15:27 함수입니다 요거를 한번 실습을 해 1:15:40 보겠습니다 자 숫자값을 부여하려고 하는데 그러면 아까 저희가 할 때 1:15:45 새로운 변수값을 부여하는 함수가 뮤라 그랬어요 그러면로 언더바 넘버라 걸 1:15:52 가지고 새로운 값을 부여를 할 건데 기존에 있는 거에다 붙이는 거잖아요 1:15:58 그래서 뮤트라는 거를 앞에 먼저 쓰는 1:16:13 겁니다 자 지금 17 라인을 보시면 1:16:18 irs 뮤티 새롭게 항목을 추가할 거예요 1:16:23 근데 요 언더바 넘버라나 함수를 요걸 주게 되는 동시에요 지금 밑에 제가 지금 이렇게 1:16:31 단전 치고 있는 RN이라는요 항목으로 해서 1 2 3 4 5 이렇게 순번이 지금 만들어지는 1:16:38 거예요로 언더바 넘버라요 함수를 주면 주면 주기만 하면 숫자 값들이 1:16:45 만들어지는 겁니다 현재 있는 데이터 순서대로 1:16:50 숫자 값들이 부여가 되는 거예요 자 그거를 1:16:56 rnm이라는 새로운 변수 이름으로 해서 기존에 있는 irs 데이터셋에 1:17:03 항목을 더 추가하는 방식이 지금 17라인 1:17:09 명령입니다 자 요게로 언더만 넘버라 함수의 의미고 1:17:16 그 바로 밑에 이제 N 하고 괄로고 괄로 다꾸가 있습니다 요거는 카운터를 1:17:22 아에서 쓸 때 사용하는 함수입니다 카운터 하고 가로 열고 1:17:28 가로 닫고 이렇게 아에서는 안 쓰고 n 가로 열고 가로 닫고 해야지 카운터의 의미 역할을 1:17:36 합니다 한번 실습을 좀 해 보겠습니다 1:18:05 자 지금 제가 반접 치는 데를 한번 좀 봐 보세요 1:18:12 요번에는 스페시스 아는 항목으로 그룹을 정하고 그 스페시스 있는 1:18:18 세토사 버지 칼라 비그 니카의 대해서 몇 건 있는지를 세 보려고 하는 거예요 여태까지 방금 전에 했을 때 1:18:25 뭔가 라할 때 새로운 변명으로 지금 명칭을 했었거든요 번에 제가 명칭 부한 1:18:32 봤어요 그냥 함수만 쓴 거예요 함수만 그랬더니 이쪽에 명칭이 렇게 1:18:39 나오잖아요 렇게 나오니까 저희가 보기에 딱 이게 뭔지는 알지만 조작하기가 좀 명칭이 이쁘지 1:18:46 않지 않습니까 그래서 명칭을 부여하는 겁니다 1:18:55 스페시스 별로 카운터를 세줘 이렇게 한 거고요 카운터를 살 때 하는 1:19:00 함수가 N 하고 괄로고 가로 겁니다 자 여기까지가 dpy 일차적으로 1:19:06 하나의 데이터셋에서 조작하는 함수를 좀 배우신 본 거예요 사실이 기능 말고 더 있습니다 있는데 그 1:19:14 개별적으로 기능들에 대해서 이제 시간적으로 좀 걸리기 때문에 하나의 데이터 셋에서 하는 건 1:19:21 여기까지만 해보도록 하겠습니다 자 그다음에 조금만 더 했다가 시도록 1:19:26 할게요 잠깐 질문좀네네 일단은 저기 그 제거에서 1:19:33 네네 스페시스 하고 밑에 fct고 ant이는데 아 네네 이거는 어떤 1:19:40 요게 팩터 아까 명목 적도 뭐 서유 척도 이런 했었잖아요 팩터란 얘기고요 1:19:47 요게 아티 인티저 정수 예 그런 용어에 그리고 여기 빌 1:19:55 이렇게 있죠 여기 빌이라는 말은 사실은 원래 없는 말이에요 원래 1:20:03 그니까 아에서는 설치하면 원래 없는 용어인데 아까 저희가 엑셀 같은 거를 1:20:09 데이터 프레임이라 그랬잖아요 원래 R 설치하면 모든 거는 엑셀시트 같은 1:20:14 데이터 프레임으로 조작이 돼야 돼요 1:20:20 근데을 사람들이 데이터프레임을 더 쉽고 빠르게 갈 수 있는 껍데기를 또 1:20:26 하나 쉬운게 있어요 그 명칭이 빌이에요 그러니까 또 이빌 뒤에 누군가가 또 1:20:32 예보다 더 데이터를 좀 쉽게 조작하고 데이터가 깔끔하게 잘 보이게 하고 1:20:38 요런 또 함수를 누구가 또 만들어 낼 수가 또 있어요 그때는 또 빌이 아니라 그 사람이 뭐 새로운 명칭으로 1:20:44 또 만들어 냈겠죠 그때는 여기에 빌이 아니라 다른 또 명칭이 나올 수도 있습니다 1:20:51 현재까지는이 DPR 만드신 분이 여기 명칭이 1:20:57 데이터 프레임 이렇게 찍혀야 되는데 그거로 찍지 말고 빌라고 찍어 줘야 1:21:02 해가지고 이게 찍힌 거예요네 그렇게 보시면 됩니다 그리고 1:21:08 페이트가네 그 변수를 하나 생성 추가를 만든다고네네네 이게 실제로 1:21:13 데이터세트에 새로운 데이터가 입력된 건 아니죠 아니죠 입력된게 하나 조작하면서 설 만들어낸 1:21:20 거죠 그렇죠 데이터를 제가 이제 이쪽 분석을 할 1:21:26 때 사실 많이 만들어 내야 됩니다 대표 값들 많이 붙여 보고 1:21:32 나눠 보기도 하고 찾아보기도 하고 그러면서 뉴티 함수를 많이 1:21:38 씁니다 그래서 지금 DPR yr 제가 더 많은 기능들이 있다라고 말씀을 1:21:44 드렸는데 지금 한 것만은 기본적으로 데이터를 조작할 때 꼭 아셔야 되는 것들 위주로만 지금 정리를 해 드린 1:21:51 거예요 더 많은 함수들이 있습니다 근데 그것들은 아마도 이제 조금 1:21:58 시간들이 그거를 제대로 한번 다 한번 저희가 하려면 한 오늘만 8시간은 좀 1:22:03 해가지고 하면 DP 끝내지 않을까 생각이 드는데 그러기가 뭐해서 꼭 1:22:09 아셔야 될 것만 먼저 정리한 거가 지금 여러분들이 보시는 교재에 있는 내용들입니다 1:22:15 그렇게 이해를 해 주세요 1:22:31 자 1:22:39 요번에는 자 파워포인트로 잠깐만 좀 다시 제가 좀 1:22:48 가겠습니다 자 지금 여러분들이 보실게 이제 데이터가 이제 화면이 1:23:16 잠시만요 자 데이터 연결이라는 데이터 조인이란 부분에 지금 화면을 이제 1:23:22 보셔야 되는데요 자 방금 전까지 dpy 걸 할 때는 1:23:30 하나의 데이터만 가지고 했습니다 자 근데 데이터를 취급을 할 때는 하나의 1:23:36 데이터 항목만 갖고 보는 경우가 없어요 아까 영리를 추구하는 법인은 1:23:43 고객 상품 조직이 가장 위에 있다 그랬잖아요 그러면 고객이 상품을 구을 1:23:48 하면 계약이라는 행위가 이어진다 그랬잖아요 자 그러면 계약이라는 1:23:53 행위가 [음악] 1:24:22 이루어졌으면 자 개 라는 행위가 이루어졌는데이 1:24:28 계약에는 계약 상세 정보도 있다라고 말씀을 드렸어요 자 계약 상세 정보에 상품 1:24:35 코드라는게 있다라고 좀 할게요 세탁이라는 1:24:41 상품을 구입한 고객을 뽑아줘 한다고 하면 얘 하나가지고 1:24:48 해결이 안 되잖아요 얘하고 얘를 지금 바라봐야 되잖아요 고객하고 1:24:56 계약 상세 정보에 세탁기라 작품을 산 고객을 연결을 해야지 뽑아 준단 1:25:03 말이에요 이럴 때 쓰는게 데이터의 주인입니다 데이터를 핸들링할 때는 1:25:11 기본적으로 두 개의 데이터 집단을 가지고 핸들링을 하게 돼 있어요 세 개의 집단을 핸들링할 때도 두 개가 1:25:18 먼저 묶인 다음에 처리되고 그다음에 머지하고 연결이 되는 거예요 세를 1:25:24 동시에 이렇게 연결하는 건 없습니다 무조건 데이터는 하나의 집단을 보든지 아니면 두 개를 1:25:31 연결해서 보든지 이렇게 시작이 돼요 그러면 데이터들을 두 개씩 연결을 할 때 어떤 식으로 연결할 거냐요 관점에 1:25:38 따라서 데이터를 조인하는 그걸 조인이란 용어를 쓰는데 조인하는 방법이 나눠져 있습니다요 개념을 꼭 1:25:47 아셔야 돼요 자 그거를 설명을 드리 보겠습니다 우선 파워포인트 상에 1:25:54 자 교재를 보셔도 되는데 일단 화면을 먼저 봐 주시는게 좀 깔끔할 것 같아서 설명 먼저 1:26:03 드릴게요 자 여기 위에 보면 상품 정보라는게 있고 판매 정보라는게 있어요 제가 간단하게 한번 예를든 1:26:10 겁니다 자 회사에서 취급하는 상품이 세가네 가지가 있습니다 A B C D 1:26:16 자 그 코드에 따르는 명칭들이 있어요 자 근데이네 개의 상품에 대해서 1:26:21 판매된 거는 a 판매가 됐어요 자 임원이 1:26:28 팀장님이 대리님한테 자 야 판매된 상품 정보 좀 갖고 1:26:35 와봐 상품 판매된 상품 내역 좀 갖고 와봐 딱 했어요 그 1:26:41 대리님이 상품 정보는네 개를 우리 회사가 취급을 하고 있는데 지금 판매된 거 세개 상품밖에 없어요 그 1:26:48 대리님이 보고서를 a a 사이다는 콜라 는 맥주 그리고 a 20개는 1:26:57 30개는 40개 해가지고 요렇게 장표를 가져가면 즉 양쪽에 다 있는 1:27:05 정보만 갖고 가는 걸 노조인 요런 걸 인어 조인다 하고요 1:27:11 자 반면에 팀장님은 대리님이 이렇게 갖고 왔어요 그 팀장님이 대리님한테 하는 1:27:18 말이 야 우리가 취급하는 상품이 ABC 말고 없어 뒤도 있을거 아야 뒤는 안 1:27:25 팔렸으면 그냥 없는 상태로 보여줘야 되는 거 아니야 렇게 얘기할 수 있거든요 요거 아웃터 조인다고 1:27:32 해요 기준을 아셔야 됩니다 데이터를 핸들이 조작을 할 1:27:38 때는 대부분이 인어 조인을 가지고 해요 사실은 근데 없는 쪽도 보고자 할 때 1:27:46 그때 쓰는게 아웃터 조인이란 용어를 씁니다 자 아웃트 조이라는 걸 할 때는 또 두 가지로 나눠져요 1:27:54 왼쪽에 있는 항목은 다 보여주고 오른쪽에 있는 항목은 연결된 거 같이 1:27:59 있는 것만 보여 주면은 레프트 아웃트 조 오른쪽에 항목을 기준으로 잡고 1:28:05 얘는 오른쪽에 있 거 다 보여줘야 돼요 왼쪽에는 오른쪽에 있는 거 연결이 되는 것만 찾아서 보여주는 걸 1:28:11 라이트 아웃조인 이렇게 얘기를 해요 그래서 아웃트 조이라는 개념은 원래 1:28:18 한쪽을 기준으로 잡고 나머지 쪽을 본다는 개념인데 그게 를 잡을 거냐 오른쪽 1:28:25 기줄 잡을 거냐에 따라서 레프트 아웃트 조인 라이트 아웃트 조인 이렇게 얘기를 하는 겁니다 자 1:28:32 여기서 뒤에 뒤로 넘어가 때 헷갈리지 않을 것 같은 헷갈릴 것 같아서 미리 설명하고 갈게요 자 지금 인어 조인 1:28:40 했는데 상품 정보하나 판매 정보를 조인을 인어 조인 동일한 것끼리 갖고 와죠라고 했어요 지금 여기 표현돼 1:28:47 있는 항목 지금 세 개죠 세 개인데이 항목은 상품 정보에도 있고 판매 정보에도 있는 항목들이 1:28:54 자 밑에 아웃트 조인도 똑같습니다 상품 정보에 있는 항목 1:28:59 판매 정보에 항목 같이 나왔어요 자 다음 페이지 1:29:07 가겠습니다 자 다음 페이지 세미 조인입니다 세미 인이라는 거는 인노 조인하고 1:29:17 똑같습니다 똑같은데 보여주는게 어떤지 한번 봐주세요 상코 명만 있어요 즉 앞쪽에 1:29:27 있는 앞쪽에 상품 정보를 먼저 시작을 했으면 여기 있는 항목만 보여 줘라는 1:29:32 거예요 두 개랑 같은 거를 있는 걸 찾아주는데 앞에 있는 정보까지 보여 1:29:38 줘 뒤에 있는 정보는 필요 없어이 얘기입니다 이게 세미 주인이에요 1:29:44 자 이거하고 또 반대로 다음 페이지 넘어가시면 안티조인이라는게 있습니다 1:29:54 자 안티 조이는 D 하나만 나왔어요지 쪽하고 같이 봐주세요 자 여기 상품 정보고 판매 1:30:03 정보 있습니다 안티조인이라는 걸 연결했더니 값이 떨어진 건 뒤만 1:30:08 나왔어요 두 개를 연결을 하는데 서로간에 같이 안 갖고 있는 1:30:14 거 그거만 데이터를 뽑을 때 쓰는게 안티 주인이에요 그리고 뽑아주는 1:30:21 항목이 쪽에 있는 거만 뽑아 그렇습니다 기준 하나 한쪽만 뽑아준 1:30:27 거예요 이거를 명확하게 아셔야 돼 인는 지금 아래에서 지금 아에서는 1:30:35 인어 조인 세미조인 안티조인 아웃트 조인 이렇게 나눠져 있지만 데이터베이스에서 쓰는 안쉬 1:30:42 SQL 그래는 이런 식으로 용어를 안 써요 근데 개념은 아셔야 되는 거예요 1:30:50 그래야지 다른 전산팀에 계시는 분들이나 누구한테 데이터를 뽑아 달라고 요청을 할 때도 야 이거는 1:30:58 아웃트 쪽인 개념으로 뽑아 줘라고 말씀하시는 거하고 야 이쪽 안 나오는 1:31:03 것도 다 나오게 하고 이렇게 용어 하시는 거하고 의미가 다릅니다요 개념은 꼭 중요하다니까 1:31:08 알고 계셔야 1:31:15 됩니다 예 여기까지만 하고 잠시 쉬다가 하도록 할 건데요 저희가 1:31:24 지금 속도로 가서는 실습하는데 굉장히 부족할 것 같아요 그래서 잠시 쉬다가 1:31:31 이어갈 때는 조금 제가 속도를 좀 내겠습니다 예 좀 한 15분 하시도록 1:31:37 하겠습니다 예

607 2019.10.01

생활인구 데이터의 분석과 활용사례

안녕하세요. 서울시 빅데이터캠퍼스 입니다.   2019 서울시 빅데이터캠퍼스 공모전의 사전설명회와 더불어 오픈강의(특강)을 지난 2019년 5월 25일 홍익대학교 도시공학전공 이 제승 교수님께서 '생활인구 데이터의 분석과 활용 사례' 를 주제로  '생활인구 데이터'의 분석과 활용사례 및 지난 공모전 당선작이 이후 서울시와 협력 분석되어, 실제 시민들에게 활용되고 있는 사례에 관하여 특강을 진행하여 주셨습니다.   [생활인구 데이터의 분석과 활용사례 강의 교안 다운로드]   감사합니다. (스크립트) 0:06 아 안녕하세요 저는 홍익대학교 도시학교 전공에 있는 이재 생이라고 0:12 합니다 어 많은 분들 와 주셔서 선 감사드리고요 어 그 서울시에서 제가 0:20 여러 지자체를는 아니지만 몇몇 지자체를 좀 다녀 보면은 서울시에서 하고 있는 0:28 이런 정책들에 대해서 굉장히 어 연구를 많이 하려고 하세요 어 0:33 보면 우리나라에서 빅데이터 관련해서 이만큼 시설을 갖추고 데이터를 0:38 모아놓고 그리고 정책에 반영하려고 쓰시고 어 그리고 이렇게 공모전도 0:44 개최하고 어 하시는 지자체는 사실 서울시가 굉장히 앞서 나가고 있어서 0:50 어 여러모로 일단 감사드린다는 말씀을 먼저 드리고요 어 제가 오늘 0:58 말씀드리는 거는 어 빅데이터 캠퍼스가 한 3년 3년에서 4년 정도 된 걸로 1:04 기억을 하는데 어 빅데이터 캠퍼스에서 강의를 한 3년 정도 진행을 했어요 1:11 그러니까 홍익대학교 도시학과 수업을 어 왜 그러냐 면은 어 저희가 사실 1:19 저는 전공은 도시공 전이긴 한데음 관심 있는 분야가 어 이런 1:25 데이터를 활용해서 어떻게 연구에 이용을 하고 더 좋은 도시를 만들 고 어 정책에 반영하고 문제점을 개선하고 1:33 이런 측면에 대해서 굉장히 관심을 많이 가졌고 그런데 힘든 점은 뭐냐면은 어 한 3 4년 전이면 1:41 지금하고 또 굉장히 달라요 그래서 데이터 큰 데이터 같은 거를 구하기가 1:46 굉장히 어려운 상황이었고 사실 지금도 여러 가지 뭐 개인 정보나 이런 문제들 때문에 어떤 데이터를 구하는게 1:53 쉬운 문제는 아닌데 그럼에도 불구하고 어 여러 사람들이 관심이 많아지고 1:58 자료 공개에 대해서 는 경우가 많아져서 많이 지긴 하지만 2:04 어 그럼에도 불구하고 지금 서울식 데이터 캠퍼스에서 보유하고 계시는 2:09 자료를 부에서 어 취해서 이용을 하기는 쉽지 않습니다네 2:15 그래서음 사실 데이터 분석이라는 거 사실 저는 빅데이터라는게 그냥 일반 2:22 데이터 뭐 굳이 분을 할 수는 있는데 뭐 데이터 크기라던가 2:27 속도라 런 측면에서 논하고 싶지는 않아요 2:33 왜냐하면은음 중요한 거는 데이터의 크기나 뭐 이런게 아니고 데이터에서 어떤 인사이트를 얻어내고 어떻게 2:40 적용하느냐 그게 훨씬 중요하다고 생각을 하기 때문에 어 요즘 얘기하는 빅데이터 시대라는게 새로운 건 2:47 아니라고 생각을 합니다네 그럼에도 불구하고 학교에서 학교 내부에서 어떤 수업을 하게 된 2:53 데이터 분석 수업을 하게 되면은 토일 데이터를 다루게 되죠 가공이 돼 있는 데이터 이런 것 3:00 왜냐하면 짧은 시간 안에 뭔가 해야 되기 때문에 어 그러다 보면은 실제로 3:05 실무을 한다거나 내가 뭔가 새로운 데이터를 찾아서 가공을 해서 3:11 어 어떤 인사이트를 추출해 된다 이게 쉬운 일이 아닌 3:16 거죠 그래서음 제가 빅데이터 캠퍼스에서 수업을 진행한 이유는 사실은 그런게 3:22 굉장히 커요 여기 오면은 그래도 상당히 큰 데이터들이 어 있고 어느 3:28 정도 가되지 않은 상태에 어 다시 얘기하면은 여러분들이 데이터 캠퍼스 3:35 자료를 이용을 하시려면 상당히 많은 노력이 필요하다는 얘기가 되기도 하는데 어 그런 어떤 경험 경험이라 3:43 그가 노력이 어떤 데이터 분석가로서 나중에 뭐 일을 하신다거나 연구자로서 3:49 일을 하실 때 굉장히 중요한 경험이 될 거라고 생각을 합니다 시장이 좀 장황 3:55 있는데요네 그래서 오늘 말씀드린 내용은음 일단 데이터 기반 의사 결정에 대해서 4:01 말씀을 드릴 거예요 어 제가 생각하기에 뭐 요즘에 스마 도시계획 분야에서는 스마트시티 물론 4:08 도시 분야 아니고 다른 분야도 많이 관련이 돼 있지만 어 스마트시티 얘기도 많이 나오고 빅데이터 얘기도 4:15 많이 나오는데 가장 근본적인 이유는 데이터 얘기 하는 거는 어 의사 4:21 결정을 할 때 정책 결정을 할 때 이랬을 때 어 기존에 하던 방식하고 4:26 다른 방식으로 할 수 있지 않을까 데이터 분석을 통해서 더 객관적으로 4:32 이전에 보지 못하는 방식으로 더욱 합리적으로 데이터 분석을 할 수 있는 4:38 어 어떤 기법을 개발을 해보자 이런 것들의 목표가 있기 때문에 이런 4:43 데이터 기반 의사 결정에 대해서 좀 이론적인 부분을 말씀을 드릴 거고요 그리고 서울 생활인구 아시는 4:51 분들도 있으실 거고 모르시는 분도 계실 텐데 어 생활인구 데이터를 어 설시하고 트하 같이 개발 4:59 해서 지금 여인 데이터 광장에 서비스를 하고 있습니다 공개 데이터로 어이 데이터를 활용을 해서 어 정책에 5:08 반영한 사례도 있고 작지만 어 다른 쪽으로 활용한 사례들이 있어서 이런 5:14 것들에 대한 사례를 말씀드리겠습니다네 그리고 여러분들 사실 지금음 공구전에 관심이 있어서 5:20 오신 건데 저희 학생들도 어 작년인 거 같습니다 5:27 작년에 공모전에 참여를 했었고 그 공무 전에 참여한 내용이 실제로 어 5:34 정책적으로 반영된 작은 사례지만 반영된 사례도 있어요 그리고 어 그때 5:41 나왔던 어 것 중에 하나가 화재분석이었는데 그 화재 분석을 조금 5:48 더 소울 시하고 같이 더 진행을 해서 공개는 되지 않은 연구이기 하지만 5:55 내부적으로 어떤 결과를 낸 사례도 있고 해서음 6:00 좋은 기회가 될 수도 있을 거라고 생각을 하고요네 그래서 공개할 수 있는 부분은 어떤 식으로 해서 그런 6:06 공모전 결과가 실제로 정책이 반영되었는지 그런 얘기도 조금 하도록 6:16 하겠습니다 자 그래서 처음 시작할 얘기는 어 인벤션이 있고 이노베이션이 있죠 6:25 인벤터는 어 뭐라 뭐라고 해석하면 되죠 죠 6:31 어 기술을 의미합니다 가지고 있는 기술 이노베이션은 혁신이 6:40 혁신 좋은 기술이 있으면 혁신이 되나요 좋은 기술이 6:46 있으면 좋은 기술이 있다고 다 혁신이 되지는 6:52 않죠 예전에 어 처음에 초기에 자동차가 개발될 때 자동 6:59 기술도 있었고 내형 기간 자동차 기술도 있었죠 그렇지만 생각을 7:05 해보면은 전기자동차가 더 우수한 기술이었 수도 있었을 것 같아요 그렇지만 혁신을 이룬 거는 7:12 내용 기간 자동차였다 꼭 혁신이 이루어지는 거는 7:18 아니잖아요 그러면은 혁신 기술에서부터 혁신이 어떻게 이루어지는가를 생각을 7:23 해보면 어 기술이 받아들여줄 수 있는 떤 사회적 시스템 시스템 7:30 문화적 합의 라이프스타일 변화 이런 것들이 다 어어 져야지 궁극적으로는 7:37 혁신이 일어나는 거죠 예를 들면 아이폰 같은게 그랬죠네 사실 그런 전화기를 아이폰을 7:46 만드는 기술 자체는 그 이전부터 있었을 수도 있었을 것 같아요네 컴퓨터 디스플레이 화면도 있고 뭐 7:54 무선통신 기술도 있고 소프트웨어 기술도 다 있었는데 어 그것이 사회 7:59 임팩트를 칠 수 있는 혁신을 일으킬 수 있는 무엇인가 아이폰이라는 결과물로 나오기 위해서는 기술에 대한 8:06 이해도 있어야 되지만 사회 시스템에 대한 이해 뭐가 필요했을까 그리고 어떻게 보면 8:13 문제의식 같은게 굉장히 중요하다고 생각을 하는 8:18 거예요 얼마 전에 인상 굉장히 상게 본 그 졸업사 그 당시 대표 혹시 8:27 아세요 서울대 졸업식 방 대표가 한 축사 화제가 된 거 8:32 같은데 어 본인은 구체적인 꿈이 없다고 그러신 8:38 거 같아요 구체적인 꿈이 있는 사람이 아닌데 불만이 굉장히 많은 사람이라고 8:45 하시더라고요 불만이 굉장히 많아서 더 잘할 수 있는데 대충 넘어가고 이런 거를 굉장히 싫어하고 그래서 어떻게 8:52 보면 주이고 근데 그 말씀을 나대로 다시 해석을 해보면 문제 식인 거 8:58 같아요 문제의식 어 저는 도시 계획을 기본적으로 도시 계획 도시 설계를 9:04 하는 입장으로서 그러니까 도시에 대한 문제 의식에서부터 출발을 합니다 9:11 그래서 데이터 분석을 한다고 그러면 데이터에서 터 시작을 해야 되는게 맞는 거 같긴 하지만 9:17 어 사실은 문제 의식에서부터 시작을 하는게 나중에 무엇이 나오는가에 9:23 굉장히 큰 영향을 미친다고 생각을 해요 그래서 조금 더 말씀을 드려보면 9:31 어 기회가 있을 때마다 말씀드리는 건데 어 데이터 분석은 엑스레이 찍는 9:36 거랑 굉장히 비슷하다고 생각을 합니다 엑스레이가 중요한 거는 다 9:42 아시죠 의사 선생님들이 굉장히 유용하게 쓰시는 9:48 도구이죠 어 그냥 눈으로 봐서 엑스레이가 없었을 때 의사 9:54 선생님들께서 얻을 수 있는 정보 이상의 정보를 레가 제공을 해 주죠네 10:00 그런데 저 엑스레이를 보면은 우리가 뭘 할 수 있나요 저거를 읽으실 수 있어요 저기서 정보를 얻어내고 진단을 10:08 하 사용할 수 있고 없으시죠 저도 못합니다 왜냐 10:14 의사로서 훈련을 받지 않았기 때문에 마찬가지입니다 옆에 데이터가 10:23 있죠 어 중요한 건 알겠는데 뭐 많이 쓴다 그러는데 10:28 저기에서 정보를 얻어내는게 그렇게 쉽지 않아요 유용한 정보를 얻어내는게 10:34 저 유용한 정보를 얻어내려면 도메인 리지가 있어야 돼요 의사 엑스레이를 이용하기 위해서는 10:41 의사로서의 지식이 필요합니다 전통적으로 어 어떤 지식 그런 것들 10:48 마찬가지로 혹시 뭐 어떤 필드에서 오셨는지 잘 모르겠는데 어 각자 뭐 10:55 경제 쪽에서 오셨으면 경제에 대한 도메인 난지가 있어야 되고 도시 계획 쪽에서 오셨으면 도시 계획에 대한 11:01 도메인 리지가 있어야지 데이터를 분석을 해서 해석을 해서 이용을 하실 수가 있는 11:06 거죠 그래서 어 데이터 얘기를 하면서 항상 강조해야 될 부분은 저는 오히려 11:13 전통적인 지식이라고 생각을 해요네 데이터 분석이라는 기술은 일종의 도구로서 사용되는 것이고 어 11:22 저거를 어떻게 이용하느냐 이것은 어떻게 보면은 상당히 전통적인 지식 11:30 지혜 경험 이런 것에 많이 의존을 한다라고 말씀을 드리면서 어 이런 거 11:37 많이 보셨을 거예요 어 데이터가 어 어떤 11:43 인사이트로 가는 라드 그서 데이터라고 그러면은 보통은로 데이터를 의미합니다 11:49 가공되지 않은 데이터 아까 전장에서 본 숫자로이지 텍스트로 이러지 우 뭐 11:55 영상 데이터도 있지만 그런 가공되지 않은로 데이터를데 라고 불리고 굉장히 12:01 많죠 인포메이션이 하는 거는 저 데이터에서 어 12:07 가공된 정보를 말하는 거죠 의미를 가지고 있는 정보 그래서 저 데이터에서 인포메이션 12:15 추출하는 과정을 어 뭐 데이터 마이닝이 할 수 있을 거고 데이터 어널리시스 할 수 있고 뭐 여러 가지 12:24 용어로 불립니다 하지만 근본적으로 얘기하는 거는 어 그냥 이뭐 원 12:29 데이터에서 필요 정보를 추출하고 필요 정보를 가공하고 시각화하고 이런 과정을 말하는 12:36 거고요 거기에서 인사이 통찰력을 얻는 단계로 넘어가기 위해서는 아까 12:42 말씀드린 거 같이 데이터를 분석하는 기술만 가지고는 부족하다 될 12:47 거죠 사회에 대한 이해 뭐 시장에 대한 이해 주제에 따라서음 그런 어떤 12:54 세상에 대한 이해가 굉장히 필요합니다 그런 이해를 통해서 이해를 12:59 바탕으로 어 어떤 디시전 메이킹을 한다던가 정책을 결정한다 그가 어떤 액션을 13:05 취한다 그가 이런 단계를 거치게 되는 거죠 그래서 보통 데이터 사이언스 13:13 얘기하면은 이런 다이어그램도 꽤 많이 보셨을 거예요 데이터 13:18 [음악] 사이언스라이프네 뭐 파이썬을 쓰던 R 13:24 쓰던 다른 소프트웨어를 사용하던 이런 것들이 필요하고 어 13:29 그리고 중요한게 이제 통계기법 또는 요새는 뭐 머신 러닝이 딥러닝이 AI 이런 기술들이 상당히 13:37 많은 부분을 차지를 합니다 그리고 중요한게 드 of 리케이션 그 도메인 13:44 리지를 어 굉장히 중요하게 생각하죠 도이 말씀드리지만 저게 굉장히 13:50 중요합니다 그래서 그 교 집합으로서 같혀 나오는 것이 데이터 사이언스라이프 13:59 자 그래서 데이터 기반의 생정 과정을 도식화 시켜 보면은 어 그니까 기록 14:04 진단 예측 행동음 과학에 단순화 시킨 걸 수도 있지만 저런 단계를 거쳐서 14:10 어 어떤 의사 결정을 할 수 있다고 어 볼 수가 있습니다 그래서 기록에는 14:15 일단 데이터베이스를 관리를 한다거나 데이터를 수집을 한다거나 뭐 이런 것들이 많이 개입이 되는 부분이고 어 14:24 데이터를 모은 거죠로 데이터를 모으고 관리하고 어 그런 모아진 데이터를 가지고 14:31 진단을 하게 됩니다 레 직 듯이 그래서 데이터 분석을 하고 시화를 하고 통계 분석을 하고 그러면 저런로 14:38 데이터들이 어 좀 유용한 정보가 될 것이고 그리고 최근에 많이 이용하는 14:44 거는 머신러닝을 사용하는 거죠 그래서 예전에 있었던 데이터 현재 시점에서 14:49 모아진 데이터는 예전의 데이터들이 그 데이 데이터를 분석을 한다는 거는 14:55 예전에 어떤 패턴을 볼 수가 있는 거죠 머신러닝이나 딥러닝이 주로 많이 15:02 사용하는음 용도 중에 하나는 미래 예측 부분이 있습니다 그게 뭐 어느 정도 15:07 정확하냐 여러 가지 논란이 있겠지만 그 예측 부분이 있을 거고 왜 예측 부분이 있냐 면은 미리 예방을 하기 15:14 위해서 어 또는 미리 대응책을 세우기 위해서 준비를 하기 위해서 어 사용할 15:21 수가 있겠죠 예를 들면은 불할 확률이 높은 지역에 뭐 미리 순을 하고 15:27 점검을 하고 하면서 예방을 할 수도 있는 것들이고요네 이런 부분이 있고 아 15:33 이런 어떤 프로시저 할까 이런 것들이 주로 반복이 되고 의사 결정이 효율화 15:40 되게 되면은 조금 더 어 조금이라도 혁신이 일어나고 어 새로운 어 용도가 15:46 생기고 이렇게 되겠죠 그래서 맨 밑에 보면은 어 사례입니다 사례 15:52 어 내용은 공개가 되기 곤란한 부분이 있어서 자세한 내용 말씀드릴 수 15:57 없지만 어 그 과제는 그니까 처음에 소방 지청 데이터를 가지고 어 간단한 16:05 시각화 뭐 통계 이런 것들을 분석을 했고 화재 발생률을 예측하는 고신 16:11 모형을 만들고 그걸 가지고 어 후박 배치 최적화를 위한 어떤 데이터를 16:18 정보를 드린다 아니면 출동 경로 최적화를 할 수 있는 것들 또는 술 16:24 찰 경로라는 예방 활동에 도움을 드릴 수 있는 정보를 제공 을 어 했던 16:31 것들이고요 아까 말씀드렸던 것처럼음 중요한 거는 그러면은 기록 16:36 진단 예측 행동인데 그럼 데이터부터 시작할 것인가 왼쪽에는 데이터부터 시 16:42 할 것인가 아니면은 맨 오른쪽에 뭘 할 것인가부터 시작할 16:47 것인가네 뭐 여러분들 뭐 공부전 하시면서 여러 가지 아이디어들도 가지고 계신 분들도 있을 거고 아니면 16:54 그냥 어 데이터에 관한 관심이 있을 수도 있겠지만 어 어 이쪽을 많이 17:00 생각을 해 보실 거를 좀 말씀을 드리고 싶고요 물론 왔다 갔다 합니다 17:05 한쪽에서 다른 한쪽으로 일방향으로 진행이 되지는 않지만 데이터에 대한 이유도 충분히 돼야 17:11 되지만 어떻게 쓸 것인가 어 저게 명확한 어 프로젝트의 17:18 경우에는 사실은 나머지 부분은 해결할 수 있는 부분들이 많이 있어요 그리고 어떻게 해야 되는지 17:25 방향이 잡히기 때문에 저런 부분에 신경을 많이 써주 면 좋을 것 같다는 생각이 17:31 듭니다 어 일단 서울인구 데이터 아 서울 17:36 생활인구 데이터에 대한 소개를 간단하게 드리면요 일단 뭐 여러 가지 도지 17:44 문제가 있으니까 서울시 같은 경우에는 행정 수요가 있겠죠 당연히 17:49 그런데 서울시가 천만이 넘어간 이후에 계속 주민등록 인구는 감소하고 있는 17:56 추세예요네 그래서 천만 밑으로 떨어졌는데 그러면은 행정 수요가 점점 18:02 감소했으나 그렇지는 않거든요 주민등록 인구는 감소를 했지만 오히려 서울에서 18:08 생활하고 활동하는 인구는 더 늘었다고 합니다 그러면 활동하고 있는 사람 18:14 서울에 빈등록을 가지고 있는 사람만 서울의 행정 서비스 대상은 아니니까 서울에서 18:20 활동하는 사람들이 다 행정 서비스의 대상이 있겠죠 교통에 관해서도 그렇고 18:26 어뭐 여러 가지 어 그렇기 때문에 서울행정 18:31 서울의 행정 수요를 정확하게 파악하기 위해서는 상주 인구보다는 서비스 18:37 인구가 중요하겠다는 개념 하에 어 kt 요즘에는 대부분 사람들이 18:44 스마트폰을 들고 다니시니 어 그리고 LTE 기반의 핸드폰을 많이 들고 18:50 다니시니 어 위치 추적이 어느 정도 됩니다네 그래서 그런 데이터를 가지고 18:58 정 시점에 시간 단위고 특정 지역에 제일 어 조밀한 단위로는 집계구 19:05 단위로 어 활동하시는 그런 인구 데이터를 제공을 해 19:12 줍니다 연령대로 어 나눠져 있고요 그리고 그 19:17 성별로도 제공이 되고 있고 내국인 외국인도 부분에서 제공을 해 주시고 19:26 그리고음 그 거주지 서울 밖에 거주하시는 분들은 거주지 정보도 19:32 있어요 그래서 만약에 분당에서 출근하시는 분이다 19:38 그러면은 특정 시간에 어디 계시는 분들 중에 몇 명이 분당에서 거주하시는 분인데 출근을 했다 이런 19:44 정보도 얻을 수가 있습니다 19:50 어네 예전에 뭐 유동인구는 거는 어 데이터 측정하는 방법이 19:57 가지가 있죠서 개수기 들고 카운팅하는 방법이 있고 아니면은 뭐 cctv 20:03 같은 거에서 카운팅하는 방법이 있고 이런 부분이 있는데 어 서울에서도 20:08 예전에 어 유동인구 조사를 했었어요 나가서 뭐 천 지점에 나가 가지고 20:15 조사하고 그랬었는데 어 비용이 많이 들죠 비용이 많이 들고 천 지점 20:21 서울에서 천 지점이라는게 뭐 많은 지점일 수도 있지만 그렇게 또 많은 지점 또 아닐 수도 있고 계속해서 20:27 하기도 힘들고 어 그렇지만 세로 인구 데이터는 물론 한계도 있기는 하지만 20:32 상당히 어 긴 시간에 거쳐서 어 데이터 20:37 제공할 수 있는 좋은 방법이라고 생각을 합니다 그래서 보정이나 이런 부분은 20:43 여러 가지 뭐 판의 소지도 있을 수 있는데요 어 일단 시장 정율 KT 20:51 시장 정율 또는 모든 분 LT 사용을 하지 않으니까 그 추정의 추정에 가정 20:58 가정이 더 붙여서 추정된 인구 있긴 한데 뭐 이런 비율들 그다음에 휴대폰을 뭐 꺼 주시는 분들 계시니까 21:06 그런 비율 그다음에 뭐 10대라 10대만 어린 아이라가 너무 고령이신 21:12 분들은 또 핸드폰을 많이 사용 안 했으니까 이런 부분을 보정을 해서 마음 타입니다 그래서 집게 그라는게 한 저 21:19 정도의 사이즈를 얘기를 하는음 어 공간 다니고요 한 21:26 19,000 개 정도 의 직계를 가지고 있습니다 서울에서 21:33 아네 그래서 등록이 생활인 거는 다 같진 않다 뭐이 정도로 해서대 소개를 21:39 마치고요 자 그럼 서울 생활인구 분석 사례를 말씀드릴 21:44 건데요음 생활인구 데이터 구조를 어 간단하게 보여 드리면 요렇게 돼 21:52 있습니다 데이터 분석하신 경험이 많으실 수도 있고 처음 보시는 분들도 21:57 계실 거예요 어 데이터를 보면은 일단 코드북을 22:04 보셔야 되는데 데이터 설명서에 이게 열 아 행으로 된 22:09 것들은 건찰 값이 되는 거고 그다음에 칼럼들이 있죠 변수들이 쭉 있는데 이런 변수들이 어떤 의미를 가지는가에 22:17 대한 어 이해를 우선 하셔야 되고 그니까 날 아 그는 연월일 시간대 행정동 22:27 구분 부분도 물론 있습니다 그리고 총 어 생활인구 그다 특정 동에 특정 22:34 시간에 특정일에 존재하는 생활 인구 데이터가 제공이 되는 거고 이게 남자 22:41 10대 남자 10세에서 15세 이런 식으로 제공이 됩니다 물론 쭉 가면은 22:48 여자도 연령대별로 제공이 되고요 자 이런 데이터를 가지고 22:54 분석을 하는 건데 어 폭염 그니까 1년 전 1년 전인지 23:01 2년 전인지 기억이 확실하지 않는데 공모전에서 그 열질환 또는 열성 23:08 관련된 분석을 해서 상활 받은 학생이 있었어요네 공모전 통해서 하신 23:16 거죠음 근데 작년에 굉장히 더웠죠 굉장히 더고 지간 환자 수도 23:23 굉장히 많이 늘었습니다네 그래서 그 공모전에 나온 주제하 그때 상황이 어떻게 보면 잘 23:30 맞은 거였죠 처음에 했던 거는 그 동전에 나왔었던 어 분석을 조금 더 23:37 고도화한다 할까 조금 더 해서 실제로 동별로 열하 환자 수라든가 이런 23:44 것들을 이용을 해서 분석을 좀 더 심도 있게 한 것들도 있었고 오늘 말씀드린이 부분은 23:52 근 설치인데 작년에 제일 히트한 정중에 23:58 나가서 그늘막 설치하는 거라고 하더라고요 그래서 처음에 서초구에서 했다 정확하진 않습니다 한 군대에서 24:06 했는데 굉장히 반응이 좋아서 다른 부에서도 많이 적응을 했고 어 24:12 중남부에 그 당시에 그늘막이 이미 설치가 돼 있었고 추가로 설치를 24:17 하려고 하는데 어디에 설치하면 좋을까를 데이터 분석을 통해서 한번 24:23 해 보자라는 의견이 있었어서 진행을 했던 내용입니다 24:32 자 폭경 그늘막네 다 아시죠 폭경 그늘막은 자 그러면은 그늘막 설치하기 24:40 좋은 지점이 뭘까요 그늘막이 설치되기 적합한 지역이라는게 24:49 뭘까요 정향이 나름이죠네 정학이 나름인데 어 몇 가지 조건들이 있다고 24:56 생각을 했습니다 좀 정한 거죠 일단 폭염에 취약한 계층이 있어요 25:01 어린아이라 그가 아니면 노인이라 그가 이런 거 이런 계층이 폭염에 취약하기 25:08 때문에 그런 폭염에 취약한 계층이 많은 지역이면 그늘막이 더 필요할 수 25:16 있겠죠 또 하나는 온도가 높은 지역이면 더 필요할 수 있겠죠 집편 25:21 뭐 열성 현상이라고 다 들어보셨겠지만 집편 온도도 그렇게 일정하지 않습니다 25:27 도시에서 그러면은 그런 지표면 온도를 봤을 때 25:32 온 지표면 온도가 높은 지역이 내막이 더 필요하다고 볼 수가 25:38 있겠죠 그리고 용도도 사 어 도로망도 25:43 중요합니다 왜냐하면은 너무 작은 도로나 좁은 도로 같은 경우에는 25:49 설치할 공간이 많지 않아요 그래서 설치할 만한 지역을 수출을 하려면 25:55 어떤 도로 위계나 이런 것들도 봐야 되는 부분이 있습니다 뭐 기타 더 보려면 건물에 의해서 어 26:02 음영이 어떻게 해지는지 뭐 이런 것들 볼 수 있겠지만 간 분석을 할 때 사용한 요소는 저정도입니다 26:08 그래서 몇 가지 조건들이 나와 있죠 26:13 어 60 기변에 가장 민감한 어 집단 26:18 아 온도 먼저 아 온도는 온도 26:23 데이터는 일반적으로 어디서 오나요 기상에서 죠 기상청에서 어 26:31 보통 구별로 하나씩 있습니다 기상청 자료가 기사 그 그 수집하는 데가 어 26:38 그럼 중랑구의 온도로 수집을 하려고 하는데 지역별 변화는 알 수가 26:43 없죠네 그래서 사용한 방법은 그 위성 26:48 영상에서 그 레이어들이 여러가지 이미지의 레이어들이 여러 가지가 있으니까 그 레이어들을 분석을 해서 26:54 GP 온도를 추출할 수 있는 기법이 있습니다 리모트 센싱 기법 법중에 영상에서 추출 영상에서 그 셀별로 27:03 온도를 추출하는 방식이기 때문에 지역을 편차를 알 수가 있는 거죠네 그런 방식으로 27:10 어 그 온도를 추출을 해서 어 33도 27:15 이상이면 기상청에서 폭염 특보 또는 아 폭염 특보를 발령을 한다고 합니다 27:21 33도 이상인 지역을 추출을 했고요 그 인구적 봤을 때 어 60세 이상 27:28 그리고 세미한 어린이들 추출을 해서 어 취약계층으로 선정을 했고요 27:36 지역별로는 어 유동인구 많이 발생하는 도로 위게임 자 시간대는 하루 종에 27:42 가장 더운 시간대 12시에서부터 2시 사이에 유동인구가 많은 지역을 선택을 27:48 했습니다 그리고 아 생활인구 데이터를 통해서 저런 인구를 추출 했는데요 아까 27:54 말씀드린 대로 지역별 시간별 데이터가 있으니까 어 시기는 6월 7월 8월 데이터를 추출 28:04 했고요 어네 그래서 아까 말씀드린 거를 28:09 도시화한 건데 요런 데이다 33도 이상 지역 취약인구 밀도가 상위 10%인지 28:17 깨고 그리고 아까 말씀드린 대로 어 이미 그만 설치한 지역이 있었기 28:23 때문에 그 데이터를 가지고 설치되지 않은 지역을 데이터를 추출해서 오버레이 방식을 28:30 통해서 어 적합 지역을 추출했습니다 자 이게 어 중남부의 28:38 현황도 였는데요 위성 사진이고 지금 체크 표시돼 있는 부분이 그 당시에 28:44 그늘막이 설치돼 있었던 지역을 28:51 나타냅니다 자 그리고 위성 사진 자 요런 사진을 28:56 어 그 그 주로 위상은 다 미국에서 가지고 있으니까 그런 데이터를 다 29:04 다운로드 받을 수 있게 공개를 합니다 시간 세로 근데 이제 구름 이런 것들 29:10 구름이 끼어 있으면은 아무래도 지표도 추출하는데 굉장히 큰 영향을 미치기 때문에 29:15 최대한 없는 거를 이용을 해서 추출을 했고요 그래도 물론 5차원 있습니다 29:21 항상 데이터는 완벽한게 없기 때문에 네자 그래서 추출을 해서지 를 어 29:29 표현을 한 겁니다 지금 진한색으로 돼 있는게 30도 이상이죠 그다음에 어 나머지 부분들이 29:36 30정도 미만으로 나타나 있죠 이렇게 29:41 나타났고요 자요 부분은 29:47 어 평균 생활인구 밀도를 나타냅니다 지나면 지날수록 어린이와 노인의 29:53 생활인구 그니까 낮 12시부터 2시 사이에 어 시작 인구의 밀도가 높은 29:59 지역을 나타낸 거고요 자 그래서 상 10% 지역만 추출을 한게 여기 30:04 녹색으로 나타나는 지역입니다 그리고 도로망 데이터를 모래 시켰고요 자 몇 30:09 군데 보이시나요 설치를 하고 싶다라는 지역들이 30:15 보이시나요 뭐 이런 부분 이런 부분 뭐 요런 부분 이런 30:21 부분네네 요런 부분이 좀 필요하지 않을까라는 생각이 30:26 들었습니다 자 그래서 후보지를 선정을 했고요 다섯 30:33 군데 현장 조사를 했습니다 데이터만 가지고 해결되는게 30:38 아니기 때문에 현장에 그런 지점에 상황이 30:43 어떤지 과연 설치를 할 만한 공간이 있는 건지 그리고 실제 나왔을 때 30:51 어 그 주변 상황들이 있는데 어떤 걸 고를 해야 30:56 되면은 들한테 동의를 받아야 됩니다네 싫어하실 수 있거든요 그리고 31:04 교통 경찰들이 보기에 사고를 유발을 할 만한 가능성이 없어야 31:09 돼요 그런 그런 요소들 어 그리고 실제로네 나가서 보는 건 좀 다르기 31:16 때문에 하여간 체크를 해봐야 되는 부분들이 있었어서네 저런 식으로 다섯근 다 31:22 돌아다니면서 체크를 했고요 어 중구에서는음 31:28 음 어 공무원 분들하고 경찰청에서 리뷰를 31:34 하시고 이런 운전자 시야나 그늘이나 뭐 동의 부분 이런 부분들은 다 31:39 고려를 해서 탑런 주차문제 최종적으로 두 31:45 군데를 선정을 하셨습니다 그리고 여기에 설치가 된 31:52 거죠 어떻게 보면 굉장히 작은 사례라고 생각을 해요 네은 하긴 31:58 하지만 프로세스는 생각을 해 보실 만할 거라고 생각을 합니다 생각을 전개해 32:05 나오는 프로세스 목표가 무엇일까 목표를 통해서 어떤 지표를 추출을 할 것이고 그 전에는 32:13 기술적인 문제이지만 그 지표를 추출하기 위해서 어떤 데이터를 이용하고 어떻게 가공할 것인가 이런 부분들이 연결이 돼야지 데이터 분석이 32:21 가능합니다 자 그다음에 보여 드릴 거는음 성남 생활인구 기출 분석인데 32:28 현재 공개돼 있는 데이터로는 성남의 생활인구 데이터는 제공이 되지 32:33 않습니다 근데 어 지자체에서 이런 생활인구 서울처럼 32:39 생활 인구를 어 서비스를 받으려는 노력을 좀 하고 있고요 그 노력 중의 32:46 일환으로서 어 이거는 샘플 데이터를 kt's를 통해서 제공을 해 주셔서 32:52 어 분석을 진행을 했던 사례이고 어 이거를 통해서 연구를 32:58 진행을 했는데 목표는 뭐냐면은 어 산업 33:05 분석이었다 산업 33:17 집적지이자 수행을 했던 과제입니다 어 성남은 아 20개가 아니고 33:25 50개 거 같은데네 하여간 보다 굉장히 적죠 한 100만이 조금 안 33:31 되는 인구를 가지고 있는 도시고 어 제공받은 생활인구 33:37 데이터는음 서울시는 지구 단위로 제공이 되지만 성남시 데이터는 그 33:42 정도로 가이 되지 않았기 때문에 행정동 단위로 제공을 33:49 받았습니다 자 일주일 데이터를 받았는데 시적으로 33:55 보게 되면은 4월 4월에 4월고 6월에 한 주의 데이터를 봤는데 자 34:02 이렇게 월 화시 금토일 보면은 플럭츄에이션 볼 수가 34:08 있습니다이 얘기는 뭐냐면은 100만이 조금 안 되는 34:13 주민등록 인구를 가지고 있는 도시인데 낮 시간 동안에는 인구가 유입이 되는 34:18 거죠 그리고 저녁에는 유출이 되고 그런데 여기를 보면은 34:29 분당 신도시가 예전에는 배드 타운이라고 되게 비판을 많이 받았는데 어 신도시 중에 베드타운으로 밖에 34:37 기능을 못 하는 도시들이 있죠 근데 이게 나타내는 거는 성남은 배드 타운은 아니에요 34:43 확실히 베드타운이 주간에는 유출이 되겠죠 내가 여기서 살다가 밤에 자고 34:50 출근 시간 되면은 뭐 서울로 가서 직장으로 가고 그런게 이제 배드 타운이라고 볼 수 있는데 여기는 34:56 주간에 유입이 됩니다 물론 성남에서 사시다가 사시면서 서울로 출근하는 35:02 인구가 꽤 많죠 많기는 하지만 그것보다 유입되는 인구가 더 많은 거예요 어떻게 보면 35:09 훨씬 어 이거를 보시면 무슨 생각이 35:18 드시나요 어떤 생각이 드세요이 패턴은 이해가 35:26 되죠 얼라 수목금네 5일 동안 루틴하게 가는 35:34 거 어 저희가 해석하 35:40 기로는 주말에 별로 할게 없구나 성남에서네 그렇지 않나요 주말에 별로 35:49 할게 없는 거죠 어 실제로 고민을 많이 하십니다 근데 35:56 성남만의 문제는 아니고 어 여러 지자체에서 어떤 문화가 36:02 즐길거리가 거라든가 이런게 많으면은 주말에 유입이 되죠 딱 관광지는 36:10 아니더라도 그런 생활의 부분 그니까 이게 조금 더 디테일하게 보면은 다른 36:16 문제가 나올 수는 있지만 어 뭔가 읽을 수 있는 그 도시를 레이처럼 36:21 진단을 할 수 있는 여러가지를 줍니다 대별로 보면은 상당히 젊습니다 36:31 우리나라가 노래화 되고 있긴 하지만 지자체별로 보면 성남시를 보면 상당히 36:37 3 40대 비중이 높은 도시고네 30대 주간 입하고 50대 36:43 주어 상 더 들어지는 이런 것도 좀 자세히 생각해 봐야 될 거리는 있지만 일단 36:48 넘어가겠습니다 자이 부분은음 아까 보여 드린 거를 행정동 36:56 별로 본 겁니다 행정 37:01 성남이라도 성남의 구가 세 개가 있는데요 분당구 중원구 수정구 굉장히 37:08 다르고요 그 구 안에서 있는 행정도 굉장히 다릅니다 37:14 특성이 다르다는 거를 누구나 알고 있긴 한데 그게 어떻게 다른지를 어 이거를 보니까 정도 37:23 보이더라고요 보이세요 전 적으로 분구하고 밑에 37:29 있는 중원 수정고 하고는 인구 차이가 좀 있고요 자요 37:36 부분이 삼평동 있데 여기가 판교 37:41 테크노밸리에 주간의 인구 유입이 어마어마하죠 여러 가지 측면에서 봤을 37:47 때 어 그니까 지식산업 지식 기반 산업 지식 37:53 기반 제조업 지식기반 서비스업 왜 거의 핵심으로 부상을 하고 있습니다 37:59 황경 테리가 강남과 더불어 구로 38:05 금천도서관 dig 서연동 이쪽은 뭐 내부적으로 38:12 분당 벤츠라고 얘기는 하는데 기본적으로 산단으로 조성되는 지역은 아니지만 어 꽤 많은 기업들이 들어가 38:19 있고 어 여러 가지 어 즐길거리도 많은 거죠 먹을 때도 38:26 많고네 이런 지역이라서 유입이 많은 지역이고 수동도 마찬가지고 자동도 38:33 마찬가지입니다 자 여기이 부분 자 요런 데랑 굉장히 다르죠 요런데 38:39 이런데 태평 일동이 그가 뭐 이런데 신흥동 이런데 유임 유출 자체가 38:45 그렇게 많지 않고 주간에는 유출되는 이런 지역들이 38:50 있습니다 꽤 정책이 돼 있다고 볼 수가 있고요 어 구미동이나 이런데 38:57 또 야탑 아 탑은 아니고 백현동 이런 데는 전형적인 주거 지역의 패턴을 39:03 나타냅니다 주간에 유출되는 지역 그리고 성남 하이테크 밸리 여기는 39:08 예전에 성남 일반 3단이라 해서 공장 지대가 있는 39:13 지역입니다이 지역이 뭐 굉장히 중요 산업적으로 보면 굉장히 중요하죠네이 39:19 부분 이런 지역을 어떤 식으로 어 개선을 할 것인가 보도할 것인가 39:25 이런 것들이 큰 주제였는데 음 판교 테크노 밸리에서도이 부분은 39:31 있습니다 그런 얘기 많이 하는데 단 판교 테크노밸리 같은 경우에 일할 때는 굉장히 많은데 좀 먹거리 물걸리 39:39 이런 거는 별로 없다는 얘기를 해요 그러면은 어 주말에는 굳이 거기 갈 39:44 필요가 없는 거죠 그리고 일하는데만 있으면은 뭔가 문화가 생긴다던가 39:52 퇴근하고 뭐 영화를 한번 본다던가 아니면 맛있는 걸 먹는다던가 이런 식의 어떤 생활문화가 들어가기는 40:00 굉장히 어려운 상황이 되고요 그럼에도 불구하고 유입이 되기는 하는데 분 그니까 분당 동하고 굉장히 다르죠 40:08 여기는 어 적어지는 정도가 아니고 아예 유출이 돼요 주민 등록인 보다 40:15 여러가지 생활의 기반시설이 낫다는 얘기고 어 저에게는 무슨 40:23 얘기냐면음 젊은 사람들이 각기 꺼는죠 교 문제도 있고 여러 환경의 문제도 40:29 있고 여기 대부분 젊으신 분들이 많이 계시는데 어 좋은 환경에서 일하고 싶어 40:36 하시잖아요 대부분 교통도 편리하고 그리고 주변에 어 뭐 즐길거리도 있고 40:42 깨끗하고 이런 데서 일하고 싶어 하십니다 대부분 근데 그런 것들에서 40:47 상당히 약점을 나타낼 수 있다 물론 저 데이터만 가지고 하는 40:52 얘기는 아닙니다 여러 가지네 기본적인 어 네 이해는 가지고 있는 거고요 자 41:00 그리고 인구 피라미드를 어 동별로 만든 41:06 거예요 오후 2시 주심 평등에서 만든 건데 여기서도 41:12 굉장히 편차가 심하다는 거를 보실 수가 있을 거예요 노령화 돼 있는 지역들도 있고요 이런 41:19 식으로 한교 테크노밸리 같은 경우에는 남자 30대 40대 인구가 41:26 압도적입니다 네 이런 식의 패턴을 나타내는 데가 41:31 그렇게 많지가 않아요 다른 데로 해 보면은 구로금천 정도가 저 정도를 나타내는데 그니까 그 41:39 어 어떤 일자리를 창출 한다거나 아니면은 요즘에 뭐 청년 치하 산단을 41:45 얘기를 한다던가 이런 부분에 대해서 얘기를 하는데 어 이런 인구 피라미드를 보면은 한글 사례에 대해서 41:52 한번 생각해 볼 분이 굉장히 많다는 거를 아실 수가 있습니다 이게 뭐 뭐 단순하게 설명을 할 수는 없지만 뭐 41:59 때문에 판교에 저렇게 젊은 사람들이 선호하는 일자리가 많은가 도시 계획적으로 얘기를 할 수는 없고 42:04 산업적인 부분도 다 같이 들어가 있고 로케이션의 문제 교통의 문제 어떤 42:10 지원의 문제 개발했을 때 상황 여러 가지가 복합적으로 어 영향을 미쳐서 저런 42:16 결과가 나타난 거긴 한데 그런 사례를 깊게 들여다볼 만한 필요는 있다고 42:21 생각을 합니다 그런 면에 있어서 성남하이테크밸리 같은 경우에는 어 그렇게 잘못한테 특히 매력적인 자리는 42:30 아니구나라는 걸 볼 수가 있고요 자 그래서 세 지역을 어 42:38 말씀드린 거고요 조금 더 디테일하게 42:45 말씀드리면 아 분당 매처 그니까 정자동 수내동 뭐 이런 데를 42:50 말씀드리는 건데 어 여기는 소위 말하면 도시에서 얘기하는 복합 42:55 용도입니다 믹스드 유데 있는 데 산업도 있고 사람 사는데도 있고 그다음에 상업 시설도 있고 술 마실 43:03 때도 있고 밥 먹을 때도 있고 일정하게 나타나는 거죠 공동화가 나타나지 않는 43:12 거예요 판교 같은 경우에는 유입은 다른 적을 다한 것만큼 많이 나오는데 43:18 그럼에도 불구하고 어 주말에 그니까 믹스가 안 돼 있는 저런 문제점이 43:23 나타나는 거고 어 그 성남 하이테크 배 일반 산담 43:29 같은 경우에는 주말에는 오히려 유출되는 런게 있고요네 많이 43:35 말씀드렸으니까 넘어가도록 하겠습니다 자 그리고 아까 생활 43:41 데이터 말씀을 드릴 때 어 거주지 데이터가 있다고 43:47 말씀드렸었죠 그래서 그 거주지 데이터를 시각을 시각화를 한 거예요 43:53 어 그래서 평동 테크노밸리에 오후 2시에 거주하는 사람 아 오후 2시에 평동에서 생활하는 44:02 사람들의 거주지를 시각화 건데 어 광주시에서 굉장히 많이 오고요 아 44:10 우선 성남 시내에서 온 분이 31점 99% 성남시 외에서 온 분이 68% 44:18 그래요네 이거는 유입이 굉장히 많다는 거죠 청남 외부에서 유입이 그니까 44:23 이게 베드타운의 위상은 넘어간지가 오래된 거예 오히려 어떤 지역의 산업 44:29 중심지로서 자리매김한지 오래 됐고요 어 44:34 그중에서도 용인시에서 많이 오시고요 광주시에서 많이 오십니다 그리고 강남구 이런 쪽에서 44:42 강남구 서초구 이런 송파구 이런 쪽에서 성남으로 44:48 출근하시는 분들도 꽤 돼요 상당한 비유를 차지를 합니다 여기서 보게 44:53 되면 반면에 상대동에 있는 테크 일반 선담 같은 경우에 44:59 어 우선 성남 시의 비율이 더 높고요 45:05 시 광주시에서 많이 올라가세요 광주시에서 이거는 성남시를 좀 아시면 45:12 저 스토리를 알게 되는데 어 성남시 일반산단 주변이 성남의 구도 심인데 45:22 어 그 분당학원 좀 많이 다른 환경에 있습니다 그래서 오래된 지역이고 해서 어 45:30 그리고 뭐 도시 재생이라 재개발이 그렇게 많이 일어나지 않은 지역이이고 그런데 가격은 좀 상승하고 45:37 있고 이런 지역이 있어서 광주시에 새 개발이 엄청나게 45:43 많이 일어나고 있거든요 어 길라 같은 걸로 개발이 많이 45:48 일어납니다 그래서 여기 이쪽에 계시는분이 이쪽으로 많이 옮겨 가세요 그서 난 개발이라는 얘기도 45:55 많이 나오고 어 교통의 문제도 많이 제기가 됩니다 왜냐하면은 지하철 같은 46:02 것들도 그렇게 편리하지 않고 길이 좁고 이렇기 때문에서 이런 공포 문제 46:07 주거의 문제 이런 것들이 굉장히 많이 발생을 하고 어 46:14 오히려 상대원 일동이 그단 이런 구도심이라 46:20 분당구 성남의 신도심 이랑의 어떤 연결보다는 방주나 아니면은 용인지 46:28 이런 데와 용일 많은거죠 그니까 성남시 내부에서의 어떤 커넥션이 그렇게 좋지 않다라는 걸 볼 수가 46:37 있습니다 제 네트워크 분석을 한 건데요음 네트워크 분석을 아시는 46:43 분들은 어느 정도 이해가 되실 거고 어 크면 클수록 유입이 되는게 많은 46:49 거예요 크면 동그라미 크면 클수록 그 많이 연결되면 많이 연결될수록 여러 지역에서 오시는 거죠네 보면은 삼평동 46:58 소동 뭐 상대한 일동 이런 부분들이 어 인구의 유입이 굉장히 많은 활동의 47:05 중심지 생활의 중심지라는게 보여질 수가 있고 그리고 선이 두꺼우면 47:10 두꺼울수록 유입이 많은 거니까 어떤 지역하고 어떤 지역이 더 많이 연결되 47:16 있는지를 볼 수가 있는 거죠 그래서 도시 도시를 넘어서 지역적으로 어떤 47:22 활동의 컬렉션들이 활동의 구조들이 어떻게 만들어지는지 볼 수가 있습니다 자 이런 을 잘 보면은 그리고 도시 47:28 구조하고 교통 시스템하에 정책이라 이런 것들에 대한 47:36 근거 자료를 얻을 수가 있다고 생각을 47:42 합니다 어자 이거는 크러스터 분석을 사용을 한 건데요 패턴을 47:49 통해서 주가 패턴을 통해서 분류를 한 겁니다 성남시에 50개 행정동 을 분류를 한 47:58 [음악] 건데요음 뭐 분석기법은 여러 가지가 있긴 하지만 하여간 판교 테크노밸리는 48:04 굉장히 특징적인 걸로 해서 단일 클러스터로 나왔고 요런 부분들이 재밌습니다 이동 48:12 정체 지역 신평동 태산동 운중동 이런 데는 일단 들고 나가는 거 자체가 48:19 많지 않은 동네예요 고령화도 돼 있고 그래서 이런 부분 이런 지역에 대한 48:25 정치하고 이런 지역에 대한 정체는 굉장히 다르겠죠 수요도 다르고 그래서 48:31 이런 분석을 통해서 어떤 지역에 대한 이해를 더 더할 수 있고요 그래서 48:36 주거 이주 지역은 어 인구가 많긴 하지만 주로 아파트 단지가 많은 지역들이 낮에는 비 비는 공동화가 48:43 되는 이런 지역이고 어 주말하루 다 활성화 되는 지역들 대표적으로 서연 48:50 일동 이런 지역들 그다음에 주간에는 활성화되지만 주말에는 공동화 되는 몇 개또 지역들이 있습니다 48:58 자 저런 저런 분석 플러스 이거는 생활인 그로 이용하지는 않았지만 49:03 어 어떤 그 마이크로 통계청 마이크로 데이터 같은 것들이 제공이 돼요 그런 49:11 데이터를 사용을 하면 산업 체가 얼마가 지역별로 얼마가 있다던가 아니면 49:17 산업별로 종사 수가 얼마나 된다던가 이런 것들을 또 시계열적으로 분석을 할 수가 있습니다네 이런 거를 이용 49:24 그런 데이터를 이용을 해서 2016년에 지식기반서비스 산업 사수를 49:30 보면은네 굉장히 높죠가 증감을 보면은 증감이 성남이 49:38 최고입니다 늘어난 걸로만 따지면 판교 테크노밸리가 개발이 됐기 때문에 49:43 그래서 지역의 어떤 서비스 산업의 중심으로 어 성장을 하고 있다 이런 49:49 것들도 볼 수 있고요 그리고 그런 데이터를 이용을 해서 어떤 지역에 49:54 어떤 종 들이 어 있고 성장하고 있고 50:00 이런 것들을 분석을 하 내용인데요 한급 테크노밸리 같은 경우는 지식 기발 서스 뭐 게임이라던가 이런 것들 50:06 이런 것들이 어 양도 많고 성장도 굉장히 많이 했다는 50:12 거죠 분당 벤처 같은 경우에 성장률은 그렇게 높지는 않지만 어찌 됐던간에 50:17 지식기반 서비스업 또는 지식기반 제조업이 주를 잃고 있고 성남하이테크밸리 같은 경우에는 50:23 산업단지로 출발을 했기 때문에 또 제 제조업이라는 뭐 주력 기관 산업이라 50:29 식품업 이런 것들이 많이 분포를 하고 있고 그렇지만 성장률은 그렇게 높지가 50:35 않습니다 자 그래서 저런 데이터 분석하고 뭐 현장에 나와서 조사를 50:40 하고 그리고 인터뷰도 많이 했죠네 그런 이런 지역에서 어떤 사업체를 50:47 운영하고 계시는 분들 이런 분들에 대한 어 그 인터뷰 이런 것들을 통해서 50:55 몇가지 전략을 아 전략에 아니까 도시에 대한 어떤 51:01 성격 규정 이런 거를 했는데 일단 성남 화크 밸리는 제조 중심지 분담 개처 밸리 같은 경우는 실질적으로 51:08 성남의 도심으로의 역할을 하는 지역 그다음에 판교 테너 밸리 같은 경우에는 핵심 시상 직접지라는 성격 51:14 규정을 통해서 전체적인 성남산업 개발의 밑그림을 제한을 한 51:21 내용입니다 어 너무 많이 얘기 하는 거 51:27 같아서네 자 그래서 저런 그 저런 분석을 통해서 지역의 특성에 51:35 맞는 어떤 정책적인 방향을 제한을 드린 거고요 그래서 성남 하이테크 51:41 밸리 같은 경우는 제조업 중심이긴 하지만 점차적으로 지식 기반 산업이 늘어나고 있고 그런 경우에 어떻게 51:49 지원을 할 것인가 하지만 제조업이 굉장히 많은 지역이기 때문에 그걸 51:54 없앨 수는 없다고 저는 판단을 한 거고요 그러면 어떻게 제조 구조를 고도화시켜 산업을 유치를 하고 육성을 52:01 할 것인가에 대한 부분들 그리고 이미지 제고 그리고 문화기능 생활문화가 52:08 중심이 되겠죠 그 주말에 유출되는 그런 인구들 그런 유출을 맞고 52:14 전체적인 생활환경을 높임으로써 조금 더 젊은 사람들을 어 끌어들이고 52:20 산업을 위치하고 이런 방향에 대한 말씀을 드렸고요 그리고 전체적인 어 52:25 환경 분석 또는 교 시스템 구속을 통해서 교통 또는 보행환경 체제 52:30 개선을 말씀을 드렸고요 이거는 구체적인 어떤 전략 수립에 대한 아이들을 제공을 해 드린 건데 어 52:37 산단에 이제 메이커 메이커 스페이스를 제안해 드린 겁니다 그래서 조그만 52:42 제주 업체들이 굉장히 많이 있는데 이런 제주 업체들에서 어 필요한 어떤 52:50 그니까 시제품 같은 것도 만들어야 되고 또 서비스도 받아야 되고 이런 부분들이 있는데 어 그런 부분들을 좀 52:57 공적인 기능을 통해서 어 제을 만든다던가 기술 교육을 한다던가 53:02 아니면은 그 산업 단지에 있는 산업체들이 이용할 수 있는 어떤 작은 컨벤션 공간을 마련해 준다던가 이런 53:09 식의 프로그램을 제안을 한 내용입니다 자 판교 테크노밸리 같은 53:15 경우에는 어 나타난 문제 중에 하나가 일단 53:20 기업간의 교류 부분 떤 커뮤니티 부분 이런 것들을 조금 더 강할 필요가 53:26 있겠다 자 이런 부분이 있었고 자 그리고 문화가 없다는 말씀 문화가 53:31 없다는 말씀 꽤 많이 들었는데 문화가 없는 거는 아니라고 생각을 하고요 어 53:37 아마 우리나라 제일의 게임 산업 직접지 평 테크노밸리 그요 그게 어떤 문화의 어 핵심이 될 53:46 수 있겠다라는 생각을 해서 떤 이스포츠 스타디움 같은 걸 제한을 한 53:51 내용입니다네 저기서 게임 기업들이 이용할 수 있는 그런 53:57 행 일어나고 그리고 그런 행사를 통해서 젊은 사람들이 유입도 되고 54:02 그리고 단순히 스테디한 제공을 하는게 아니고 여러가지 상업 시설 또는 54:10 문화시설 또는 주변 산업들을 지원할 수 있는 공공적인 시설들 복합적으로 54:16 제공을 하자는 아이디어이고 역시나 교통이나 편성 계산 외한 부분들네 그리고 나머지는 조금 54:23 넘어가도록 하겠습니다 서 유지 유지는 아니고 지금 어린이 공원으로 사용되고 있는 54:30 지역에 이스포츠 스테디엄 제한을 해서 번에 아프리카 TV 뭐 넥슨이 이런 54:39 어 메이저 게임 업체들 또는 컨텐츠 업체들과 협력을 통해서 어 이스포츠 54:45 스타디움을 한번 만들어 보자라는 거를 지금 진행을 하고 있는 중입니다 역점 54:52 사업으로 진행이 되고 있는 중이고요 네자이 어떤 제한을 하기까지의 어 54:59 데이터 분석은 쭉 나가 있던 거죠네 자 55:05 오늘 말씀드릴 거는 여기까지입니다네

1947 2019.07.09