|
정형 · 비정형데이터 R 기초분석 1차 (2)
○ 교 육 명 : [서울시 빅데이터캠퍼스 정형 · 비정형데이터 R 기초분석 교육]
빅데이터캠퍼스에서 빅데이터에 관심있으신 기초 분석가들을 위하여 정형데이터(축제 분석 데이터 활용)와 비정형 데이터(민원 데이터 활용)를 분석 개요부터 데이터의 이해 및 분석실습과정을 연계 교육으로 8월 23일과 9월 6일 각 4시간에 걸쳐 아래와 같은 교육과정으로 실시하였습니다.
앞으로도 빅데이터캠퍼스의 데이터분석 교육의 많은 관심과 신청 바랍니다.
감사합니다.
○ 교육과정
교육 과정
내용
1차
정형 데이터 기초분석 교육
데이터 분석 개요
데이터 조작 및 기초 탐색 이해
데이터 시각화 이해
축제 분석 실습
2차
비정형 데이터 기초분석 교육
Text 분석 개요
Text 분석 수행 방법
Text 데이터 조작 방법 이해
민원 데이터 분석 실습
[정형 ·비정형데이터 R 기초분석 교육 교안 다운로드]
(스크립트)
0:02 자 시작을 좀 해보도록 하겠습니다 혹시 지금 vdi 혹시 바탕
0:08 화면에 바탕 화면 좀 잠깐 혹시 봐주시면 좋겠는데요 바탕 화면에 여기
0:15 지금 명칭이 있는 데이터셋 조회 리라는 텍스트 파일이 지금 각자들
0:21 있으십니까 자 그거를 뭐냐면 저희가 실습을 할 때 쓸
0:27 데이터가 지금 뭐 이렇게 저희가 연습하는 것처럼 한 150건 이런게 아니라 한 160만 건을 가지고
0:34 연습을 해 볼 거예요 그래서 그 데이터를 좀 읽고 오는 작업을 할 건데 지금 여기 계신 그 모든
0:42 선생님이 동시에 해 버리면 여기에 지금 부하가 줄 수도 있어서 좀 시간을 나눠서 지금 먼저 일부 먼저
0:50 데이터를 읽어 드리는 작업 좀 하려고 그래요 그래서 여기 앞에 두 줄만 두 줄에 계시는
0:56 선생님들만 그 지금요 바탕화면에 있는 데이터 조에 데이터셋 조의 리라는요
1:02 메모장을 열어 주시고 여시면 라이브러리 dbi 그다음에
1:10 라이브러리 R 요렇게 써 있는 것들이 있을 겁니다 여기까지요 strr 전까지만
1:17 요렇게 긁으라고 컨트롤 c 하신 다음에 요거를 R 스튜디오에 컨트롤
1:25 V 좀 해 주시면 됩니다 그러니까
1:32 요렇게 긁으러 하시고요 컨트롤 c
1:39 하시고 자 R 스튜디오 여셔서 자 여기 컨트롤 V 해서 이렇게 붙여
1:46 주시면 되고요 자 요거를 붙이신 다음에요 전체를 요렇게 반전시켜
1:54 가지고 이런 실행 명령을 눌러 주시면 돼요
2:00 자 그러면 제가 알아서 이제 데이터가 처리될 때까지 잠깐 좀
2:06 작업이 돌 겁니다 스튜디오에서 이게 뭐냐면 간단하게 말씀만 드리고
2:13 넘어갈게요 잠 아까 그 irs 데이터라는 거는을 설치하면 기본적으로 깔려 있는 데이터 셋이에요
2:20 근데 지금이 명령은 뭐냐면 지금 선생님들이 앉아는
2:27 자리에는 데이터베이스에 환경이 돼 있어요 그럼 여기서 쓰고
2:32 있는 데이터베이스는 우리가 이제 돈을 주고 사야 되는 데이터베이스가 오라클도 있고 mssql 있고
2:39 인포믹스 있고 dbt 있고 여러 가지가 있습니다 근데 여기 지금 빅데이터 캠퍼스에서 쓰고 있는
2:46 데이터베이스는라는 데이터베이스를 쓰고 있어요 얘는 이제 공짜입니다 그
2:52 마라는 데이터베이스를 아하고 접속을 먼저 시켜주는 작업을 해야 돼요 연결을 시켜주는 작업을 해야 되거든요
2:59 연결을 하기 위해서 저 dbi 아는 패키지 라이브러리 하고 그다음에 R
3:07 my SQ 라이브러리가 있어야 mysql 데이터베 접속을 할 수가
3:13 있어요 자 그다음에 여기 co 해놓고 DB 커넥터라는
3:18 거는 데이터베이스는 만들어져 있으면 아무나 접속하면 안 되잖아요 데이터베이스를
3:24 접속하려면 우리가 어느 홈페이지에 로인 하려면 유저 아이디 패스워드 치듯이 그 데이터베이스에 접속을
3:31 하려면 그 데이터베이스에 접속할 수 있는 정보를 넣어 줘야 되거든요 그거를 가지고 연결을 먼저 시키는
3:37 작업을 합니다 그게 DB 커넥터라는 명령이고 연결이 되고 나면요 지금
3:44 가로열고 이렇게 셀렉트 막 써 있잖아요 이게 데이터베이스에서 쓰는
3:50 csql이에요이 명령문을 통해서 데이터베이스에 있는 데이터를 읽고는 겁니다
3:57 지금 그래서 에계시는 에 계시는 선생님들만 먼저 요걸 컨트롤 c 하고
4:02 컨트롤 R 스튜에 붙여 주신 다음에 전체 반전하고 한번 실행만 좀 눌러
4:09 주십시오 자 뒤에 두 줄에 계시는 선생님들은 조금 이따가 요거를 한번
4:15 좀 해도록 할 겁니다 예 그래서 요거를 제가 이제 저희가 대표
4:20 값이라는 걸 설명하는 사이에 그 데이터가 먼저 읽혀지는 작업을 하기 위해서 렇게 좀 먼저 진행을 좀 해
4:27 주셨으면 좋겠습니다 [음악]
4:45 예 대표 값이라는 부분 이제이어서 좀 해 보겠습니다 저희가 첫 번째이 오늘
4:52 이제 수업 시작하기 직전에 데이터를 바라보는 시각 하면서 기술 통계
4:57 관점으로 요약하는 부분 그다음에 대측 모형 뭐 추론하는 방법 이런 것 좀 잠깐 말씀드렸는데 그러면 좌측에
5:04 있었던 데이터의 특성을 파악하는 접근 방식에서 그 기본적으로 알아야 될
5:09 용어들이 있어서이 장표를 만든 거예요 사실이 용어들은 통계적으로
5:15 많이 쓰는 용어들이 합니다 그 데이터 분석이라는 걸 하려면 사실 통계하고가
5:20 밀접한 관계가 있고요 뭐 머신러닝이나 딥러닝을 한다고 하더라도 통계에 대한
5:27 부분들이 많이 좀 누가 있습니다 그래서 이제요 용어 정도는 일단
5:32 일차적으로 아셔야 되기 때문에요 용어를 좀 설명 먼저
5:38 드리겠습니다 자 각각에 대한 용어 명칭이 있고요 그거에 대한 설명을
5:44 달아 놨고요이 개별적인 용어 명칭에 대해서 아에서 그러면 어떤 함수를
5:49 가지고 쓰는지 그거에 대해 옆에서 렇게 표현을 좀 해놨습니다 그래서
5:55 혼자 학습을 하시더라도요 우측에 있는 활용 예시를 쳐 보시면서 아 이게 좌측에 있는
6:03 대표 명칭에 대한 값을 찾을 때 이렇게 연결하면 되는구나 렇게 보시면 될 거 같아요
6:09 우선 평균 뭐 일반적으로 다 아는 거니깐요 근데 평균도 여러 가지가 있죠 산술 평균 조합 평균 뭐 기화
6:16 평균 여러 가지가 있는데 저희가 일단 바라보는 무조건 평균은 산술 평균만
6:21 보시면 됩니다 자 그다음에 분산과 표준편차 자 분산과 표준편차는 평균을
6:28 중심으로 얼마만큼 있냐의 정도를 나하는 도인데 용어 사실은 이게
6:33 중요한 용어 합니다 개별적으로 중요한게 아니라 다른 거하고 묶여서 쓸 때 중요하게
6:39 쓰거든요 그래서 우선 분산 분산은 제곱을 한 거고 표준 편차는 분산에
6:46 루트 씌운게 표준 차다요 정도만 하고 넘어갈게요 자 그다음에 중앙값 자
6:53 중앙값이 거를 왜 써야 되는지 평균하 자주 비교 대상이 됩니다 한번 볼게
7:06 자 데이터를 분석기를 하다 보면 데이터 값이 왜곡되는 현상들이 많이
7:14 나와요 자 간단한 예로
7:21 볼게요 자 데이터가 지금 1 2 3 4 5 6만 이렇게 들어가 있어요
7:26 자이 평균 계산하면 숫자값이 히 큰 값이 나올 거 아니에요 근데 큰 값이
7:33 평균이라는 대표 값으로만 바라보면 굉장히 큰 값이 나와 버리고 그 큰
7:39 값은 데이터들이 대부분 직금 값들을 대상 구성하고 있는데 그 평균이라는
7:44 관점만 봤을 때는 그 큰 값이 나오는 거는 얘네들을 대표할 수 있는 값이라고 표현하기 좀 하거든요 그래서
7:52 데이터를 작은 거부터 큰 거로 나열했을 때 가장 중앙에 있는값 4라는이 값이 오히려 보다이
8:00 데이터의 속성을 더 명확하게 짚어줄 수 있는 대표 값이 되는 거죠 이게
8:06 중앙값이 자 그다음에 최소값은 제일 작은값 최댓값은 제일 큰값 그다음에
8:12 범위라는 거는 최댓값 마이너스 최소값 이고요 자 빈값이
8:23 거는 뭐 이렇게 데이터가 1 2 3 3 3 4 4 5 6 있다 이러면은
8:29 가장많이 나오는 걸 값이라고 하는 겁니다 자 그다음에 1분수 3 4분수
8:36 아큐라 용어 요거는 들어보셨 수도 있을 거고 안 들어보신 분들도 있으실
8:52 텐데 자 1부터 99까지의 숫자가 있다고 할게요 데이터를 자여기이
8:58 데이터 1부 가지 숫자중에서 중앙값 한번 딱 찾아보면 얘가 중앙값이
9:06 그든 가장 전 가운데 50% 해당되는 위치값 1 4분 수라는 값은 이렇게
9:13 나열을 했을 때 25% 위치해 있는값 요겁니다
9:22 요거 1분 자 그다음에 데이터를 이렇게
9:27 열를 했을 때 75% 위치에 [음악]
9:32 있는값 얘를 3 4분위 수라고 얘기를 해요 자 그다음에 iqr이라는 용어는
9:40 뭐냐면이 3사분위 수에서
9:45 3사분위수 빼기 1사 분위 수의 값 요거를 iqr이라고 용어를
9:54 씁니다 자요 지금 대표 값에 대한 지금 저희가 명칭과 설명을 간단하게 드렸어요 자
10:01 이거 어디서 써먹는지 한번 볼게요 다음 페이지 보시면
10:10 됩니다 자 이거를 박스
10:16 플러쉬라이트
10:25 작은 거부터 큰 데로 쫙 나열을 해 보면 만이라는
10:30 숫자는 이쪽에 항상 이쪽에 와 있어요 근데 이거 이쪽에 있다고 해서
10:36 뭔 의미야라고 할 수 있어요 왜 이거를 쓰느냐 데이터를 보다 보면은
10:42 이상치 들어난게 있어요 이상치 이상치를 찾아낼 때 박스 플이라 걸 이용을 합니다 그러면이 박스 플이라
10:50 것이 무엇인지 개념을 먼저 알고 방금 전 페이지에 봤던 대표값을 연결해서
10:55 보려고 하는게 요건요 장표의 취지입니다 자 우선 데이터를 큰 거부터 좌대로
11:02 쫙 나열 했어요 자 정 가운데 있는게 중앙 값이에요 자 그다음에 데이터를
11:09 쫙 나열했을 때 25% 있는 걸 분수라고 말씀드렸어요 자 여기에
11:16 해당됩니다 75% 있는 걸 3 4분 수입입니다 자 그다음에 3 4분수
11:22 빼기 1 4분위수를 IQ 용어를 쓰는 겁니다 자 그다음에
11:29 3 4분수 여기 여기서부터 시작을 해서 iqr 값 곱하기 1.5를 한
11:35 값을 iqr * 1.5 한 값을 34분 에다가 더해주면 더해 줘서
11:42 새로운 값이 나오게 되는데요 기준점을 내 벽이라고 용어를
11:48 씁니다 자 그다음에이 내 벽이라는 기준점을 구하면 여기 어떤 값이 하나 있을까 아니에요 자 여기에다가 다시
11:55 1.5 * rq 또 더해 줘요 그거를 외벽이라 하는 겁니다 그러면 데이터를
12:03 작은거부터 큰거까지 쫙 나열했는데 아까 1 2 3 4 5 6 만 그렇게 있으면 만이라는 숫자는
12:09 이쪽에 있거든요 한참 이쪽에 외벽 중에서도 한참 나와 있어요 자 이상치란 데이터를 보는
12:17 관점을 이제 배우려고 하는 거예요 데이터가 대부분들이 작은 값들 있데 어느 값이 큰 값이 갑자기 딱
12:23 튀어나오면 아까 평균은 원래 데이터의 속성을 왜곡하지아요
12:29 중앙값은 그래도 대표 값을 표현할 수도 있겠죠 하지만 데이터들이 1 2
12:34 3 4 5 6 이런 것들이 한 10억 건 있어요 뭐 100만 건 있다고 할게요 그러다가
12:41 갑자기 대부분의 데이터들이 미만이에요 근데 200만이라는 숫자가 하나
12:46 있어요 그때 평균 구하면 200만이라는 값 때문에 나머지 값들이 평균값이 왜곡되지 않을
12:53 거예요 그럴 때 이상치 아는 걸 확인하기 위해서 이런 박스플러스 이용하는 겁니다 데이터를 쫙 나열해
13:01 봤는데요 내벽이 기준 잡고 외벽이라 기준 잡고 자이
13:06 외벽보수 있다면 걔는 이상치 아고 보는 겁니다 그래서 보통 내벽 넘어가는
13:16 거를이 상시로 볼 때도 있고 데이터를 외벽 넘어가는 것까지를이 상시로
13:21 보기도 합니다 이거에 관련된 함수들을 쓰는게 쉬운 게또 있습니다 그지만
13:27 박스 플러스의 개념을 알아야 함수를 쓰더라 이해가 되실 것 같아서
13:32 자 대표값 하고 묶어서 볼 수 있는 시각화 이거는 박스 플롯입니다
13:38 자 간단하게 한번 제가 사례로 한번 보여
13:45 드릴게요 자 지금 보여드릴 사례는 그 지금 교재에는 없는
13:51 부분이라 냥 간단하게 한번만 봐 주시면 되겠습니다
14:19 자 지금 제가 22라 있에 t 해놓고도 쓰고 1 2 3 4 5 6
14:24 하고 을을 썼어요 이게 뭐냐면 야 라는
14:30 변수에 요런 값들을 넣어라 이런 의미입니다 사실은 저희는 dpy이라는 패키지만
14:37 쓰다 보니까을 설치했을 때 고유하게 있는 기능들은 저희가 지금 수업을 한 건
14:43 아니거든요 지금 제가 2라인에 쓴 거는 아래 있는 고유한 기능입니다
14:48 원래이 화살표 반대로 돼 있는 요게 우측에 있는 걸 좌측에이라는
14:54 변수에 넣어 달라 이런 얘기예요 그리고 라는 거는
15:00 뭐냐면 어 컨케이트 뭐니까이 영어로 뭐 연결이라는 의미 됩니다
15:06 그래서이 C 아는 용어를 쓰면서 1 2 3 4 5 6 1000을 하나의 벡터로 연결해서 넣어 줘 이런
15:13 용어에 자 이거를 한번 제가 자라는 변수에 한번 담았어요 자 박스 플이라
15:20 걸 한번 그려 볼게요
15:30 자 지금 이게 밑에 지금 0 각가의 숫자들이 많아서 그런데 좀 숫자를 좀 늘릴게요 보기
15:51 편하시게 요것도 모양은 이쁜 건 아니지만 그래도
15:56 아까보다 여기가 지금 이게 박스입니다 이게 박스 박스 플롯에 그리고 여기 지금 이렇게 선
16:03 하나 위에 있고 또 아래 하나 있잖아요 요게 내 벽입니다 내벽 그다음에 지금 데이터 값이 1
16:10 2 3 4 5 뭐 이런 거 있다가 천 하나 있었잖아요 그것 때문에 데이터가 저위에 숫자 하나 지금 점치 킨
16:16 거예요 저게 이상치 아는 얘기예요 그래서 파워포인트로 박스 플레이라는게
16:22 뭔지 개념을 지금 설명을 드린 거거든요 이런 시각화를 많이 해야 됐고요 좀 있다 저희가 해 볼 거예요
16:30 자 자 이게 지금까지 했던게 이제 대표 값입니다 자 다음 페이지 그
16:36 넘어가겠습니다 20페이지를 봐
16:43 주세요 자 데이터 조작을 했어요 dpy이라는 아에서 쓰는 SQL
16:48 가지고 데이터 조작을 했습니다 데이터를 조작을 하고 직계도 만들어
16:53 보고 그니까 그룹바이 해가지고 카운터도 해보고 했어요 그것까지는 이제 숫자로서 보는 의미가 있었어요
17:00 하지만 데이터를 누군가 하고 데이터에 대해서 확인을 시키거나 이해를 시키는
17:05 작업을 하려면 숫자로 표현된 데이터보다 그래프로 딱 나와서 이거에
17:11 대해서 특성을 설명을 하는게 더 명확할 거 아니에요 자 그래서 시각화가 필요한 겁니다 그리고 보다
17:17 보면은 포드라는 걸 좀 있다 그릴 텐데 그런 걸 보시면서 또 보는 시각도 키워야 되긴 해요 한번 집접
17:24 해 보겠습니다 첫 번째로
17:58 자 지지 플로라는 패키지를 저희가 쓸 거예요 아까 dpy 아는 아에서
18:05 설치해서 쓰는 패키지가 그런 것처럼 시각화를 위해서 쓸 수 있는 패키지가
18:10 따로 또 있습니다 근데 그게지지 플러이라는 패키지예요 자 그거를 이제 저희가
18:17 설치를 이제 지금 각각에 선생님들이 앉아 있는 자리는 돼 있고 자 그거를 이제 이용할 거예요 자 지지플이라는
18:25 걸 쓰려면 첫 번째로 지지피 고 무조건 첫 번째로 무조건 이제이
18:30 문장이 있어야 돼요 그다음에 가로 열고 여기 지금 제가 좀 표현을 좀
18:36 해놨네요 ggt 하고 가로 열고 데이터 어떤 데이터셋을 쓸 건가
18:42 거기를 먼저 정의를 해 줘야 돼요 그다음에 뭐를 해주냐 여기 두 번째
18:48 줄에 있는 AS 이게 어세 뭐 이런 거 약어입니다 뭐 영어로적인 이런
18:54 약을 해요 그 어라는 걸 써가지고 뭐 표현하자면 x 축에는 어떤 항목을
19:01 넣을 건가 y 축에는 어떤 항목을 넣을 건가 그다음에 색깔은 무슨
19:07 색으로 할 건가 그다음에 데이터들을 개별적으로 데이터들 이렇게 그래프를 그린 다음에
19:14 텍스트를 찍을 건데 그 레이블을 뭐로 찍을 건가 이런 거 정의하는게 AS
19:19 안에다 넣는 겁니다 자 요게 기본으로 항상 있어야
19:24 되고요 요거에이 기본이 갖춰진 뒤에는 밑에 있는지지 플로트 함수 목록 이걸
19:32 갖다가 이제 붙이시면 시화가 돼요 근데이 지지플 2라는이
19:38 패키지는 아까 저희가 DPR 할 때 irs 퍼 세 퍼 더바이 그리고 무슨
19:46 항목 주고 또 퍼 세 퍼 뭐 이렇게 했잖아요 얘도 계속 붙여서 할 수
19:53 있어요 근데 지러 이런 거는 처음에 대 그래프를 그린 다음에 거
20:00 위에 점 그래프도 그릴 수도 있고 그 위에 선도 그릴 수도 있고 뭐 이렇게 계속 할 수 있어요 이게 어떤
20:09 개념이 투명 유리판이 있다라고 할게요 투명 유리판을 처음에 하나 깔은
20:15 거예요 그 위에 새로운 유리판에 뭔가 또 그렸어요 그걸 덮어 씌운 거예요
20:20 또 그래서 첫 번째 층 두 번째 층 세 번째 층네 번째 층 계속 이렇게
20:26 이어붙일 수 있다 얘기예요 그게이 시각화 키지의 장점입니다
20:32 그러면이 시각화 패키지를 할 건데이 시각화 패키지만 돌릴 수도 있고
20:38 저희가 앞에서 배웠던 데이터 조작 패키지인 dpl 같이 붙여서 할 수도
20:44 있어요 근데 우선 연결해서 하는 거 먼저 배도록 하겠습니다 자 개별적으로 이것도
20:53 똑같이 항로 정리를 해놨기 때문에 그거랑
21:00 묶어서 보시면 됩니다 자 페이지수를 22페이지 봐 주시면
21:14 됩니다 자 22페이지
21:20 자 첫 번째로 g 바 그래프입니다
21:29 자 바그래프 하고 그 옆에 보면은 gom 히스토그램 이런게 있어요 자
21:35 첫 번째로 바그래프고 히스토그램의 차이를 먼저 아셔야 되는데 바
21:41 그래프는 저희가 아까 통계적으로 데이터를 분류할 때 명목 서열 등간 비율 이렇게 얘기 드렸잖아요
21:48 GE 먼저 바 그래프는 명목 도일 때 즉 예를 들어서 남성은 몇 명이고
21:54 여성은 몇 명인지 뭐 이런 거 할 때 축에 항목 그냥 명칭을 잡고 그
21:59 명칭에 해당되는 건수가 몇 건인지 막대 그래프 형태로 보여
22:05 주는게 바 그래프이고 자 히스토그램은 x
22:10 축이 특정한 범위 값을 갖고 있어요 예를들어서 이런 거죠 연령 데이터
22:16 같은 경우 0에서 5세 6세부터 10세 11세부터 15세 이런 식으로
22:23 x 축에 범위를 잡은 다음에 그 범위 안에 들어가 있는 빈도수 즉 카운터를
22:30 세 가지고 그거를 막대 그래프로 표현한게 히스토그램 있니다 자 한번 직접 한번 쳐보도록
22:41 하겠습니다 자 제가 이제 먼저 쳐보고 한번 설명 부여 설명을 드릴게요
23:11 자 지금 우측 하단에 우측 하단에 아 우측 하단에 지금 그래프가
23:18 지금 나와 있고요 저 우측 하단에 있는 나와 있는 그래프를 크게 보려고 하면요 줌을 누르게 되면 이게 별도로
23:25 이제 커져서 별도로 뛰어 나오게 돼요 자 명령문 관점만 먼저
23:33 보겠습니다 자 irs 데이터셋으로 붙어 시각화를 할 거예요 자 지지플이라는 거는 꼭 써야
23:42 된다고 말씀드렸어요 그래서 지지플 해놓고 irs 쓸 거기 때문에이
23:48 파이프라인 요거를 파이프라인 기라고 하거든요 퍼센트 세 퍼센트를 연결자
23:53 자 irs 데이터로부터 시각화를 할 건데
23:59 어세 적으로 요게 항목을 하나만 쓰면 축이에요 그래서 세 스라는 걸 x
24:06 축에 깔아주고이 각각의 세스의 값들을 카운터 막대 그래프를 그려줘
24:15 이런어요 그렇게 했을 때 원래 세 스라는이 값은 숫자 값이에요
24:22 숫자인데 숫자이지만 카운트되지 못하는 법은 없잖아요 그래서 숫자값 카운터를
24:29 세 가지고 막대 그래프를 그려 줘 한 거고요 DPR yr 그래는 퍼센트
24:35 거세 퍼트라 걸 가지고 연결자 썼어요이 시각화에서지지 플이라이
24:41 시각화에서 연결자 퍼센트 커세 퍼센트를 쓰는게 아니라 얘는 더하기를
24:47 씁니다게 차이입니다 자 요거 한번 쳐 쳐 보시겠습니다
24:58 자 한번 쳐 보시고 우측 하단에 그래프 나오는 것도 한번 보시면 좋을 것
25:07 같습니다 자 요거 한번 쳐봐 주시고요 자 그 사이에 제가 좀 미리
25:13 히스토그램을 좀 준비를 좀 해 놓겠습니다
25:42 자 요거 이제 되신 분들은 조금만 편리하겠습니다 저희가
25:48 좀 실습을 해보려면 왜냐면 저희가 조금 전에 dyr 할 때 데이터 조임 부분에
25:54 대해서는 설명만 드리고 실습 안 해봤거든요 그 이제 뒤에 저희가
25:59 마지막 4장 쪽에 실질적으로 축제 데이터를 가지고 실질적으로 160만
26:05 건을 가지고 데이터를 처리를 해 볼 건데 그때 존이라는 거 써보기 위해서 한번 지금 좀 빨리 해보려고 하는
26:11 겁니다 자 히스토그램 있니다 자 제가 히스토그램에 지금
26:17 교재에는 지금 이제 goa 원더바 히스토그램 해놓고 뭐라고 써 있을 거예요 근데 지금 아무것도 안 쓴
26:23 상태에 히스토그램을 먼저 했어요 자 이렇게 했더니 빨간 것로 뭐가
26:30 나왔는데이 빈스이 30을 이용해 했다 이렇게지 표현이 돼 있어요 빨간색으로
26:35 이게
26:49 뭐냐면 빈스 이렇게 3 이게 돼 있는 건 런 항목 기들을 알이 알아서지가
26:56 알아서 30개로 만들어서 를 잡았다 얘기예요이 축을 조종할 수 있잖아요
27:03 조종해야 되거든요 필요에 따라서는 아까 0세부터 5세 6세부터 10세
27:09 이렇게 할 수도 있고 어떨 때는 0세부터 10세 이렇게 할 수도 있잖아요이 폭을 조정할 필요도 있는
27:14 거죠 그때 조종하는게 여러분들 선생님이 갖고 계시는 자료에 써 있는
27:20 문장입니다 제가 한번 조정을 한번 해 볼게요
27:29 여기에 저는 그냥 빈스 해볼게요 빈스 해놓고 3을
27:35 줘 버릴게요 어떻게 하는지 한번 봐주세요 자 이렇게 세 칸으로 나오는
27:43 겁니다 축의 범위가 넓어지는 거죠 자 데이터에 대해서 가장 많이 봐야 될
27:51 시각화 중에 하나가 바그래프 히스토리입니다 자 요런 식으로 쓰는게
27:58 히스토그램이라는 함수 자 그 뒷장을 이제 한번 또
28:04 보겠습니다 23
28:10 페이지입니다 자이라는이 패키지 안에서 막대그래프를
28:15 그릴 수 있는 기능은 딱 세 가지가 있어요 바그래프 히스토그램 그다음에 그니까 g 바
28:22 bar 바 g 더바 히스토그램 그다음에 g 라는 함수가
28:29 있습니다 자 gom 바나 gom 히스토그램은 x 축만 딱 정의를
28:37 해주면지가 알아서 카운터를 세 가지고 막대 그래프를 그려 줘요 근데
28:43 데이터를 만지다 보면은 X 축과 Y 축을 제가 값을 다 구해 놓고 걔를
28:49 가지고 바 그래프를 그고 싶을 때가 있거든요 그때 쓰는게 더라는
28:55 함수입니다 지금 저희가 이제 해보려고 하는 게 그 함수입니다 자 한번 보겠습니다 제가
29:02 한번 쳐 볼게요
29:12 [음악]
29:39 자 제가 친 명령에 대해서 한번 설명을 드리고가 보겠습니다 자 dpy고 그대로
29:46 연결해서 그냥 쓴 겁니다 자 irs 데이터로부터 먼저 스페시스 항목으로
29:53 그룹을 잡 잡은 다음에 몇 건씩 있는지 카운터를 해 본 거예요 자 카운터를 했다
30:00 보니까 여기 서머라이즈 거만 해가지고 실행을 시키면 결과값은 스페시스 항목별로 몇 건씩
30:08 있는지 그게 두 개지 데이터 값만 나오거든요 자 제가 지금 이렇게 긴
30:13 문장을 쳤지만 문장을 치다 보면은 가끔 에러가 할 때도 있어요 그럴
30:19 때는 부분부분 끊어서 해 볼 수도 있습니다 한번 볼게요 제가
30:25 지금이 문장을 이렇게 썼어요 자 선까지만 한번 렇게
30:30 반전시켜서 얘만 제대로 나오는 건지 이렇게 돌려봐도 돼요 그래서 지금 돌려보니까 스시라
30:39 항목고 n이라는 항목 두 개가 이제 딱 잡힌 거잖아요 자 그러면은 얘를
30:45 X 축을 y 축으로 한 다음에 바 그래프를 그리고 싶은 거예요 그래서
30:51 go 원더바라는 함수를 쓰면 같이 묶어서 돌리면 X 축 y
30:58 축 다 그려진 바 그래프가 나오는
31:04 거죠 연 연월 별로 연월 별로 유동 인구수가 어떻게 되는지 이렇게 카운터
31:10 해 가지고 x 축에 연월 y 축에 유동 인구수 뭐 아니면은 월별로 카드
31:19 사용 금액 러면 x 축에 월 y 축에 카드 사용 금액 이렇게 데이터를 구한
31:25 다음에 시각화를 하면 되는 거죠 자 이게 원 co 대는
31:34 함수입니다 자 그다음에 포인트를 한번 해
31:41 볼게요 자 포인터는 스케트 플이라 용어들 쓰는데 점도는 굉장히 중요한
31:48 시각과 패키지 중에 또 하나입니다 함수 중에 자 제가 산점도를 직접 한번
31:54 지금 교재에 있는 그대로 한번 쳐보겠습니다 a
32:43 자 산정도 두 개를 좀 비교를 할 텐데요 자
32:50 지금 자 이게 첫 번째 산전동 window 자 보시면 전부 색깔이
32:56 검정색이에요 그렇죠 자 얘네들을 특정한 그룹별로 특정한 집단별로 색깔을 달리 쓰기 해서
33:04 명령문을 준게 선생님들이 갖고 있는 교재에 컬러라고 돼 있고 스시라고 써
33:11 있는 부분이 있어요 그거를 주면 여기에 이제 점도의 색상들이 달리
33:16 표현이 되는 거예요 그라는 그 부분에 쓰는게 아까
33:21 X 축 좌표 x 항목축 항목 그다음에 컬러
33:28 그다음에 막대 그래프 색깔 라벨 뭐 이런 거를 쓰는 거예요 자 한번
33:33 컬러스고 줬을 때 똑같이 한번 교재 있는 거 똑같이 한번 쳤을 때 어떻게 되는지 볼게요 자 요렇게 색상별로
33:40 나옵니다 자
33:46 그러면 자요 산점도를 봤어요 그려봤어요
33:55 잠깐만요 자 산점도를 그렸습니다 어 그렸어 이거 근데 뭐지 그렸으면 된
34:03 거 아니야라고 하면 안 됩니다 자 보세요요 빨간색 세토
34:10 사예 자 그다음에요 초록색이 버지 하려고요 청색의 비그
34:17 니에요 산점도 분명히 그렸어요 자 근데 빨간색
34:23 세토는 다른 붓꽃 종류에 비해서 꽃받침과
34:30 꽃이가 확연이 다르잖아요 그러 숫자값을 가지고
34:36 얘가 세토사 버칼 비지 명확하게 얘는 구할 수 있단 얘기예요 그렇게
34:43 해석하는게 필요한 거예요 자 그다음에요 나머지
34:51 비하고 칼라 같은는 중간에 교차되는 분이
34:56 있어요 건가 고민해야 되는 거예요 데이터들을 이렇게 이런 거
35:03 한번 생각해 볼까요
35:09 세수대야에 콩도 놓고 돌 덩어리도 놓고 그다음에 뭐
35:14 좁쌀도 놓고 막 섞어 있어요 자 데이터를 분류를 해야
35:20 돼요 이거를 분류를 할 때 세수 대에 물론 담겨 있지만 이거를
35:32 [음악]
35:41 자 요런 통에다가 다 옮겼다고 할게요 세수 대가 있는 거를 자이
35:48 통을 막 돌린다고 할게요 회전을 한다고 할게요 자 그러면 제일
35:53 무거운게 밑에 오겠죠 자 제일 가벼운게 위로 오겠죠 지금 버디 니하고 비클 지금 섞여
36:00 있어요 중간에 저 데이터들을 어떻게 돌리던 뭐 하던간에
36:07 요렇게 중간 무거운 거 제일 무거운 거 가장 가벼운 걸 이렇게 분류를 해놨을 때 가벼운 끼리는 지네들끼리
36:15 지금 잘 뭉쳐 있을 거 아니에요 집단으로 뭔가의 특성을 분류를 할 때 같은 집단의
36:23 끼리는 결이 잘되게 해놓고 집고 간의 관계는 멀리 떨어뜨려 놔야 되는 거야
36:30 이거를 숫자상으로 표현하면 내부 집단끼리 평균을 중심으로 분산이 표준
36:38 편차가 가깝게 해줘야 되고
36:56 집단고소 원래 데이터는 이렇게 왔어요 이거 이제 분류해야 되잖아요 그러면
37:02 필요에 따라서 이런 개별적인 값들에 제곱을 하던지 아니면 로그를 씌우던 루트를
37:10 씌워보고 산점도를 그려봐서 집단들간에 자 분류가 되는지를 해봐야 되는 거예요 이런 것들이 아까 처음에
37:18 데이터 분석 방법론 말씀드릴 때 모디파이라는 과정이 있었어요 그런
37:23 접근할 때 이런 걸 쓰는 겁니다 데이터들 에는 명확하게 뭔가
37:29 분류할 수 있는 기준점을 마련해야 그 데이터를 대변할 수 있는 속성값이 되는
37:34 거거든요 자 그런 관점에서 산점도를 먼저 그려보고 데이터에 탐색 이해를 하는 작업을 하는
37:44 겁니다 예 다음 페이지 한번 [음악]
37:51 보겠습니다 자 30 2페이지는 좀 쉽게 하나만 도록 하겠습니다 이건
38:00 뭐냐면이이 그래프 상에 x 축으로 선을 하나 글 거냐 y 축으로 선을
38:05 그 거냐 이겁니다 선을 하나도 그 수도 있고 몇 개도 그릴 수 있어요 근데 선 직선을 하나 그냥 임의의
38:13 위치에 그니까 뭐 특정한 값 위치에 선 하나 그리겠다 y 축에 선 하나 그리겠다
38:19 이게 V 라인 H 라인 이렇게 표현한 겁니다 V 라인은 버티컬 라인 H
38:25 리탈 라인이 해서 것뿐입니다 하나만 실습을 좀
38:32 해보겠습니다 자 산점도로 있는 걸 가지고 한번 실습을 해 보겠습니다 그래서 24페이지 오른쪽 거죠 리존
38:45 라인 자 제가 한번 그대로 한번 쳐 볼게요
39:25 자 제가 지금 39 인의 지금 반전한 부분입니다 한번 해석좀 한번 같이
39:31 하고 가겠습니다 자 irs 아는 데이터로 붙어 시각화를 하는데 x 축에는 세팔
39:39 랭스 y 축에는 페 랭스를 가지고 잡아주고 시각화는 산점도로 해 줘라고
39:47 해서 포인트라는 함수를 쓴 거예요 자 그럼 3도까지 그래프가 나왔겠죠 점들은 아까 했을 때 여기 컬러라는
39:54 부분이 있었어요 자 색상을 집어넣는게 두 가지 방식이 있어요 요렇게
40:01 개별적으로 컬러 뭐 아까 스펙 컬러스 뭐 이렇게 쓴 거 있었잖아요 그거를
40:06 저희는 파라미터는 용어를 씁니다 컴퓨터에서 전산 아시는 분들은 파라미터는 용어를
40:12 쓰는데 색 색깔과 관련된 파 색상과 관련된 파라미터는 두 가지가 있습니다
40:18 컬러스 아는 이거 영국식 발음으로 컬러스고 쓰기도 하고요 그냥 컬러라고 써도 돼요
40:24 미국식으로로 써도 되고요 컬러스고 써도 상관없어요 그다음에
40:38 필이라인전이나 선의 색깔을 넣 때는 컬러라고 쓰는 거고요 막대그래프에서
40:43 색상을 넣을 때는 피를 쓰는 거예요 거만 기억을 하시면 돼요 자
40:49 그래서 우선 바 그래프를 그니까 히스토그램을 그렸고 아 스케트 플롯을
40:55 그렸고 거기에 h 리존 라인을 그릴 거예요 그러니까 리존 라인은 x 축이
41:02 아니라 y 축 기준으로 손을 그리는 거기 때문에 x 인터트 x 상수값을 잡은
41:09 거예요 거기에 상수값 어떤 값을 대입을 했냐면 irs 스라는 값의
41:16 평균값으로 그냥이 상수를 잡아 줘라고 쓴 거예요 그리고 색상은 빨간색으로 칠해
41:23 줘 세팔 랭스의 평균도 한번 구해서
41:30 이렇게 선 그릴 수도 있고 테팔 랭스의 평균값 구해서 이렇게 선 그릴 수 있잖아요
41:36 그러면 각각의 x 축의 항목의 평균값 y 축의 항목의 평균값 들 기준으로
41:43 선이 하나씩 그려지니까네 개의 면이 나올 거 아니에요네 개의면 중에 데이터의 분포가 어떻게 있을까 이렇게
41:49 또 생각도 해 볼 수 있는 거예요 그러면서 계속 찾아보는 겁니다 이런게
41:54 탐색이라는 과정에 걸쳐야 될 과정들이 그 하나입니다
42:01 자 요거 이제 한번 넘어가 보도록
42:06 하겠습니다네 gom 텍스트는 일단은 있는 거로 한번
42:11 보도록 하겠습니다 교재에 있는 거로 그래서 25라 이의 자축을 보시게 되면 자 irs 이제 명령문 있는
42:19 데를 봐주세요 irs 퍼 세 퍼 해놓고 지지플 해놓고 AS 축에는
42:27 세스 y 축에는 페스 그다음에 레이블 레이블이라고 주게 되면 어떤 명
42:34 텍스트를 이제 문자를 글자를 쓸 건데 레이블에 어떤 거를 글자로 쓸 건가를
42:40 정의를 해 주는 겁니다 항목 명칭을 정의를 해 주는 거예요 그런 다음에
42:46 g 원더바 포인트에서 산점도를 먼저 찍고 텍스트를 쓸 때는 원더 텍스트라
42:53 또 함수를 가지고 쓰는 것뿐이에요 근데 거기에 제가 찌 언더바 x
42:58 해놓고 0.2 잡아 놓은게 있어요 이게 뭐냐면지 언더바 x = 0.2를 안
43:05 쓰면 그 점 위에 글씨가 찍혀요 그거를 약간 옆으로 피해기 하기
43:11 위해서지다 x 걸 쓴 겁니다 예 그렇게만 봐
43:18 주시고요 우측에 있는 박스플러스 한번 그려 보겠습니다 예 아까 저희가 박스
43:24 플이라 의미를 왜 쓰는지를 한번 설명을 드렸으니까 박스 플이라 걸 한번
43:30 그려보겠습니다 자 120 그니까 25 라인에 자 스페이스라는 개벽이
43:36 항목별로 스페시스 세 가지가 있었어요 그 항목별로 세팔 랭스는 거에 대해서
43:43 박스 플러 시각화를 해 보는 겁니다
44:25 아 지금 제가 쓴 거하고 여분 선생님들이 지금 보 쓰실
44:30 거하고는 좀 다른 부분이 좀 있습니다 자
44:38 지금 교재 있는 부분은 자 여기까지만 돼
44:43 있어요 요거죠 요거 자 이거로 했을 때 박스 플러 그리 데는 전혀 문제가
44:49 없습니다 이렇게 나오면 되니깐요 자 그다음에 지금 여기 버러 쪽에 검정색
44:55 점하나 있어 칩니다 굉장히 낮은 값이 뭔가 다른 것들은 큰데 얘는 낮다라는 얘기예요
45:02 근데 제가 지금 요런 명령을 부
45:07 붙어요지지 플러트이 시각화 안에는 여러 가지 함수들이 또 이게
45:13 시각에 관련된 시각화에 관련된 함수들이 많이 있습니다 근데 첫 번째는 여기에 지금
45:18 선들이요 이렇게 뭔가 그려진게 없이 그냥 끊어졌으니 요게 서을 좀
45:24 표현하고 싶은 거예요 걸 라고 얘기를 합니다 라바 그래서 여기에 라바를 좀
45:32 표현을 하려고 여기 stat 언더바 박스
45:37 플러 해놓고 g이 놓고 라바 이렇게 하면 저기 선들이
45:43 커져요 그니까이 에스트라는게 스태틱의 약어입니다 통계적인 박스 플러 통계적으로 박스
45:52 플을 그려서 넣는데 라바를 넣어달라
45:57 라고 병어를 쓴 거예요 이거를 돌리면이 시각화의
46:03 위치에 x 축에 선들이 이제 그려져서 나타나게
46:08 됩니다 자 요렇게 표현이 되는
46:16 겁니다 예 그렇게 되고요 다음 페이지로 한번 보겠습니다
46:27 다음 페이지 두 개는 설명을 하고 넘어가도록 하겠습니다 자 스라는 거는
46:33 지금 저희가 시각화를 했는데 시각화를 했는데 지금 영문으로 스시스 그다음에
46:40 세스 이렇게 잡힌다 이거죠 x 명칭을 붓꽃 종류 축의 명칭을
46:49 뭐 꽃바침 뭐이 뭐 이런 식으로 한글 명칭으로 바꾸거나 할 때
46:55 또는 에 여기 타이틀을고 싶을 때 또
47:01 서브타이틀을고 싶을 때 이럴 때 용어를 쓰는게 스라는 함수를 붙여서
47:06 쓰면 되는 겁니다 아까도 말 플로트는 층을 계속 쌓는 거예요 그니까
47:12 여기까지 시각화를 해서 층을어요 거기에다가 스라는 걸 한을 싼 거예요
47:18 그렇게 해서 나타난다는 거죠 그다음에 우측에 있는교 측에
47:25 있는 과은 x 축의이 구간을 더 넓힐 거냐
47:34 얼마부터 얼마까지 보여주게 할 거냐이 좌표값의 범위를 잡는 겁니다 디폴트로 저희는 지금 X
47:41 축하고 Y 축을 구터 해 줘 이런 얘기를 안 했거든요 아무것도 안 하다
47:46 보니까지가 알아서 시카가 x 축의 최소값 얼만지를 구하고 하마 y 축의
47:51 최댓값 얼만지 구하고 이런 식으로 해서 그렸을 거예요 근데 이거를 뭐 0부터 그리게 하고 싶다
47:58 꼭짓점을 0부터 시작하고 싶다 그러면은 이제 xli y 축도 꼭짓점 시작하고 싶다
48:03 그면 yli 이런 식으로 값을 조정해서 시각화를 보여주는게 우측에 있는
48:11 함수입니다 예 여기까지가 사실 제가 준비한 시각과 패키지인데요 시각화
48:17 패키지가 지금 설명드린 거가 꼭 아셔야 되는 시들만 먼저 설명을 드린
48:23 거예요 부수적인 시각 패키지들이 있습니다 함수들이 좀 많이 어요 근데 그런
48:28 부분들은 긴 시간이 요하기 때문에 시각화는요 정도까지만
48:37 하고요 늘 제가가 많은 분들 앞에서 이제 이렇게
48:43 강의하는 거를 많이 안 해 받기도 했지만
48:49 아 그 지금 설명드리는게 제가이 시각화까지 하는 것도 보통
48:59 한 20시간 정도 작업을 해야 되는 과정이에요
49:04 제가 예전에 이제 그 데이터 분석과 관련된 학원
49:12 주말에 이렇게 수업 금하게 했다는 경험 속 있어서 말씀을 드리는데 이게 지금 제대로 하려면 좀 오래 걸립니다
49:20 근데 그중에서 정말 꼭 이거 정도만 알아도 우선 해볼 수 있는 거만인
49:26 지금 계시는 내용들이에요 그래서 그 부분에 대해서만 먼저 집중적으로 설명을 드리는
49:33 거고요 하간 지금까지 했던 부분들을 가지고 이제 축제에 대한 시습 분석을
49:40 한번 좀 해 보도록 하겠습니다 아 이거를 하기 전에 우선 잠깐 쉴 건데요 이제 뒤에 계시는
49:49 분들 아까 SQL 아에서 데이터를 먼저
49:54 생성하는 작업들을 좀 해야 되거든요 자 그거를 이제 한번 또 돌려주시면
50:00 좋겠습니다 [음악]
50:06 아 자 바탕 화면에이 파일이 있습니다 데이터셋 조에 리라고 돼 있는 파일이
50:13 있습니다 바탕화면에 바탕화면이 없는 분들은 손을 좀 들어 주시면
50:19 되고요 그래서이 파일을 여가지고 다시 말씀드리지만 분 복
50:28 R 스튜디오로 붙이시기 하신 다음에 R 스튜디오로 붙인
50:33 다음에 요렇게 붙이신 다음에이 전체를 이렇게 반전시키고 런을 시켜 주시면
50:40 돼요 요거 데이터를 긁고 오는데 한 4분 정도 정도 걸릴 거예요 데이터
50:46 건수는 한 160만 건 되고요 자 이거를 가지고 실습을 직접 해 보려고 하는 거기 때문에 요거를 좀 생성을
50:53 하는 겁니다 보통 실습을 할 때 데이터 뭐 한 뭐 2천건 3천건 이렇게 하는 거는 좀 의미가 없으실
50:59 것 같아서 이왕 하시는 거 좀 제대로 해 보는게 맞지 않을까 해서 좀 제가 이렇게 미리 준비를 좀 한 건데요
51:05 요게 지금 저희 수업의 과정이 아닐까 생각입니다 제일 고비가 아닐까 이게 잘 생성이 돼서 바로 뒤고 좀
51:12 연결해서 가야 되는데 그게 좀 염려가 되긴 합니다 자 본격적인 시작에 쳐서 어떤
51:20 거를 분석할 건지 잠깐시기 전에 요것만 설명해 드릴게요 2페이지를 좀 봐주시면
51:26 서울시에서는 여러 가지 그 기간별로 축제들을 하고 있습니다 저도 이제 가보진 않았지만
51:33 지나가면서 본 거는 같아요이 뭐롱 빛초롱 축제라는 걸 하는 거 같은데
51:39 저희가 지금 활용할 데이터는 2014년도 가고 2015년도 데이터입니다 빛초롱 데이터에 대해서
51:47 일단은 데이터 셋이 지금 빛초롱 데이터라는 거를 구성하는 데이터셋이 어떻게 구성이 돼 있는 거고 자 이걸
51:55 가지고 그러면 어떤 거를 분석하지 주제를 또 뽑아야 되잖아요 그 주제를 뽑는 걸 간단하게 아까 저희가 처음에
52:02 데이터 분석 주제를 찾는 것처럼 어떤 분석을 해 볼 거야 그걸 뽑는 것도 똑같은 시각으로
52:09 한번 생각을 해보고 그거에 따라서 개별적인 실습을 해 보도록 하겠습니다
52:14 예 잠시 쉬다가 시부터 진행 아 시부터 진행을 하도록
52:24 하겠습니다 저희가 오늘은 정형 데이터를 하 있지만 사실은 또 관심이
52:30 있으신 분들은 또 비정형 데이터에 관심들이 또 있으실 수 있어요 비정형
52:36 데이터는 사실 지금 이제 다 다다음 주에 이제 하겠지만 사실 일반적으로 비정형
52:43 데이터 분석한다 그러면 만일 생각하는게 워드 클라우드 정도만 생각하시는데 그거 말고도 사실 여러
52:49 근거도 있습니다 근데 이제 우리 한국 한국이라는 나나 물론 특성만 봤을
52:55 때는 한글이라는 부분이 조금 영어처럼 분석이 깔끔하지가 않아서 한글에
53:02 대해서 비정용데 있다 분석을 한다 그 형태소 분석이라는 걸 해야 되거든요 그래서 형태소분석 그니까 우리 문장에
53:10 대해서 아홉 가지의 품사를 공유하거나 22가지의 품사로 립을 해서 거기서
53:16 이제 품사 어떤 것들을 뽑을 건지 이런 것들을 또 찾아내야 되는 작업 합니다 지금 갖고 계시는 교제 뒤쪽에
53:23 보면 이제 텍스트 분석하는 방에 자료를 제가 거기에 다 표현을 좀 해 놨어요 다음에 이제 또 오시게 되면
53:32 어 텍스트 데이터에 대해서 형태소 분석기를 돌려 가지고 나온 결과치에 대해서 이제 한글만 찾는 특히 또
53:40 명사 단어만 찾는 뭐 이런 작업도 해야 될 거 같고요 사실 형태소 분석이나 이런 거를 하는 이유가
53:47 나중에 문장을 가지고 데이터 셋을 만들어서 머신러닝이나 딥러닝에 태울
53:53 수 있는 기반 데이터도 되기도 합니다 CNN 님 알파고 같은 경우는 CNN 이제 알고리즘을 쓴 거고요 뭐
54:00 체포시 이런 것들은 rnn 많이 쓰는데 그런 거를 할 때 체포시
54:06 용어들 많이 쓰죠 체포 시스템 뭐 이런 것들 그런 거 할 때 어쨌든 한글에 대한 특성 데이터를 만들려면
54:13 아 저희 한국이라는 나라 관점에서 형태시 분석를 해야 되고 그거에 대한
54:19 결과 답 변치 만들어서 R 맨으로 막 돌리고 하는 작업들이 이어져야 되는데
54:24 어쨌든 전 처리로서 어 텍스트 분석의 개념을 알아야 집단을 진행하시는게 쉽지 않을까
54:30 생각이 듭니다 예 이제는 실습입니다 실습이 아까 잠깐
54:38 말씀드린 것처럼 초롱 데이터에 대해서 실습을 해 보겠습니다 사실 제가 이제이 빛초롱
54:47 축제에 대한 데이터를 뭐 예를 들어 2018년 것까지 있고 그러면은 이제
54:53 좀 몇 년 치에 대해서 좀 다양하게 볼 수도 있을 텐데 현재 여기 빅데이터
54:58 퍼스에이 축제에 관련된 데이터가 14년 거하고 15년 거밖에 없어서
55:04 그래서 요거밖에 못 쓰는 거고요 데이터 건수는 그래도 한 160만 건 되니까
55:10 아무래도 저희가 다루는게 데이터 분석이라는 주제를 다루긴 하지만 그 앞에 빅라 단어가 항상 붙는 상황에서
55:17 하는 거니까 일단 160만 건이 오히려 좀 의미가 있지 않을까 생각이 듭니다 자 데이터셋 한번 볼게요
55:27 자 지금 저희가 활용할 데이터셋은 아 여기 지금 항목 명칭이
55:33 조금 일률적이지 사실 않습니다 여기 자가 이렇게 들어가 있는이 단어들은
55:39 원래 코드 데이터라는 얘기인데요 원래는 코드 데이터로 들어가 있는데
55:45 저희가 이제 수업을 하기 위해서 제가 아까 그 한씩 돌려가지고 데이터
55:51 만드는 업을 했었잖아요 스크립트로 그 가지고 여기에 코드가 아니라 명칭이
55:58 이렇게 들어가게 제가 로직을 짠 겁니다 근데 어쨌든이 지금 활용할
56:04 데이타 명들은 축제 연도와 뭐 축제명 그다음에 섹터 코드라는게 있는데
56:10 여기는 전부 각들이 1루 들어가 있고요 그다음에 연월일이 있고 업종
56:15 업종 명칭 성별 명칭 연령대 명칭 그다음에이 축제에 대해서 외부에서
56:22 어디 사람들이 제일 많이 들어왔나 유지에 대한 명칭들 그다음에 시간대 정보들 그다음에요 시간대에 맞는 카드
56:30 매출 금액이 얼마큼 되는지 그다음에 건수가 어떻게 되는지 런 정보들을 이제 갖고 있습니다 자 그러면 아까는
56:38 주제를 정했던 관점이었고 역시 이거를 똑같이 이렇게 나열을 해서 뭐 무엇을 묶어 가지고 한번
56:47 데이터를 탐색해 볼까 이런 거 이제 생각을 해볼 필요가 있다는 거죠 그래서 제가 생각할 때 그냥
56:53 저희가 실용으로 하기 위해서 그렇게 다섯 가지 정도는 한번 해보면 어떨까라고 해서 주제를 그냥 뽑은
57:00 겁니다 일단은 관심사가 될 만한게 연별로 매출액의 차이가 매출 금액에
57:06 차이가 있는지 뭐 예를 들어서 축제 기간 전에 당연히 축제 기간 전보다 축제
57:13 기간 동안 매출이 올라갈 건데 맞는지 확인도 한번 해봐야 될 거 같고요
57:18 그다음에 축제 기간 동안에 매출이 발생을 하지만 이게 성별로 또 차이가 있는지도 궁금할 거고 아니면 보다는
57:26 이제 업종 관점에서 어떤 업종이 가장 많이이 축제 기간에 매출액이 많이
57:33 올라가느냐 그다음에 시간대별로 봤을 때는 어느 시간대에이 축제가 사람들이
57:39 많이 호을 하고 있는지 뭐 이런 것들도 보는 거죠 또 지금은 개별적인 항목별로
57:46 이렇게 제가 지금 표현을 해 놨지만 크로스 체크를까 교차 집계 표라고 얘기를
57:51 하거든요 예를 들어서 성별된 시간대의 현황이 비슷한지 뭐 이런 것들 근데 데이터리
58:00 통계적인 분석 접근을 좀 많이 해 보는 것들이 사실 좀 해 볼 수도 있습니다 근데 이제 통계적인 용어들이
58:06 들어가고 그런 것들을 이제 해 보려면 이제 통계 총론 뿐만이 아니라 강론
58:12 통계학의 기본을 총론이 하고요 회기분석 인자분석 주성 분석 뭐 이런
58:18 개별적인 것들 강이라고 하는데 강론에 대한 이론을 조금이라도 들고 이렇게
58:24 하면 이제 여러 가지 분석들도 해 볼 수도 있 있을 것 같은 생각도 드는데 우선은 접근 방식에 대한 그러니까
58:30 제가 오늘 준비한이 자료는 데이터를 분석을 한다 그러면 사실 나무를 먼저
58:36 보는게 아니라 숲을 먼저 봐야 돼 그러면 습 관점에서 먼저 보고 그다음에 나무 관점으로 해석을 해
58:43 들어가야 되는데 지금 저희가 실습할려는 요것도 나무 관점이 하나입니다 그래서 아까 말한 것처럼
58:50 예측 쪽인 아니지만 현황에 대한 특성을 이해하고 현황에 대해서 어떤 어떤지를
58:57 탐색해서 인사이트를 찾는데 목적이 있으니까 기술 통계 정리 관점에서
59:02 저희가 데이터 분석을 실습을 해
59:09 보겠습니다 자 이제 아까 저희가 이제 요거를 잠깐 돌렸었는데 요거 간단하게만 설명을 드리고 밑에 쪽은
59:17 저희가 좀 한번 확인을 해보면서요 명령을 개별적으로 또 돌릴 수도 있습니다 자 우선은 다시 말씀드리지만
59:25 저희가이 분석을 하기 위해서 아까 첫 번째로 dpy이라는 패키지를 저희가
59:33 배웠습니다 자 그다음에지지 플로라는 시각화 패키지를 저희가 설치를 해서
59:39 배웠습니다 자 그다음에 dbi R SQL 아까 말씀드린 것처럼 여기
59:46 지금 빅데이터 캠에서 쓰는 데이터베이스가 mysql이기 때문에요 두 개의 라이브러리들이
59:53 있어야 mysq 데이터베이스 붙을 수도 있고 또 붙은 다음에 그
59:58 데이터베이스에서 정보를 끌고 올 수가 있는 겁니다 그 끌고 오기 위한 명령이 여기 지금 셀렉트 문으로 쓴
1:00:05 거고요 요게 안시 SQ라는 겁니다 자 안시 퀘를 가지고 데이터를 했고 여기
1:00:12 저 보시면 요런 용어는 이제 아웃트 조인 이렇게 나와 있잖아요 아까
1:00:18 아래는 아웃트 네프트 웃 조인 아이오타인 이런 것도 있었고 세미조인 안티조인 뭐 이런 것도 있었잖아요
1:00:26 이런 명령을 쓰 써 가지고 안시 SQ 아는 걸 만들 거 만든 겁니다 자
1:00:33 그다음에 지금 개별적으로 앉아계신 선생님들 자리에서
1:00:39 데이터를 str 해 놓고 언어 언더가 데이트 하면은 데이터 하면은 한글이
1:00:46 깨질 나오는 부분들이 있을 수도 있어요 자 한글이 깨진 거를 원래대로
1:00:52 복원하는 작업을 좀 하려고 합니다 그때 쓰는게 라는이 함수를 쓰는데요 이게 뭐냐면
1:01:00 이게 아가 인터네션 약자입니다 그래서 국가 코드로 변형을
1:01:06 시키는 함수 그래요 자 우리가 쓰는 일반적인
1:01:12 데이터는 문자든 특수 기든 이런 것들을 관리하고 있는 데이터 코드값이
1:01:17 있어요 컴퓨터에는 이걸 캐릭터 셋이라고 하거든요 그래서 기억 니 이런
1:01:23 것들마다 코드를 부여해 있어요 근데 데 이거를 이제 표준화시켜 만든
1:01:30 것들이 utf 8이라는 표준화에 대한 캐릭터 셋이 있습니다 지금 저희가 쓰는 것들은
1:01:37 utf 8이라는 캐릭터 셋이 돼 있는데 저희가 지금 R 기반하에
1:01:43 ysq 접속을 해가지고 데이터를 읽었는데 한글이 깨지는 경우가 좀 간혹 나와요
1:01:49 그거를 한글에서 관점에서 해석을 좀 안 깨지게 하는 데이터 셋으로 변형을
1:01:55 하려고 그래 그게 CP9 49라 명칭으로 불리는 데이터 셋입니다
1:02:01 캐릭터셋 캐릭터셋 그래서 utf 8로 돼 있는 캐릭터
1:02:06 셋을 CP9 49는 캐릭터셋으로 변형하는 거를 다섯 개의 항목에 대해서 수행을 좀 할 거고요 자
1:02:14 그다음에 여기 str 스라는게 있어요 요거는
1:02:21 뭐냐면 요거는 s r이라는이 키지에 있는
1:02:27 함수인데요 저희가 문장을 다루거나 막 이럴 때 막 이상하게 막 스페이스가
1:02:33 많고 특수교 있고 이런 것들이 있어요 그런 것들을 깔끔하게 정리해 주는 함수가 str 스라는 함수가 있습니다
1:02:42 거 한번 좀 있다 보여 드릴게요 자 그다음에 원래
1:02:47 데이터가 렇게 읽었을 때 원래 데이터가 아까 연월일 데이터가 있다
1:02:53 그랬어요 연월 데이터 연월이 중에 연월 1 이렇게 붙어서 있다 보니까
1:02:59 월 데이터만 월별로 제가 추위를 비교하고 싶을 때 연어리 통째로
1:03:05 있으니까 이게 보기가 불편한 거예요 그래서 연월일 데이터 중에 월
1:03:10 데이터만 잘라서 별도로 데이터를 만들려고 해요 그니까 DPR yr
1:03:17 뮤티 이런 걸 써 가지고 기존에 있는 데이터 항목에 새로운 걸 추가하려고 그래요 근데 월 데이터만 추가를 할
1:03:24 겁니다 그래서 str 더바 SV 즉 데이터를 잘라라
1:03:29 서브스트링 해라라는이 함수의 요거가 str 더라는 함수 그요 어디서부터
1:03:35 얼마만큼 잘라라 이런 함수 그렇게 해서 데이터를 월 데이터를 만들
1:03:41 거고요 그다음에 지금 언더바 머니나
1:03:47 시즌 언더바 이어 런 데이터들이 머니 데이터는 숫자형으로
1:03:53 데이터가 딱 잘 읽혀지면 되 숫자형으로 안 익혀줄 때가 있어요
1:03:59 그래서 숫자형으로 좀 변형하는 작업을 잠깐 한 거고요 그다음에 시즌 데이터
1:04:05 같은 경우 시즌 연월 그니까 몇 년 도지 뭐 이런 연월 데이터도 문자형으로 이거는 익혀야 되는데
1:04:11 거꾸로 숫자형으로 익힐 때가 있거든요 그래서 그거를 문자형으로 변환하는 작업들을 이렇게 좀 할 겁니다 자
1:04:18 제가 이제 하나씩 쫓아 저랑 한번 맞춰서 진행을 해 보도록 하겠습니다
1:04:37 자 지금 str 해
1:04:45 놓고 자 지금 str 해 놓고 49 라인에 제가 지금 반저 친 것처럼 한번 쳐봐
1:04:53 주세요 그렇게 했을 때 지금 한글이 빛초롱 PC 방 뭐 이런 식으로
1:04:59 보이시면
1:05:08 괜찮습니다 근데이 글자들이 깨져서 나 나오시는
1:05:16 분들은 지금 데이터를 약간 변형을 해 주는 작업들을 해야 되는데요
1:05:52 자 지금 icv 같은 이런 기법을 써서
1:05:58 데이터를 한글이 깨진 것들을 안 깨지게 변형하는 작업들의 명령문들의
1:06:03 이렇게 개별적으로 좀 쳐주시면 됩니다 한글 안 깨지신 분들
1:06:10 있나요 str 했을 때 str 했을 때 요게 한글을 안 깨주고 요렇게
1:06:17 나오면 됩니다 안 깨지고 깔끔하게
1:06:23 나오면 바로 진행을 하도록 하겠습니다 니다 아 그러면은 진행을 좀 해
1:06:30 보도록 하겠습니다 자 첫 번째로 할
1:06:37 거는 30페이지 좀 봐
1:06:45 주세요 자 지금까지 했던 30페이지 보시면 지금까지 했던 DPR yr지지
1:06:53 플로 2라는이 시각화를 연달이어서 특성을 제 문장을
1:07:00 만들어가지고 스크립트를 만들어서 실행 결을 활용하는 겁니다 활용하려는 목적은 뭐냐면 비초 축제에 대해서 연
1:07:09 월별로 즉 월을 축으로
1:07:15 고은 매출금액을 표현할 거예요 근데 연도별로 막대
1:07:22 그래프를 분리해서 보여주게려고 하는게 의 목적입니다 자 그 문장을 한번 지금 30페이지
1:07:30 있는 거를 한번 쳐 봐서 결과치를 한번 확인을 해 주시고요 저도 한번
1:07:35 치고 설명을 드리도록 하겠습니다
1:08:03 아 한글 깨시는 분 계시나요 좀 손을 좀 들어 주시면
1:08:09 예 아 한글 깨지는 분들은 지금요 명령을 좀 때려 주시면
1:08:16 되겠습니다 교재에도 교재에도 지금 29페이지
1:08:21 밑쪽에 보시면 4번에 글 제가 표현한
1:08:26 부분이 있거든요 29페이지 쪽에 그거를 보시고 하셔도 되고요 지금 화면에 떠
1:08:33 있는 지금 명령문을 쳐 주셔도 됩니다 자요 명령문에 대해서 그러면 설명을
1:08:40 좀 드릴게요 지금 데이터
1:08:47 셋인 언리 언더바 데이터요 안에
1:08:52 이언 데이터 안에는 그중에 하나의 항을 찾아 들어갈 때는
1:08:59 달러 표시를 쓰게 돼 있어요 그래서 an 언 데이터 안에 하나의
1:09:07 항라는요 하나만 저 말씀을 드리면 언더바 데이터 안에
1:09:15 있는 어라는이 항목 하나만 utf 8로 돼 있는 걸
1:09:24 CP 해 다시 그 자리에 넣어라 이런
1:09:39 의미입니다 한글이 안 깨지고 제대로 나오신 분들도
1:09:47 있으신가요 그냥 편안하게 손만 들어 주셔도 돼요
1:09:55 요 화면을 잠깐 좀 떼워 놓을테니까 요걸 한번 보시면서 변형을 좀 시켜
1:10:01 주는 작업을 해
1:10:08 주십시오 자 요거 되신 분들은 제가 지금 sqr 언더바 스라는이 함수가
1:10:15 의미가 뭔지를 좀 설명을 드리려고 밑에 좀 토스를 먼저 만들어 놓을테니까 아 먼저 한글 깨지는
1:10:21 부분들을요 명령을 가지고 조금 맞춰 주시고요 Ah
1:11:25 예 천천히 하셔도 됩니다 예 실습은 30분 정도면 아까 저희가
1:11:31 다섯 가지 분석 방법에 대해서 한번 데이터 조이까지 해서 마무리할 수
1:11:37 있기 때문에 일단 캐릭터 셋이 일단은 깨진 부분들만 이렇게
1:11:44 맞춰주시면 됩니다 제가 조금 생각이 짧았네요이
1:11:52 문장까지 그냥 만들어서 여러분들 배포를 해서 로 할 수 있게 할 거를
1:11:57 사실 처음에 그 생각도 했다가 부나 함수를 한번 설명을 드리고 직접 쳐
1:12:03 보시는게 낫지 않을까 생각해서 그요 부분을 뺐었던 근데 막상 지금 실습을
1:12:09 해보는 과정에서 느끼는게 아 이것도 드리는게 맞서 나쁘다라는 생각이 들긴 합니다
1:12:45 아 지금 데이터 이제 tv's 읽는 명령문 날렸을 때 결 가치가 안
1:12:51 떨어지고 이렇게 하단에 빨간색으로 뭔가 이렇게 뜨는 경우가 있거든요 그거
1:12:57 지금 작업이 진행 중이라는 얘기입니다 그래서 데이터를 지금 160강 읽다 보니까 데이터베이스에서
1:13:04 바로 금방 갖고 오지 못하고 약간 좀 시간이 걸려서 읽어 오는 상황입니다
1:13:49 예 스트링가 셔
1:14:20 그다음에
1:14:34 익숙해 자 제가 이거 지금 작업이 돌고 계시는 분들도 있고 하니까 요거
1:14:39 그냥 간단한 것만 하마 설명을 드릴게요 지금 str 시키라는이
1:14:44 함수만 좀 설명을 드리려고 해요 저 함수는 스트링 R이라는 패키지 안에
1:14:51 있는 함수입니다 그래서 저 함수를 또
1:15:02 면 제가 61 라인에 친 것처럼 요런 명령을 먼저 실행을 하고 그다음에
1:15:09 이게 실행이 돼서 역시 아까 파워포인트가 올라와야 되는 것처럼요
1:15:14 스트링 아이라는 패키지라는게 뭐냐면 함수들 개별적인 함수들 묶어 놓은 걸
1:15:19 패키지라 그래요 그래서요 스트라는 키지 안에는 여러 함수들이
1:15:25 습니다 근데이 알이 정말 통계적인 분석을 하거나
1:15:32 시각화를 하거나 그다음에 데이터를 조작하는데 굉장히 훌륭한데요 불편한게 하나 있다면 이런
1:15:41 패키지들 함수들을 묶고 놓은 이런 패키지들 라이브러리라고 얘기하거든요 이게 너무
1:15:48 많습니다 그러니까 전 세계의 날고 기시는 분들이 이런 거를 만들어
1:15:53 가지고 이
1:16:00 캔가라가라 그 사이트에 올리면 거기서 이런 것들을 개발하신 분들이
1:16:06 만든게 제대로 잘 돌아가는 건지 의미가 있는 건지 검증을 해서 의미가
1:16:12 있다라고 판단이 들면 이거를 일반 사용자들이 쓸 수 있게 배포를 하는 거거든요 그래서 이런 패키지들이 여러
1:16:18 가지가 굉장히 많습니다 근데 그 많은 것들을 사실 다 기억을 하기는 못해요
1:16:25 못해 가지고 저도 구글 검색이나 어떤 패키지가 어떤 함수가 필요한데 이게
1:16:32 어떤 패키지에 있었지 기억이 안 날 때는 막 검색해서 찾아보고 패키지 이렇게 다시 로딩하고 하게 합니다
1:16:39 근데 쓰다 보니까 저 같은 경우도 15개 패키지를 넘어서 쓰지는 않아요
1:16:45 대부분 할 때 한 개이 정도의 패키지 안에서만 대부분 핸들링 하고요 그
1:16:51 정도만 하더라도 충분히 웬만한 뭐 어떤거든간에 핸딩 한데 지장은 없었던
1:16:58 것 같습니다 그리고
1:17:03 데이터를 이렇게 지금 주제를 정하고 분석하는 방법을 찾고 해보지만 사실
1:17:09 가장 그거보다 더 중요한게 있습니다 그거보다 가장 더 중요한 거는 업무
1:17:16 지식이요 저희는 이제 도메인 난리라고 얘기를 하는데 어떤 하고 계시는 업무의
1:17:23 깊이가 있을 때 누구보다도 이거를 이렇게 이렇게 분석하면 이런 의미가 나오지 않을까
1:17:30 그런 생각을 얼마든지 누구보다도 잘 하실 수 있거든요 그래서 업무에 대한 지식을 갖고 계시는게 가장 크고요
1:17:37 그다음에 그 지식 기반하에 이런 제 데이터 분석 방법을 알고 데이터 도작
1:17:44 방법을 알고 활용하면서 그동안에 못 봤던 것들을 찾아내는 거죠
1:17:59 야 저 말씀드린 것처럼 skr 스라는이 함수는 스트링 R 안에 있는
1:18:05 함수인데 제가 여기 지금 무궁 앞에 글자 스페이스게 띄우고 중간에도 막
1:18:11 스페이스 놓고 막 이렇게 해서 문장을 넣어 놓고 얘를 스케치라는 함수로 태니까
1:18:17 결과치가 앞앞에 있는 스페이스 중간에 막 몇 개씩 있던 스페이스가 하나로
1:18:23 딱 압축이 돼서 뒤는 없애버리고 중간 거는 하나로 뭉치고 요렇게 해서
1:18:29 표현하는게이 st 스케치라는 함수입니다 왜 요거를 여기 지금
1:18:34 저희가 분석하고 있는 데이터셋에 썼냐면 데이터가 지금
1:18:41 데이터베이스에 정말 깔끔한 데이터베이 데이터가 데이터베이스에 깔끔하게
1:18:46 들어가 있으면 문제가 전혀 없는데 제가 사실은 전공이
1:18:54 데이터베이스 쪽을 하다가 이제 분석으로 넘어온 케이스다 보니까 데이터베이스 튜닝이나 이런 거 많이
1:19:00 다녔거든요 그쪽을 해보면서 느끼는 거지만 정말 정말 뛰어난 큰
1:19:07 기업들도 쓰레기 데이터가 엄청 많습니다 그래서 데이터를 봤을 때
1:19:14 이런 정리 작업들을 많이 해 줘야 돼요 그러다 보니까 이런 함수들도 활용을 해서 맞춰주는 작업들이
1:19:21 필요하고요 그중에 하나가 시라는 함수를 쓴 겁니다 지금이 지금
1:19:28 서울시에서 보유하고 있는 비초 데이터이 데이터에도 한글 명칭이 앞에
1:19:33 스페이스가 붙어 있고 막 이런 것들이 있어서 그걸 없애려고 렇게 명칭을 한
1:19:39 겁니다 예 이제 그러면 한번 직접 한번 데이터를 이제 한번
1:19:45 실습을 해보겠습니다 페이지를 보시면 자
1:19:52 30페이지 먼저 한번 치고 여기에 또 이제 새로운 명령기 그니까 파라미터가
1:19:57 있기 때문에 요거에 대한 설명을 제가 먼저 치고 말씀을 드리도록 하겠습니다
1:21:09 지금 혹시 교재 보시면서 한번 쳐 보셔도 괜찮습니다 먼저 쳐 보시고요
1:21:16 제가 치고 나서는 설명을 좀 모직에 대해서 설명을 드리도록 하겠습니다
1:21:48 [음악]
1:22:23 m m
1:23:45 자 로직을 한 번만 좀 화면을 좀 봐주십시오 기존에 썼던 거하고
1:23:51 똑같습니다 저희가 d 하고 플로트를
1:23:56 쓴 겁니다 근데 약간 기능이 좀 추가됐죠 아까에서 안 봤던 기능들이
1:24:01 있는데요 우선 서머라이즈 같은 경우는 전체 금액에 합을 해놓고 너무 숫자가
1:24:07 크니까 제가 그냥 100만 단위로 나눈 것뿐인 거고요 자 여기에지지
1:24:13 플에 조금 다른 파라미터가 있습니다 자 x 축은 원로
1:24:18 잡았고요 y 축은 S 1이라는 새롭게 만든 변수의 값을 이제 같습니다
1:24:26 그다음에 박스 플을 그릴 거예요 박스 플을 그릴 거기 때문에 색상을 또
1:24:32 달리해서 그릴 거예요 아까 색상과 관련해서는 필리라 파라미터가 있고
1:24:37 컬러스 파라미터가 있다고 말씀을 드렸어요 자 컬러라는 파라미터는
1:24:42 점이나 선을 위한 파라미터입니다 색상을 근데 필리라이 파라미터는 막대
1:24:49 그래프를 그릴 때 그 막대 그래프의 색상을 넣는 파라미터에 그래서
1:24:55 를 색상으로 채울 건데 연도별로 색상을 채우라고 준
1:25:00 거예요 연도별로 색상을 취해 고요 자 그다음에의 원더바 co X 축과 Y
1:25:08 축을 정의한 상태에서의 막대 그래프 그거를의 원더로 한다고 그랬어요 막대
1:25:14 그래프는 바 그래프가 바의 원더바 bar 있고요 gom 언더바
1:25:20 히스토그램이 있고요 gom 더바이 있는 겁니다 자 근데 제가 지금 여기 포지션
1:25:27 해놓고 도지려고 줬어요 요거 잠깐 뺄게요 빼고 그래프가 어떻게 나오는지 한번 보시고 요걸 넣었을 때 어떻게
1:25:34 나오는지 보시면
1:25:48 됩니다 자 지금 GE 원더바를 막대 그래프를 그리는데
1:25:58 자 어떤 차이가 있으신지 아시겠죠 gomc a 포지션 이로
1:26:04 도지고 주게 되면 얘가 위로 지금 계속 쌓이는 거를 옆으로
1:26:11 떨어뜨려요 지금은 do 원더바에 포지션 이구로 도지라는 걸
1:26:18 뺀 상태입니다 로직을 근데 포지션 이코로 도치라 주면 이게
1:26:24 밑으로 떨어집니다 그리고 필라는 파라미터를 줬을 때 그 필에 해당되는게 색상을
1:26:32 넣기도 하지만 컬러하고 똑같이 컬러하고 똑같이 색상을 넣기도 하지만
1:26:38 요쪽에를 잡아주는 기준이 돼요 필과
1:26:43 러스가요를 잡아주는 기준이 됩니다 색상을 분하는 이유는 뭔가
1:26:51 어떤 항을 기준으로 구하려는 거잖아요 그 기준이 내에 그대로 나타나는
1:26:59 겁니다 자 g에 요번에는 다시 한번
1:27:05 볼게요 자 포지션을 넣는 상태에서 돌려
1:27:16 보겠습니다 자 넣어놓고 돌려보니까 이제 옆에 막대 그래프가 밑으로
1:27:21 떨어지는 거죠 자 이거만 봤을 때 지금 현재 데이터 자체가 10월
1:27:27 데이터 11월 데이터 12월 데이터 3개월치 밖에 없는 거예요 그리고 14년도 15년치 대한 거예요
1:27:34 그러면은 14년도에 비초 촉에 10월 11월 12월에 데이터
1:27:41 현하고 15년도에 10월 11월 12월 현황의 데이터를 이렇게 막대
1:27:47 비교를 해본 거죠게 하나의 탐색이 되는 겁니다 이것도 색말 조금 점에 탐색도 한번
1:27:55 해
1:28:06 볼게요 예 그 31 페이지를 보시면 요거는 똑같은 거기 때문에
1:28:13 설명만 하겠습니다 방금 정권은 매출 금액의 합시 있는데 요번에는 매출
1:28:18 건수의 합입니다 그러니까 차이가 딱 칼럼 하나가 바뀐다는 거밖에 없 없죠 요거는
1:28:25 똑같은 개념이기 때문에 넘어가고요 그 뒤에 거를 한번 [음악]
1:28:33 볼게요 자 32 페이지가 이제 핵심이 되겠습니다 저희가 지금까지 했던 거에
1:28:40 집대성이 있는게 여기에 있다라고 보시면
1:28:46 돼요 자 뭐냐면 업종별로 업종별로 어떤 업종이 말이
1:28:54 축제에 제일 많이 활성화돼 있는지 알려고 하는 거예요 자
1:29:00 그래서 업종별로 분류를 하니까 여기 지금 저희가 갖고 있는 데이터셋에
1:29:05 업종을 카운터를 해보니까 몇 가지 업종이 있냐면 513 종인가 업종
1:29:10 있더라고요 513 종을 축에 다 려니까 너무 큰 거예요
1:29:17 그래서 상위 20개 업종만 뽑으려고 해요 자 그러면 상위 20개 업 만
1:29:25 가려내고 20개의 업종만 관리하고 있는 데이터를 다시
1:29:30 긁어낼 거예요 세 개의 작업을 할 겁니다 첫 번째는 상위 20% 업종만 찾아낼
1:29:39 거예요 자 업종을 찾았어요 근데 원래 데이터에는 상위 20% 있는 업종만
1:29:46 있는게 아니라 모든 업종이 다 있잖아요 그래서 20위까지 있는
1:29:52 업종만 갖고 있는 데이터셋을 새로 만들 거예요 그때 이용할 때 조인이
1:29:57 걸 이용을 할 겁니다 조인을 해서 데이터를 만들어 놓고 그 만든 걸 기준으로 20개의
1:30:05 업종 배에서만 매출 금액의 현황이 어떤지를
1:30:12 연도별로 비교를 하려고 합니다 자 이게 저희가 실습 하려는 취지입니다 자
1:30:19 그러면 한 줄 한줄 한번 해 보겠습니다 32 라인에 32페이지 자 위에 있는 거부터 제가 먼저
1:30:26 로직을 좀 만들고 설명을 좀 드리도록 할게요
1:31:46 자 우선 부분 부분별로 끊어서 한번 설명을 드리겠습니다
1:31:55 자 아까 말씀드 제일 데이터 분석에서 제일 중요한 거 업무라고 했습니다 자 업무 다음에 그다음에 중요한 건
1:32:02 조이에 조작을 잘시키고 데이터셋을 잘 정리를 하고 그런 다음에 분석 모형에
1:32:07 태우면 되는 겁니다 분석 모형은 알고리즘이 다 나와 있어서 분석 모형이 무 무엇을 쓰는 분석
1:32:13 모형이지만 알면 되시는 거예요 자 우선 여기 로직을
1:32:18 볼게요의 데이터를 가지고이 데이터를 가지고
1:32:25 코드별로 매출 금액에 합수 구했습니다 여기까지가 어쨌든 업종별로 얼마만큼
1:32:33 배이 있는지를 알려고 한 거잖아요 자 한 다음에 제가 상위 1위부터 20위까지
1:32:39 뽑으려고 그래요 그러다 보니까 우선 금액을
1:32:46 기준으로 내림차순으로 하게 되면은 가장 위가 제일 큰 업종의 데이터
1:32:51 금액이 나올 거 아니에요 그래서 렌지를 한 겁니다 정렬을 그래서
1:32:56 디센딩 한 거예요 센딩을 해 놓으면 제일 위에 있는 여기까지 여기까지
1:33:03 디센딩 렌지에서 여기까지만 한 거만 하면 가장 금액이 큰게 제일 위에
1:33:08 있을 거고요 그다음에 제일 낮은 거는 제일 아래 있을 거예요 거기에
1:33:13 1위부터 20까지 뽑기 위해서 필터라는 걸 한
1:33:19 겁니다 얘는 기에요 파이프라인에 걸르고 걸르고 걸르고 걸르고 해서
1:33:25 로직이 완성이 되는 것들이에요 그래서 필터를 해 가지고 필터를 할
1:33:32 건데 순위를 번호를 먹일 거예요 1번 첫 번째 있는 데이터는 1 두 번째는
1:33:37 2 해 가지고 순번을 매겨 가지고 순번을 먹긴 거를 기준으로 1위부터
1:33:43 202 번까지만 뽑아라 렇게 한 거죠 그런
1:33:48 다음에 여기까지만 하게 되면은 모든 항목이 다 나오는 겁니다 근데 제가
1:33:54 필요한 건 업만 알면 되잖아요 그래서 업종만 셀렉트를 하자라고 해서 C
1:34:00 CD 붙인 거예요 자 파이프라인 있니다 계속
1:34:05 이어갑니다 다시 한번 갈게요 an 데이터로부터
1:34:11 업종별로 매출 금액의 합을 구한 겁니다을
1:34:17 구했어요을 구했는데을 구한 기준으로는 큰게 먼저 나올 수 있지 작은게 먼저
1:34:22 나올 수 있지라 그러다 보니까 정을 좀 할 거예요 금액별로 가장 큰 거를 제일 위로
1:34:29 하기 위해서 어렌지 정렬을 했습니다 근데 제일 큰 거를 위로 나오게
1:34:34 하려면 디센딩 정를 해야 되니까 DSC 쓴 거고요 그 정을 시켰습니다
1:34:41 자 그다음에 제일 위에 있는 거는 넘버 1 사적으로 번호를 붙일 거예요
1:34:47 그거를 로라는 걸 가지고 1 3 4 숫자를 붙어요
1:34:52 다음에 숫자까지 만 뽑으면 이제 순위가 되니까 그크 뽑기 위해서
1:34:57 필터라는 걸 가지고 필터와 비트윈으로 해서 1위부터 20일까지만 뽑은
1:35:03 겁니다 여기까지만 했을 때는 모든 항목들이 다 이제 데이터들이 나오게 되는데 그중에 언더바 CDM 뽑기
1:35:10 위해서 셀렉트를 한 겁니다 자 요거를 부분 맵을 끊어서
1:35:15 한번 볼게요 자 데이터를 로직을 짜겠다
1:35:23 보면은 에러가 나는 경우 아까도 말씀 혹 발생합니다 그때 어디가 에러가
1:35:28 났는지를 확인하는 가장 쉬운 방법은 부분별로 실행하 보는 거예요 자 지금 제가 먼저 해
1:35:34 볼게요 자 여기 지금 선라이즈가 이렇게 반전시킨 다음에 돌려서
1:35:40 정상적으로 데이터 처리가 나오면은 일단은 끝나는
1:35:46 거죠네 이렇게 나왔습니다 여기 정상적으로 나온 거예요 자 그다음에
1:35:53 얘를 어레인지까지 시켜요 정렬까지 시킬 겁니다 여기 반전시킨 다음에 역시 또 돌려면 되는
1:36:03 거겠죠 자 이렇게 정렬을 하니까 한시 10점이 제일 큰 거로
1:36:08 지금 나와 있어요 자 이거에서 1위부터 2까지만 뽑기 위해서 필터까지 붙여 가지고 다시 한번 돌려
1:36:15 보면
1:36:21 되겠죠 그랬더니 나온게 업종 명하고 금액하고 두 가지
1:36:28 항목이 나왔어요 근데 제가 필요한 건 업종 명만 알면 되잖아요 그래서
1:36:34 셀렉트라 걸 뒤에 붙여 가지고 업종 명만 뽑은 행위를 취한
1:36:40 겁니다 자 요거를 취한 거를 top 언더바 C 언더바 CD 아는 변수의
1:36:47 요거를 담은 거예요
1:36:54 자 변수에 담았습니다 그래서 to 언더바 C
1:36:59 언더에는 1위부터 20까지 20까지의 업속 명만 있어요 이제 자 그러면
1:37:07 원래 데이터에는 500 몇 건의 업종 데이터 다 있는데요 업종만 있는 거 하고만 연결
1:37:14 시켜가지고요 업종에 해당되는 데이터만 쑥 뽑아내려고 하는 거예요 그래서 인이라는 걸 하는
1:37:22 겁니다 하는 거예요 자 조인을 하는데 어떤 조인을 할 거냐 양쪽 다 같이
1:37:29 있는 데이터를 비교해서 갖고 오면 되니까 인어 조이라는 걸 할 거예요
1:37:34 자 그게 32페이지 2번이라고 표현되 있는
1:37:41 부분입니다 자 인어 조인 제가 먼저 문장을 만들고 설명을 좀
1:37:47 드리겠습니다
1:38:18 다시에 한
1:38:38 자 지금 자 아까 저희가 실습은 안
1:38:44 했지만 주인이라는게 여러 가지 있다고 말씀을 드렸어요 자 인이라는 걸 인어 조인이 양쪽에 같이 있는 데이터만
1:38:51 갖고 와라고 조인을 했습니다 데요 문장 안에는 바이라는이 부분이 좀
1:38:57 나타났어요 그리고 언더바 CD 또 뒤에도 언더바 CD 이런 항목이
1:39:03 있어요 요거를 뭐라 그러냐면 키라 그럽니다 키 요거는
1:39:30 자 저기 여기 앉아계신 선생님이나 저에 대해서 만약에 정보를 관리하는
1:39:36 시스템을 만든다 그러면 어떤 행위를 취하냐 저희 개개인들의 정보를
1:39:43 관리하는 항목들을 이제 찾는 작업들을 해요 이제 간단하게 갈게요 자
1:39:49 이름이라는 항목이 있을 거고요 그다음에 뭐 주소라는 항목 그다음에
1:39:58 전화번호
1:40:08 그다음에 주민번호도 있을 수 있고요 성별도 있을 수 있고 뭐 여러 가지
1:40:13 항목이 있겠죠 자 이런 항목들 중에 중에 저라는
1:40:21 사람을 다른 분들하고 중복이 안 되고 유일하게 절하는 사람을 대변할 수
1:40:26 있는 항목들이 있을 거예요 그러니까 이름 하나만 가지고는 저라는 사람하고
1:40:32 똑같이 사람 있는 사람이 있을 수도 있잖아요 그리고 전화번호는 물론 좀
1:40:38 다르겠죠 하지만 명확하게 전화번호로 또 제가 언제 바뀔지도 모르잖아요
1:40:44 그래서 이름하고 주소도 언제 바뀔지도 몰라요 근데 이름하고 주민번호 정도만
1:40:51 이렇게 연결을 하면 저라는 사람을 제일 유니크하게 유일하게 구분 수 있는 항목이 될
1:40:57 거란 말이에요 이런 항목을 뭐라 그러냐면 진주라고 얘기를 하는
1:41:05 거예요 근데 이런 항목으로 사람을 개개인들을 관리를 하면 너무 항목이
1:41:12 많아질 수도 있으니까 요거를이 진주를 대변할 수
1:41:19 있는 명칭을 하나 만듭니다 그게
1:41:26 고객 아이디 같은 거를 만드는 거예요 예를 들어서 회사 같은 경우는
1:41:36 번이라는게 그 사 사원을 유일하게 만드는 아이디 값으로 부여하는 거
1:41:42 이거를 가주어 아고 얘기를 해요 원래는 가주어 진주를 대변하기
1:41:48 위해서 가상으로 만든 주어다
1:41:54 데이터를 관리를 할 때는 그 데이터를 정말 유일하게 구분 수 있는 가주어
1:41:59 진주어 이런 것들이 다 있습니다 자 이런 거를 뭐라고 얘기를 하냐면
1:42:08 이거를 프라이머리 키라고 얘기를 해요 주된 키라고 용어를
1:42:14 씁니다 자 그러면 왜 바이저를 이런게 있냐면 자
1:42:22 볼게요 Ah
1:43:18 자 지금 제가 여기 지금 칠판에
1:43:23 박스들을 몇 개 그렸습니다 자 요기 지금 요런 요런 표시 있죠 요런 거 요거를 발이라고
1:43:31 표현을 하는데요 요렇게 세 가지가 있는 쪽하고 선 하나만 있는 쪽이 있어요
1:43:39 요거를 1대 m 관계라고 얘기를 해요
1:43:45 고게 홍길동이라는 고객이 세탁기라 상품을 구매할 수
1:43:52 있잖아요 자 홍길동이
1:43:59 세탁기를 구매를 했습니다 근데 2018년 1월 1일자로 구매할 수
1:44:05 있죠 자 그다음에 홍길동이 세탁기를
1:44:11 2018년 9월 1일 날도 또 계약을 할 수 있어요 자 홍길동이 한
1:44:18 사람이에요 홍길동이 계약을 여러 번 할 수 있기 때문에 1대 의 관계가 되는
1:44:24 거예요 상품도 중복이 없어요 근데 홍길동에 말고 또 다른 사람들도 상품
1:44:30 살 수 있잖아요 세탁기 그래서 1대 m 관계가 되는 거예요 자 요렇게
1:44:36 만들어진 요런 거를 키라고 얘기를 합니다 요런 거를 그러면 요쪽에 있는
1:44:43 데이터와 요쪽에 있는 데이터를 연결을 하려면이 키를 기준으로 연결을 해야
1:44:49 되거든요 그게 저기의 바이에
1:44:55 인이라는 걸 할 때는 값들을 가지고 연결을 해 줘야 되거든요 홍길동이라는 고객이 상품을
1:45:03 세 개를 샀다 그러면 1 * 3 해가지고 세 것만 나와야
1:45:09 되는데 홍길 고개가 이하고 고개가 이하고 딱 연결하면 세건이
1:45:14 나와요 근데 고명하고 여기에 만약에 고명이
1:45:20 있다 그러면 세이 몇 올지 몰라요 왜냐면 중복 있는 고객들도 있을 수가
1:45:27 있으니까 그래서 데이터 인이라는 것 저렇게 인어 조인 세미조인 아웃조인
1:45:33 뭐 이런 거 할 때 데이터를 연결을 할 때는 데이터를 유일하게 분할 수
1:45:39 있는 키를 가지고 연결 하는 거거든요 그 키
1:45:44 항목이 an 언더바 데이터에는 C 였기 때문에
1:45:51 또는 에도 언더바 CD 항목이 요렇게만 연결하면 건수 곱하기
1:45:59 건수만큼 딱 나오기 때문에 1대의 관계이기 때문에 왜 top 언더바 C
1:46:04 언더바 CD 아까 1위부터 20위까지 항공만 있잖아요 중복이 없단 말이죠
1:46:10 1대 1대의 관계인 거예요 1대 m 그래서 두 개를 조인을 하는데
1:46:18 연결을 시키는데 어떤 항목으로 연결을 해라고 정의를 해주는
1:46:24 부분이요 부분입니다 즉 키하고 키를 연결해
1:46:29 주는 부분이에요 두 데이터의 셋에 대해서 연결 할 때 이런 인이라는 기법을
1:46:36 쓰는데 인이라는 기법을 쓸 때 어떤 항목과 어떤 항목을 연결해 줘 정의를
1:46:42 해야 되거든요 그 항목을 정의할 때 바이라는 걸 쓰고요
1:46:49 그다음에이라는 거는 벡터의 용어입니다 그냥 C 이런 이런 거를 연결할 때 항상 C
1:46:55 용어를 쓰는 거예요 그냥 기본으로 앞에 있는 top 언더바 C 언더바 CD
1:47:01 데이터셋에 언더바 CD 있으니까이 항목 하고 뒤에 있는
1:47:08 데이터셋에 아 요거죠 Cop 아 요요요 항목 an1 언더바 데이터에
1:47:15 C 언더바 CD 항목 하고 그다음에 topc 언더바 CD요 항목에
1:47:21 데이터셋에 언더바 CD 둘리를 연결을 해서 찾아 줘라고 한 거예요인 조인을
1:47:29 자 그래서 20에 해당되는 데이터만 싹 다시 원천 데이터에서 부분 데이터로 뽑아낸 겁니다 뽑아낸
1:47:37 결과치를요 변수에 그냥 다시 담은 거예요 자 조 변수까지 이제
1:47:45 담아냈으면 마지막으로 이제 해야 될 거는 자 저 3번이죠 시각화를 하는
1:47:51 작업을 하면는 자
1:47:57 시화를 3번 교재를 좀 봐주세요 어떻게 했는지 한번 요거는 설명만 좀
1:48:03 드리겠습니다 똑같습니다 자 to 언더바 C
1:48:08 언더에서 그룹을 잡는데 x 축에는 업종 코드를 잡았습니다 자 y 축에는 워를
1:48:17 잡았어요 아 그룹바이 하는데 c c 종하고 하 연을 기준으로 해서 그룹
1:48:24 바이를 했어요 세계 항목별로 해서 매출 금액에 합을 구한
1:48:30 겁니다 자 다시 말씀드릴게요 업종 명하고 업종이 월 월별로 얼마만큼
1:48:39 사용을 했는지 알기 위해서 그룹 바이를 한 거예요 그 항목으로 썸을 한 겁니다 썸을 한
1:48:46 다음에 어렌지 여기 굳이 안 들어가도 될 거 같은데 제가 지금 표현을 해놨네요 자 그런 다음에 플 해서
1:48:53 시각화를 축에는 업종을 20 까지를 나열을
1:48:58 했어요 그다음에 축은 금액을 표현하면 되겠죠 숫자
1:49:04 데이니까 그다음에 월별로 좀 분해서 표현하려고 색상을 구해서 표현하려고
1:49:11 필라는 명령을 쓴 겁니다 거기에 테스트라고 이렇게 돼
1:49:17 있는 거 있죠 거는 아에서 원래 기본적으로 제공하는 함 데 뭔지 한번 잠깐만
1:49:38 볼게요 제가 지금 요런 문장을
1:49:46 날렸습니다 개별적으로 요거 하나의 벡터 그요 요것도 벡터 요것도 벡터에
1:49:53 개별적인 벡터를 패스트 제로 하니까 하나로 묶어 버린 거예요요 차입니다이
1:50:05 함수예제 데이터가 연월 떨어져 있는데 요거를 묶어서 그냥
1:50:13 표현하려고 그 세 번째 줄에 필라는 부분에 그 명령을 집어넣은
1:50:19 겁니다 자 그런 다음에 막대 그래프를 go 원더바로 한
1:50:25 것뿐이에요 거기에 포지션은 도지로 줬으니까 위로
1:50:31 쌓지 않고 옆으로 떨어뜨렸 있죠 그렇게 표현된 거고요 랩스는 걸
1:50:36 통해서 X 축 y 축 명칭들을 바꿔 준 겁니다 자 그렇게 해서 나온 시각화가
1:50:43 32페이지 있는 시각화 그요 아 지금 제가 사실 대별 다
1:50:49 해보고 싶은데 시간이 좀 그래서 마지막으로 하나만 해보고 똑같은 방식인데까지만 해보고 조금 시간이
1:50:55 넘더라도 요거까지만 좀 해봤으면 해서 하나만 더 해보고 시각화의 의미를
1:51:00 하나만 더 해보고 오늘은 마무리를 좀 하도록 하겠습니다 35페이지 좀
1:51:06 봐주실래요
1:51:15 자 35 밑쪽을 좀 봐주시면 선 그래프를 그리는
1:51:21 거거든요 는 데이터의 특성을 파악하는데 막대 그래프보기
1:51:27 씁니다 그래서 선 그래프를 좀 그리는 작업을 할
1:51:32 건데요 여기서 포인트가 있어서 제가 이거를 설명을 드리려고
1:51:37 그래요 선 그래프라는이 관점은 축이 시간의 흐름이나 크기의 순서가
1:51:46 있는 거 잡아줘야 돼요 근데 저희 데이터에는 간의 흐름이라는
1:51:54 부분들을 지금 뭐 연 월도 있지만
1:52:06 [음악]
1:52:18 요거를 자 저희가 지금 실습하는 데이터에는
1:52:25 2014년 10월 11월 12월 데이터가 있고요
1:52:31 2015년 10월 11월 12월 이렇게 있다고 할게요 자 얘가 분명히
1:52:37 시간의 흐름이에요 자 이거를 선으로
1:52:43 그리면 2014년 10월 11월
1:52:49 12월 2015년 10월 11월 12월 이렇게 나올 거예요 근데 제가 그리
1:52:57 지금 자료에 있는 거는 14년고
1:53:13 15년을 요렇게 표현하려고 하는 거예요 그래야지 비교를 할 수
1:53:19 있으니까요 그래서 요 데이터가 원래 시간의
1:53:25 흐름인데 새로운 시간의 흐름의 기준을 먼저 만들고 이거를 그리려고 하는 거예요 그걸 어떻게
1:53:32 만드느냐 지금 자료를 보시면
1:53:50 2014년도에 자 요렇게 데이터가 있는
1:53:55 2014년도에 10월을 1 11월 2 12월을 3 렇게 만들고요
1:54:02 15년도 1 2 3을 만들면 축을 얘로
1:54:10 잡고 y 축을 금액으로 하고 필 필이나 라인 컬러를 연도로
1:54:19 잡으면 이게 겹쳐서 나오는 형태가 되는
1:54:25 거예요 이렇게 해야 연도의 별로 추위에 대한 비교를 할 수가
1:54:32 있거든요 근데요 형태의 데이터만 갖고는 표현하기 어려우니 강제로
1:54:39 시간의 흐름 또는 크기의 순서가 있는 거를 만드는 거예요 그래
1:54:44 최종적인 저희가 데이터 조작부터 시각화
1:54:51 탐색이라는든 을 집대성한 부분이 일단은 35페이지 밑에 부분이라요
1:54:58 부분을 실습을 해보도록 해 보겠습니다 예 제가 먼저 저도 한번
1:55:04 쳐 보고요 쳐보고 설명을 드릴게요
1:55:30 C
1:55:52 C
1:56:52 m
1:57:38 네 지금 예 지금 저의 화면은 지금 포
1:57:43 저 화면을 보시면 요렇게 지금 현재 라인 그래프를 그린 겁니다 자 요렇게
1:57:50 라인 그래프가 나온 배경에 대해서 로직을 한번 보고 설명을
1:58:08 드릴게요 자 우선 to 언더바 C 언더바 CD 어 데이터를 머리를 할 거예요
1:58:16 머리를 할 건데 어 제가 조금 굳이 중간에 안해도 되는 머리를 좀 거
1:58:22 같은 느낌이 좀 있네요 여기 그룹 바부터 여기 여기 타임으로 한번 선
1:58:30 머리를 안 해도 되는데 굳이 한 거 같아요 그 요거 여기 밑에 다시 또 그냥 타임
1:58:37 없는 상태에서 선 머리를 또 했는데 요거 굳이 안 해도 되는 거를 했 두 번 좀 선 머리가 들어간 거 같아요
1:58:43 요건 제가 실수인 거 같고요 그래서 to 언더바 C 언더바 시로부터 연
1:58:52 월별로 먼저 데이터 값을 구한 다음에 구한 다음에 이제이 연 월로 연월 기준으로
1:59:02 아까 말한 노 넘버를 붙이는 거예요 그래서 1 2 3 1 2 3을 붙인 겁니다 뮤티 해 가지고 자 붙인
1:59:11 다음에 데이터를 조금 보기 편하기 위해서 연도별로 이제 정렬을 한번 해
1:59:16 준 거예요 정렬을 하고 시각화를 하는데 X 축에는 14년도에 1 2
1:59:23 3이 있고 15년에도 1 2 3이 있으니까 x 축의 기준은 마치는데 동일하니까 x 축을 RN 숫자 넘버
1:59:31 부여한 거로 한 거고요 그다음에 y 축은 금액의 하
1:59:37 그다음에 색상을 구분하기 위해서 라인 그래프는 컬러를 쓴다 그랬어요 그래서
1:59:43 컬러로 해 가지고 연 월과 붙여서 같이 표현하기만 해줘라 이렇게 한 거
1:59:49 패스트 아까 제로 그걸 한 거고요 그다음에 시각화에 선 그래프를 그릴
1:59:55 거기 때문에 g 라인으로 해서 표현한게 이제 이쪽 시각화의 결과치가
2:00:06 되겠죠 자 그래서이 시각화가 나온 거고 아까 패스트 제로 해 가지고 연
2:00:13 연도 그다음에 한글로 연자를 같이 붙이게 하고 그다음에 12월 11월
2:00:19 12월이 있으니까 그거를 같이 이렇게 묶어서 색상별로 해라 이렇게 정의를
2:00:26 한겁니다 그렇게 해서 추위를 비교를 해봤더니
2:00:31 10년하고 14고 15년 비슷한 추위가 나온다는 거는 그 확인을 해본
2:00:38 거죠 여기까지가 우선 모든 정형데이터 분석기법은 다 아니지만
2:00:45 우선적으로 제가 이드
2:00:50 교는 맞춰서 제가 신경 써서 한번 해 본 거기 때문에 저거는 한 번씩 보시면서 다른 데이터셋이 만들어진다
2:00:58 하더라도 실습을 해 보시는데 지장은 없으실 거예요 조기 함수들을 가지고 잠깐 데이터 명칭만 바꾸면 되니까
2:01:05 그렇게 해서 익히시면 충분히 데이터 조장하고 시각화 부분은
2:01:10 어느 정도 쫓아오질 거라고 확신은 듭니다 또 한 가지 여기서 좀 더 갖추시면 좋은게 아이라는 부분은
2:01:18 기본적으로 다뤄야 될 몇 가지 기능들이 좀 있습니다 그거에 대한 기초 교육만 한번 더 받으시면 어
2:01:25 제가 볼 때는 어느 정도 조작 부분들은 금방 좀 쫓아오질 거라고 생각이 듭니다 예 정형 데이터
2:01:31 관점에서는이 정도로 수업을 끝내고 다다음 주에 또 뵙게 되면 다다음 주에는 정형 데이터 설명드렸던 일부
2:01:40 부분들을 또 다시 설명을 하는 부분이 앞에 있거든요 시각화 부분하고
2:01:45 그다음에 dyr 스트링 R이라는이 함수 패키지
2:01:50 그다음에 주식이라는 어떤 이런 기법들이 몇 가지가 더 있는데 어
2:01:56 텍스트 된 분석하는 쪽에 또 오늘 오신 분들이 오시게 되면이어서
2:02:01 들으면은 또 오히려 또 좋 효과가 또 나올 수도 있기 때문에 기회가 되면 뵙고 자세히 한번 설명을 또 드리도록
2:02:07 하겠습니다 예 먼데까지 와셔 들어 주셔 감사하고요 예 수업 뵙도록 하겠습니다 감사합니다
2:02:14 [음악]
|