본문 바로가기 주메뉴 바로가기
온라인강의목록-강의명,조회수,등록일자로 구성된 표
강의명 조회수 등록일자

데이터 시대에 문과생으로 일하고 공부하기!

안녕하세요. 서울시 빅데이터캠퍼스 입니다.   2019 서울시 빅데이터캠퍼스 공모전의 사전설명회와 더불어 오픈강의(특강)을 지난 2019년 9월 21일 진행하였습니다. 빅데이터캠퍼스 소개/이용방법과 공모전의 전체 진행일정 및 심사기준, 공모전 참가자분들의 궁금증을 해소하는 시간 을 현장에서 진행하였으며, 경남대학교 양 승훈 교수님께서 '공부와 일과놀이의 경계가 허물어지는, 데이터 시대에 (문과생으로)일하고 공부하기!' 주제로 사전설명회에 참여주신 많은 분들께 빅데이터가 어떻게 활용되며, 지난 공모전 당선작이 이후 서울시와 협력 분석되어, 실제 시민들에게 활용되고 있는 사례에 관하여 특강을 진행하여 주셨습니다.   2019 하반기 서울시 빅데이터캠퍼스 공모전에 많은 참여와 관심을 주신 참가자 분들께 진심으로 감사드리며, 추후 하반기 2019 서울시 빅데이터캠퍼스 공모전도 많은 관심과 참여 바랍니다.   감사합니다.   [데이터 시대에 문과생으로 일하고 공부하기! 강의교안 다운로드]     (스크립트) 0:00 [음악] 0:08 설명에 강연을 시작하도록 하겠습니다 강연에는 빅데이터시대 일하고 공부하기는 주제로 경남대학교 사회학과 0:15 양승훈 교수님께서 진행해 주시겠습니다 그럼 양수훈 교수님을 큰박수로 보시도록 0:25 하겠습니다네 반갑습니다 저 경남대학 사회학과의 양 고 하고요 오늘 뭐 0:32 제목은 이렇게 됐는데 제 물어볼게요 여기 20개 출시 0:39 있어요 어 예 그러면 그렇구나 나머지는 다 문가예 0:45 문과가 한 60 70% 되는 거 같고 나머지 되 거 같은데 예 제목을 저 0:51 잘못 뽑아 저는 여기에 그 문계 학생들이 혹은 경 학생들이 좀 많을 0:57 거라고 생각하고 그런 제목을 했는데 뭐 일반적인 얘기도 좀 하고 여러 가지 1:04 제가 어 경험했던 것들 학생들하고 경험한 것들 공유를 하는 시간을 하겠습니다 1:12 그래서 아까 제목 말씀 신 것처럼 공부와 일구와 놀이의 경계가 허물어진다 뭐 이런 얘기 했는데 이게 1:18 좋은 얘기일 수 나쁜 얘기일 수도 있잖아요 좀 놀아야 되는데 이제 누는 것도 뭔가 집약적 할 것 같고 덕질도 1:25 어비체 별로 좋은 일 아니라고 하 어 별로 좋은 일 아니라고 하는데 뭔가 1:32 근데 그게 빅데이터 어 시대 혹은 이제 데이터를 뭔가 분석하는 사람들한테는 그게 1:38 필요한 일이기도 해요 사실은 그래서 어쨌든 그게 왜 그런데 그 또 어떻게 해야 되는지를 좀 공유를 1:46 하겠습니다 그래서 뭐 예 과학책은 처음입니다 사실은 근데 데이터 과학에 1:53 대해서 좀 요즘에 많은 관심이 생겼고 한 3년 된 거 같아요 그니까 뭐 빅데이터 이런 얘기는 그 전에도 2:00 있었고 빅데이터 얘기는 무슨 얘기하고 같이 많이 나왔을까요 기억하세요 요즘에도 많이 나오지만 어떤 단어고 2:06 같이 많이 쓰나요 빅데이터라는 말을 예 예 맞아요 4차 산업 혁명 2:12 얘기 4차 산업 혁명은 뭔가요 근데 여러분 알고 계시나요 어떤 내용이 2:20 중요한가요 예 제가 그냥 다 말을 해야 될 거 같데 그러니까 자차 산업 혁명 하면은 키워드는 뭐냐면 데이터 2:27 기반의 어떤 인프라들을 그고 기존에 제조업이란 물류지 이런 것들을 확신할 2:33 수 있다는 아이디어예요 기본적으로는 데이터가 많은데 이걸 갖고 우리가 it 회사에서만 쓴다면 4차 산업 2:39 혁명 이런 말은 쓰지 않을 건데이 데이터를 갖고 기존에 우리가 갖고 있었던 영역들 뭐 지금 여기 서울 2:46 시니까 행정도 있겠지만 주로는 이제 산업 영역에서 산업 영역이라고 하면 주로 이제 제조업과 분류 이런 데들 2:53 예전 같으면 뭔가 컴퓨터를 통제하는 거보다 사람의 수련이나 아니면은 뭔가 2:58 계획들을 세워가고 기계를 돌리고 이런 것들이었는데이 4차산업 중요한 말 3:03 CPS 이런 단어 있거든요 CPS 보지 아세요 예 사이버 피지컬 시스템이에요 3:09 그러니까 그 가상적인 물리 시스템을 만들어 가지고 그걸 다 이제 물리적인 3:14 것들을 데이터에 갖고 통제한다는 의미가 있거든요 그니까 그런 종류로 이제 빅데이터 흐름들이 이제 많이 3:20 커졌고 그게 우리가 기존에 기존의 기존 방식대로 이제 쓰던 것들을 좀 3:26 이제 바꿔 가면서 활용할 수 있게 되는 체제로 서 4차 산업 혁명이란 말이 나오는데 그 4차 산업 3:33 혁명이라는 단어에 뭐 그 말이 뭐 중요한 말이야 이렇게 생각할 수도 있지만 어쨌든 이제 그 말을 갖고 3:40 우리가 정책이나 기업의 운용을 하게 되는데 거기 기반이 되는 기반이 3:46 무엇이냐 물어보면 이제 그게 빅데이터 이런 말이 됐고 그런 추세 속에서 지금 이제 데이터 분석이나 데이터 3:52 과학이나 이런 단어들이 이제 되게 많이 유명해지고 있고 많이 입에서 회자가 되는 거죠 여기 혹시 R이라는 4:00 프로그램 써보 사람 있어요 예 많이 있네요 쓰면 갖고 뭐 합니까 어떤 거 4:08 해요 알 갖고 해본 일이 무엇 4:14 무엇이죠을 그냥 켜 보기만 했어요 그 아닐 거예요 알고 가장 많이 하는 4:20 그러면 딱 켜면은 뭔가 패키지를 불러다가 쓰는 거일 텐데 어떤 패키지 러지 4:28 기억나요 플도 있고 아니면 다 묶어 놓은 타이디버스 이런 패키지 이제 받으면 그 안에지 플랫도 있고 4:34 디플라이 알도 있고 뭐 타이디 알도 있고 이래 가지 하죠 근데 그런 패키지를 지금 근데 여러분들 열심히 4:40 쓰게 된게 사실은 2 3년이 안 된 일이고 사실 이게 뭐 다들 할 거 4:46 같지만 아직 그렇게 많이 하지 않고 있는 상황이다 이런 얘기가 있고요 아직 뭐 그래서 처음이 사람도 있고 4:53 여기 오신 분들이 그래서 좀 어느 정도 감을 갖고 좀 해 보는 것이 도움이 될 만한 시기다 이런 생각을 5:00 좀 들어요 예 그래서 처음이어도 상관이 없을 것 같고 익숙해 익숙하면 5:05 뭐 익숙한 대로 좀 들어보는 도움이 될 거 같습니다 예 그래서 뭐 여기 문과생이 5:11 어차피 많으니까 예 다 아는 말이죠 송합니다 안고 인구론도 뭐 이제 한 2 3년 된 다른거 말인 거 같아요데 5:18 좀지나 한적 놀고 예 저도 되게 저 제가 있 저 경남대 학교인데 5:24 경남대학교 어디인지 혹시 아세요 마산이 예 마산 예 마산 예 마산에 5:30 있어요 지금 창원 시죠 정확하게는 창원시에 마산 합부 마산 회부가 있는데 예전에 이제 마산이 되게 큰 5:36 도는데 어 망했습니다 도시는 굉장히 망했고 제 마산 인구가 70만에 5:41 했다가 지금 40만 정도예요 그러면은 거의 절반이 지금 이제 없어진 거예요 5:47 예전에 6대도시 정도 됐었거든요 그리고 거기에 있는 경남대학교 학생들도 굉장히 지금 취업이라는 거에 5:54 대한 걱정은 뭐 훨씬 많은 상태죠 근데 제가 오늘 를 얘 그 중에서도 6:00 그래도 사회학과 오면은 자 여러분 사회학과 오면 먹고 살기 좋은 겁니까 6:05 아닙니까 여러분 생각하이 사회학과 예 사회학과 6:11 나오면은 어떤 직업을 가냐고 물어보면 뭐라고 대답이 가장 나와 많이 6:17 나올까요 예 아무거나 한다합니다 타학과 나면 아무거나 하는 그 6:22 학과라고 알려져 있거든요 근데 이제 그 친구들도 조금 여러가지 경험들을 통해서 지금 진로를 좀 찾진 경우도 6:30 있고 뭐 어기 친구들보다 고등학교 때는 공부을 잘 못했거든요 근데도 뭐 여러 가지 기 좀 그런 얘기들 계속 6:38 해 보겠습니다 그래서 뭐이 문과 나와가 하여튼 취업은 좀 어렵습니다 어 저 6:45 뭐죠 어 며칠 전에 OECD ES 나온 어떤 보고서를 좀 봤는데 예 6:51 계속 과부족인원 과부족인원 뭐냐면 역시나 니어 대통의 자리들은 계속 6:58 이제 다 부족 하다 이런 얘기가 나와요 근데 이제 그러면 공대를 나와야 되는데 공대에 나오지 않고 할 7:04 수 있는 엔지니어링 기술이 뭘까 하면은 데이터 분석은 약간 들어가는 거 같아요 근데 그걸 제외하고 7:09 일반적인 물과 기술들에 대해서는 우리 뭐 사라지는 지원 뭐 말도 나오고 있지만 해당이 되는 부분이죠 그래서 7:16 어쨌든 좀 무시무시하게 좀 느껴지는 것도 사실입니다 어쨌든 여기에는 그걸 7:22 좀 나기 위해서 분들이 계시고요 뭐 인공지능도 이제 굉장히 7:28 알파고 이는 2016년에 벌어졌으니 이제 3년이 좀 넘게 지난 일이죠 7:34 몇대 몇으로 졌나요 때 2세들이 4대 1요 4대 1이었을 거야 아마 한번 7:40 어떻게 이겼죠 기보를 원래 파격이 있는 파격은 기보를 깨고 하는 건데 7:46 한번 그렇게 이제 이세돌이서 이제 이겼던 경험이 있는데 어쨌든 완패했습니다 그리고 나서 나중에 7:53 커제도 알파고 붙였다고 완전 다 잘랐죠 다 5대 졌나요 뭐 그랬을 겁니다 어 이 지능의 수준이란 거 8:01 컴퓨터는 자 여러분 컴퓨터가 알 알고 있는 그 기록들은 뭘까요 컴퓨터가 판단할 수 8:09 있는 거는 숫자인데요 두 숫자밖에 판단을 못합니다 뭔가요 0하 1이죠 그러니까 전원이 8:17 켜졌다 꺼졌다이 버튼만 갖고 한 거을 우리가 이진 변수라고 말을 하는데 8:22 이진법으로 밖에 처리를 못해요 근데 이제 학습을 시킨다고 합니다 요즘에 기계 학습이라 머신러닝이란 많이 8:30 나왔고 뭐 그거와 좀 다른 약간 관계라고 해야 될까요 사이즈에서 이제 많이 커진 것이 딥러닝 같은 건데 8:37 이제 그러한 방식으로 컴퓨터가 0하고 1밖에 기억을 못하는 컴퓨터가 이제 많이 기술이 좋아지면서 학생 능력이 8:45 좋아지면서 패턴들을 패턴인지를 하게 된게 사실은 하나의 혁명적인 거거든요 8:50 그리고 패턴인지를 하기 위해서 많은 양의 데이터가 필요한데 예 그것들을 처리할 수 있는 용장이 생겼고요 아 8:57 요즘에 그 비디오 카드가 비싼 거 알아요 비디오 카드 가격이 비싸진 거 9:03 알아요 여러분 비디오 카드를 따로 살 일이 없으니까 그렇게 하는데 비디오 카드 가격이 비싸 두 가지 이유 9:09 때문에요 첫 번째는이 빅데이터 처리 때문에 이제 데이터 처리를 할 때 9:14 예전에는 그냥이 숫자로 된 단순한 데이터를 처리했다면 지금은 훨씬 더 이제 복잡한 데이터 그냥 쉽게 9:20 말하자면 복잡한 데이터를 처리하기 때문에 그거를 비디오 카드의 메모리를 활용하는 경우가 많아져서 그랬고요 두 9:26 번째는 또 뭐가 있냐면 비트코인 때문이었습니다 비트코인을 거래할 때마다이 문제를 풀어야지 거래가 9:33 승인이 되거든요 그걸 우리가 블록체인이라고 하는데 블록체인 승인할 때 풀어야 되는 문제들이 다 그래피컬 9:39 한 문제들입니다 그래서 그래피컬 한 문제를 풀다 보니까 풀어야 되다 보니까 이제 그래픽 카드의 메모리를 9:45 많이 먹다 보니까 많이 올라가거든요 그러니까이 두 가지에서 요점은 뭐냐면 뭔가이 빅데이터를 통해서 예전에 9:51 처리하지 않았던 다른 종류의 차원들을 이제 많이 처리할 수 있겠다 이런 9:56 이제 요점이 있습니다 그러면서 인간의 창의성이라는 것들 것들도 이제 어느 정도 도전을 10:03 지금 받게 된 상황이고요 예 그래고 직업이 사라진다 뭐 이런 직업들 사라진다고 하는데 10:09 여러분 동의하십니까 안 사라질 수도 있죠 10:14 근데 이제 여기에 나 나오는 직업들의 공통점은 뭐냐면 뭔가 예를 들고 10:19 의사의 처방 같은 거는 그 문재인을 했을 때 나오는 것들을 데이터로 다 10:25 처리할 수 있으면 거기서 답을 주는 건 약의 약을 섞는 거는 약을 처방하는 건 이제 어느 정도 그 10:32 경우의 수 안에 있거든요 그러면은 이제 예를 들어 의사가 하는 일도 컴퓨터가 좀 대신할 수도 있겠다 뭐 10:37 이런 중에 생각들이 나와서 의사 조서 다 이런 건데 어쨌든 좀 뭐 그런 이제 상황 속에 있고 보통 이런 이제 10:44 직업에 대한 전 몇 년도 정도로 하냐면 2030년 2050년 이렇게 하는 거 같아요 30년 되면 몇 10:50 가지가 어렵고 50년 되면 몇 가지가 어렵다 이렇게 하는데 어쨌든 이런 얘기들이 나오고 있는 10:56 상황이죠 그래서 저는 학과에서 주로 말하다 보니까네 이러 사회나 자리 11:03 과라고도 좋고 본인의 정들을 넣도 그 사회학에서 제일 중요한 사회학자가 막스 거거든요 그래서 뭐 이런에 자 11:11 기가 합니다 근데 이제 그 빅데이터 빅 데이터인데 뭐 다 아실 거예요 11:18 사이즈가 크면 빅데이터 맞습니다 그다음에 그 처리하는 속도가 빨라도 11:24 속도가 빠른 것도 이제 빅데이터의 시대 이렇게 말할 때 중요한 거예요 그다음에 버라이어티 자 버라이어티가 11:31 중요한데 여러분 데이터 하면 어떻게 생긴지 아세요 데이터셋 하면 어떻게 생겼어요 여러분 보통 알고 있는 11:38 데이터 업는 것입니까 몰라요 단 이거 써도 11:46 되죠네 여러분 엑셀 키가 어떻게 생겼어요 엑셀에 딱 키면 처음에 뜨는게 11:54 뭔가요 하지 않았어요 11:59 맞죠 그러면은 여기에는 보통 뭐가 써 있냐면 어떤 이름이 써 있어요 뭐 12:05 그냥 이렇게 해봅시다 뭐 성명 그다음에 뭐 성적표라고 해 12:11 볼까요 아 주셔네니까 뭐 영어 이렇게 써 있고 12:17 그다음에 여기는 삼 뭐 이렇게 좀 돼 있고요 여기에는 12:26 뭐 이렇게니까 치고 여기 정 12:33 8 이렇게 써 있다고 치면은 데이터가 크다는게 어떤 말일까요 데이터가 12:39 크다고 다양하다 좀 다르거든요 크다는 12:44 어떤일까요 이게 많은 거예요 그러니까 우리가 여기 군대를 갖다 예비 있을 12:51 텐데이 방향을 우리가 뭐라고 그러면 생 방향이라고 해요 5와 열을 맞추다 할 때 그 5가 색이거든요이 방향 열 12:59 방향이라고 하는데 열은 이렇게 생겼겠죠 그러면 빅데이터에 데이터가 많다는 거는 행이 13:06 많은 걸까 열이 많은 걸까요 행이 많은 겁니다 행이 행이 차곡차곡 쌓이는 13:12 겁니다 행이 차곡차곡 쌓이는 거고요 그러면 다양하다 복잡하다 이럴 때는 뭐가 13:18 많타는니까요 열이 많타는 거예요 그거를 우리 여기 사과 방법론 같은 거들은 학생들이 있을텐데 그 얘기 13:24 뭐냐면 변수의 개수가 많아진다는 얘기 또 하나는 다양해진다 얘기는 이런 데이터 말고 그냥 글자나 13:32 이미지나 뭐 이미지나 아니면 뭐 비디오나 뭐 이런 이제 데이터의 13:38 종류가 많아진다는 얘기고요 그 그것들을 다 처리하는게 이제 우리가 빅데이터를 처리한다 이렇게 말할 수 13:44 있을 거예요 근데 다만 이제 데이터를 처리할 때 기본적인 양식은 이거를 우리가 이런 방식으로 행과 열리 있는 13:51 데이터를 정형 데이터라고 하는데요 이런 데이터들로 만들어야 됩니다 아까 비디오도 이런 데이터로 만들게 되 13:57 있고요 음악 프 이렇게 될 수 있고요 사진도 될 수 있 그런 방식으로 14:04 하면서 이제 게이가 생각해야 되는 겁니다 예 그래서 어 거라 스피도 14:10 있죠 이게 데이터를 알 수가 없다 예전 같으면 다 저렇게 깍두기 안에 들어가는 뭔가 표 안에 들어가는 14:16 데이터라고 했지만 아까 말씀드린대로 어 알 수가 없는 방식의 것들 다 자기들이 데이터라고 선언하는 상황이 14:23 보게 되는 거예요 빅데이터라는 말은 그러니까 조금 실용적으로 접근하자면 아까 말씀 는 표를 그려 놓고 여기서 14:31 어떤 것들이 쌓이고 있는지네 그거를 좀 생각하면 그 뭐 요즘에 이제 14:37 빅데이터에서 이제 빅데이터라는 말이 사라지지 않을 건데 그 이유는 이제 뭐 5G 같은 경우도 있는 거죠 5G 14:45 같은 경우는 속도 자체가 엄청나게 빨라지고 스토리지가 처리하는 속도가 빨라지기 위해서는 양이 늘어나는 거 14:52 그런 것들을 아까 이제 4차 산업형 얘기했지만 로봇에도 적용하고 설비 관리에도 적용하고 뭐 예 그렇죠 이런 15:00 방식으로 할 수 있고 또 하나의 게임은 뭐냐면 아 하나가 또 있는게 뭐냐면 여러분들 게임 많이 하잖아요 15:06 뭐 롤를 할 수도 있고 뭐 뭐 할 수도 있는데 게임을 할 때도 예전에는 15:11 여러분들 뭐가 중요했나 그니까이 폰의 성능이 중요했어요 15:16 폰이나 컴퓨터의 성능이 중요했거든요 근데 지금은 뭐냐면 3D 자체를 이제 15:21 5D 시대라고 하는 건 3D 자체를 서버에서 구현할 수가 있어요 그 정도의 속도 처리가 가능한 거예요 15:28 예전에는 비디오 카드가 좋아야 되고 컴퓨터에 있는 스펙이 어느 좋아 가지고 게임을 사면 항상 뭐 사양이 15:33 있잖아요 최소 사양에 뭐 뭐 뭐 CPU 몇 개가 달려 있고 CPU 15:39 칩이 몇 개가 달려 커트 코이 뭐 뭐 이런 식으로 듀얼 코이 이런게 몇 개의 속도에 그게 달려 있고 이게 15:45 중요한데 이제는 그거를 각각의 단말기 집에 있는 컴퓨터 pcn 노트북이나 15:51 폰이 아니고 이거를 이제 서버에서 구별할 수 있게 되는 시대 있기 때문에 또 그걸 처리하는 것들은 15:56 굉장히 이제 더 중요해 지이 거 그러나 16:01 뭐 그 빅데이터를 처리한다 이렇게 말했을 때 어 뭔가이 막연 함만 갖고 16:07 생각할 필요가 없고 어떤 다른 종류의 능력들이 있는 걸로도 의미는 있을 겁니다 여기서 좀 요해 보자면 여전히 16:15 그 그 뭐죠 인문사회 계열 오늘 주로 임사의 계열 제가 하기 했으니까 그 16:22 복잡한 문제를 풀거나 지사를 하거나 창의성이 있거나 그다음에 임사 관리를 잘하거나 아니 협 을 잘하거나 16:29 감정적인 지능이거나 뭐 그다음 판단을 잘하는 이런 능력들은 여전히 그 데이터를 처리하면 직업적 16:37 전망이 있 중요하다고 이제 볼 수 있거든요 16:46 예 그래서 그런 능력이 있으면 그러면 빅데이터는 이렇게 다가오고 있고 16:52 빅데이터의 시대는 다가오고 있고 그다음에 이제 뭔가 인문사회 지금까지 16:59 엔지니어 혹은 뭐 의이 이런게 아니더라도 다른 분야의 뭔가 기초적인 17:05 능력 소들이 있을 때 뭔가 할 수 있다고 제가 말씀을드리고 있는데 빅데이터를 가지고 할 수 있다 이런 17:12 얘기 하고 있는 건데 뭐 사례 하나를 좀 보여드리려고 해요 그니까 저희 그 17:17 경남대학교 사회학에서는 빅데이터 퍼스 언제부터 저희가 뭐라고 있냐면 그 현장실 17:25 협약을 맺기 시작했어요 2018년 여름부터 이제 분이 시작했거든요 2018년 이제 17:33 여름에 왔고 겨울에 왔고 이것 여름에 와서 지금 새학기 세 번의 방학 동안 17:38 했었는데 예 그걸 통해서 이제 취업을 했어요 거기 처음 왔던 이제 기수가 17:44 이제 취업을 이제 어디에 들어갔냐 이제 창원시에 있는 창원시에 있는 17:50 빅데이터 센터 연구원으로 취업을 했거든요 이제 그고 친구 사례를 조금 보여주면서 얘기 풀어볼까 17:57 합니다네 그래서 뭐 예이 친구 고자입니다 예 수학을 아예 안 18:03 집어놓고 대학에 왔습니다네 예 수능을 볼 때 수학을 아예 안 집어놓고 계약에 왔고요 18:09 자였고고 있었던 거는 제가 처음 만났이 친구가 지금 2살이에요 그니까 학원이고 이번에 졸업했네 18:17 졸업했는데 예 스포하고 갖고 있었던 거 딱 하나 있는데 군대에서 선임이이 18:23 문제집을 하나 보 가지고 어쩌다 풀었는데 그게 뭐였냐면 사회조사 석사는 자격증 지 사회조사 분석사 18:30 갖고 계신 분 가요 혹시 아 중명 사회조사 18:35 분석사 사실은 사회학과의 유일한 자격 사회학과 자격이 있는데 그거 하나 있 18:42 근데 주로 내용은 뭐냐면 조사 설계하는 거 설문 조사를 어떻게 만들 것인지 이런 내용이 하나가 있고 두 18:48 번째는 통계를 처리하는 거예요 통계를 이제 어떻게 분석할 것인가 이런 거였는데 그냥 군대에서 예 보는 거고 18:54 그 사회조사 석사는 커트라인이 60 입니다 60점을 넣으면 합격이 되고 19:00 과락이 40점이 그러니까는 뭐냐면 그 통계를 과락이 안나게 해갖고 잘 맞춰 19:07 가지고 60점을 넘겨서 이제 가격을 따 갖고 이제 복학을 한 거예요 군대를 갔다 오자마자 3학년 1학 19:13 었는데 그래서 뭐 그런 친구가 있었는데 예 이거를 선인 따라서 이제 19:18 따 왔고요 그리고 나서 이제 학교에 와가지고 제 수업을 듣고서 이제 19:26 데이터 분석 전문가라는 자격 adsp는 단증이 있는데요 그 그거를 19:31 좀 땄습니다 학교에서 저희는 자격증 따면 백만 원씩 주는니다 하주 자격 자 자 뭐야 19:38 자격증을 잘 안다기 때문에 그리고 이제 저한테 수업을 좀 드연 학생이죠 데이터 동아리도이 친구은 만들었고요 19:45 그다음에 뭐 이제 그때부터 이제 17년에이 데이터 분석 기법 원투가 19:51 있는데요 원은의 프로그래밍 법을 이제 한번 배우는 겁니다 그래서 아까 누가 19:57 아는 학생들이 있는데 뭐 타이디버스 패키지를 활용해 가지고 기본적인 정형 데이터라고 하는 아까 뭐 표 안에 20:04 들어가 있는 것들을 이제 처리하는 거를 배우고 자 데이터가 있으면 두 가지를 크게 보면 할 수가 있습니다 20:10 뭘 할 수 있을까요 보통 하는 일은 두 가지예요 데이터가 있으면 뭘 할 20:15 수 있냐면 첫 번째는 분석을 할 수가 있죠 분석에서 어떤 결과 의사 결정이 20:21 필요한 그 이제 데이터 기반 의사 결정을 하기 위한 그 분석을 제공할 20:26 수가 있고요 또 하나는 분석 을 만들고 이제 그 의사 결정에 보조하는 수단으로서 시각화를 할 수가 있어요 20:33 여러분이 그니까 대학교 다니는 내내 할 수 있는 데이터 분석이라고 하면 크게 보면 일종에 분석 결과를 만들 20:40 수 있게 만드는 거 그다음에 시각화를 하는 걸 거예요 그래서 저는 그런 20:45 과목 속에서 그런 거를 한기는 배우고 두 번째 기는 이제 제원 2라고 해 20:50 놓잖아요에서 뭐라냐 공공 데이터들을 직접 가지고 좀 분석하는 거를 한다 20:56 공공데이터 하면 서울시는 인공 데이터가 굉장히 잘돼 있습니다 여기 입주하지 않아도 풀려 있는 데이터가 21:03 되게 많이 있고요 지금 웹이 접속이 안 돼서 그런데 그렇게도 많이 접속할 수가 있고 입주하셔서 또 접속할 수 21:10 있는게 굉장히 많아요 그래서 뭐 할 수 있는데 어쨌든 수업에서는 이제 21:16 통계청이 뭐 국가 통계 포탈이나 아니면 기상청이 이런 데는 굉장히 여러 가지 데이터가 있습니다 자 그 21:21 빅데이터 보면서 학생들 시 제일 많이 하는 주제 뭐지 아세요 혹시 다비에 어느 학교 가도 다 하는 주제가 있 21:28 니다 처음에 이제 그래프를 그릴 줄 알게 해주고 숫자를 볼 줄 알게 해주면 하는 그래서 뭔지 아세요 다 21:36 미세먼지니다 미세먼지 미세먼지를 무엇이 미세먼지를 만드는가 그 이제 21:42 저희 아주 기초적인 통계 기법으로 상관관계 분석 이런게 있어요 상관관계 분석을 하고 나면 상관 계수가 나오고 21:48 결정 계수도 만들 수 있고 회기 분석이라는 것도 할 수가 있는데 그러면은 미세먼지를 PM 10이라고 21:54 해요 그 미세먼지와 가장 상관이 많은 그 대기 중에 요소는 뭘까요 그냥도 22:01 알지 않을까 계절 거 예 계절 거어 아 뭐 그런 것도 있습니다 근데 22:07 그거는 숫자로 다 이제 팩터를 잡기가 간단하지 않고요 가장 많이 나오는 건 초미세 먼지입니다 그 말이 안 되죠 22:13 약간 예 미세먼지고 당연히 미세먼지가 많으니까 소 미세먼지를 많겠죠 근데 이제 그 단계에서 이제 좀 뭐라고 22:19 하면 어떤 거를 답을 찾아 황산을 찾아네요 그건 좀 일리가 있어요 황산하 그는 좀 연관이 있거든요 22:26 이산화 항 이런 것들하고 이제 연관 있는데 그런 거 찾아오는게 이제 처음 이제 간단한 데이터서 이런 거부터 22:32 시작해 가지고 좀 이제 다른 작업들을 이제 공공 데이터들을 시키 시키게 22:37 됐고 그러다 보니까 이제 뭔가이 친구들이 이제 공모전도 해야 되겠고 물론 제가 표시를 해고 펌프를 22:43 넣었습니다 그래서 좀 이런저런 이제 작업들을 좀 시작하게 22:49 됐어요 최근에 한 걸 보 어 이거 말고 더 옛날 다 거 23:01 아 두 개를 보여 드릴게요 이거는 여기 와서 한 거예요 여기 와서 한 23:07 거고요이 김지성이 아는 친구에 제가 신상을 제 털려고 기하 자기 이름을 잘 꺼네요 그 예 그래서 뭐 아까 23:16 그런 그 뭐죠 빅데이터 캠퍼스 처음 와가지고 그 친구들이 했던 거 민원 데이터를 썼는데 그거는 지금 자료가 23:23 보기가 안 돼 있고 이거는 작년에 한 거예요 작년에 작년이 아니고 겨울방 결과 했던 건데 이제 이런 분석들을 23:30 해 왔더라고요 이게 서울시 자료가 걸 겁니다 여러분 여기 흡연자가 좀 있을 23:36 겁니다 흡연자가 한 2 30% 되겠죠 2 30% 정도니까 그 될 건데 23:42 서울에 흡연 시설 많이 있나요 흡연 잘 없죠 23:47 그래서이 중에 한면이 친구는 굉장히 이제 김지성 도시랑 크리스찬이 술도 23:53 안 하고 담배도 안 합니다이 친구는 그런 거 없습니다 예 술 담배다 많이 하고 23:59 둘이 있으면 이제 냄새난다고 짜증난 내다가 이제 너는이 흡연 구역도 없고 아무데서나 24:05 막 담배 필려고 하니까 둘이 서울에 와 있다가 이제 둘이 주제를 한 거거든요 그래서 사회적 갈등 순화를 24:12 위한 이제 흡연 실설 최적 입지 선정이라는 프로젝트를 했고 저는 이제 24:18 서울하고 경남을 왔다 갔다 하니까 이제메일로 보고 카톡이나메일로게 그런 거였는데 어 24:25 이런 거죠이 중요한 건 데이터 어떤 데이터를 뭐했냐면 이제 방법에서 좀 24:31 소개를 할게요 어떤 데이터 선지를 좀 주어 24:36 보세요 뭐 이런 겁니다 뭐 이제 예 간접 수변에 대한 싫어하는 사람 너무 24:42 많고 수변에 대해서 죄인취급 하지 말라는 사람들도 많고 규제는 계속 강화지도 있어 이거를 뭔가 데이터를 24:49 갖고 할 수 있으면은 이제 아까 이제 흡연 구역을 최적 입질을 선정하는게 최종 목표예요 어디다 흡연 구역을 24:56 하면 지나가는 사람도 불만이 없고 그 간접 안하고 흡연하는 사람도 가까운 25:01 제에 가냥 이거를 하려고 하는데 이제 데이터를 본 거거든요 서울에 전체 등록된 실 후전 25:07 시설은 여섯 예 내밖에 없다고 합니다 주제는 계속 강화되 강남구 같은 데는 25:13 주제가 좀 심하다 그래서 뭐 이렇게 되다 보니까 최적 입지를 찾는 거예요데 이제 25:19 이거에서 이제 분석을 어떤 데이터까지 써봤냐이 친구는 KT 유동인구 데이터가 있어요 예 그 옛날에 198 25:27 4라는 소설 있는데요 거기 뭐 빅데이터이 워칭 유라는 말이 있습니다 빅데이터가 쳐다보는데 실제로 여러분들 25:33 지금 분이 다 알 수 있는 거 아세요 여러분들이 어디 있는지 KT SKT 25:38 LG 2플러스는 다 알고 있거든요 왜냐면은 이제이 좌표가 계속 찍혀요 좌표가 찍히기 때문에 여러분들 네이버 25:45 맵이나 카카오 맵을 치고 혹은 내비게이션 앱을 국 운전자 걸어다닐 25:50 수 있는 거거든요 그러니까 그 잡들 계속 모아 가지고 아까 말한 것처럼 행 방향으로 계속 깎고 있는 거예요 25:56 시간제로 예 그럼 그래서 그런 데이터가 이제 공공 데이터 구축이 돼 있습니다 이거는 사적 그니까 회사에서 26:03 활용하기에는 자기 회사 말고 다른데 막 팔 수 있는 종류의 데이터는 아니에요 그렇기 때문에 여기에만 26:08 있고요 이제 거기서 밀도 분석을 한 겁니다 어느 지역에 사람들이 어느 시간대 많이 몰려 있는 그런 데이터를 26:16 해서 유동인구를 좀 파악을 하고 그다음에 이제 비 흡연자들에게 자료를 같이 국민 건강 26:23 통계 데이터를 활용해 가지고 흡연 인구까지 이제 진출에 매 26:29 높은 수요 흡연 시설에 높은 수요가 있다는 거는 이제 굉장히 사람이 많이 다니는데 아무데서나 담배를 피기 좋은 26:35 곳이라고 전날 보죠 그런 정의들이 이제 분석 프로젝트에서 중요하고요 그래서 흡연 유동 인구를 26:43 좀 파악하고 비변 유동인구를 파악해서 비변 유동 인구들에게 공영 어고 그 26:49 지역은 클린존을 클린존을 만들고 흡연 유동인구가 있을 때는 그쪽에는 이제 26:54 흡연 역을 만들어 주면 되겠죠 예 그래서 뭐 뭐 밀도 분석이라 법들을 26:59 사용하는 이제 핵사곤이라고 하는데 여기다가 색깔을 넣어 가지고이 지역은 이제 밀도가 기다 이렇게 확인이 되고 27:06 거 자 그리고 이제 문과라 말했는데 이런 식을 이렇게 구하기가 어려울 수도 있어요 근데 이런 식을 어디서 27:13 자유 만들까요 예 다 있습니다 검색 예 그 27:19 고건 복지부 중에서 이제 기준들이 있거든요 그런 기준들을 갖고 이제 지표들을 가져오는 27:26 겁니다 그해서 이제 gis 걸 활용합니다 아까 첫 번째로 본 27:31 데이터는 그 유동인 고요 gis 뭐냐면 그 모든 지역마다 좌표가 27:37 있어요 동네마다 예를 들면 서울시 뭐 동대문구 뭐 이문동 동대문구 이문동 27:42 뭐 이러면 이문동에 있는 그 위치들에 대한 좌표가 다 있거든요 그거를 처리할 수 있는 툴들이 다 있습니다 27:49 이제 그것들이 다 있고요 그걸 우리가 지인 정보대 시스템에 있는 데이터를 활용하는 건데 R 같은 경우는 아을 27:56 쓰는 학생들이 있다면 자라는 이제 프로그램을 같이 연동해서 화면에 28:01 구현할 수가 있어요 그렇게 어렵지 않 배우는데 하루 하루 그나 말보다 쉬워요 28:07 자의에 그래서 뭐 그렇게 분석을 하다 보면 서울시 도로를 그걸 갖고 그릴 28:13 수 있고요 그다음에 건물 데이터도 이렇게 그려보게 되고 서제 문구를 일단 샘플로 해본 겁니다 그랬다가 28:19 아까 말한 그 밀도 분석을 하다 보니 유동인구가 많이 보인 보이죠 예시도 28:24 밑에 있는 여기 여기 뭐 좀 많이 보이는 거 같고 지역에서 조금 넘어가면 홈 되거든요 일로 가면 홈 28:30 되고 일로 가면은 서강 됩니다 그니까 이쪽에 인구가 많이 늘어 있죠 그래서 인구를 많이 하고 28:37 그다음에 중요한 거는 어디가 금융 구역이나 보호구역이 되야 됩니까 그러면 유치원이나 학교 시설 등도 그 28:44 좌표를 얻을 수 있어요 그 데이터를 찾아다가 이제 여기다 입혀 가지고이 지역을 보호해야 한다 그래서 초록색 28:52 모노라 이런 식으로 한거 지하철 역도 마찬가지 버스 역 이렇게 다 치우고 28:57 나면은 치우고 놨고 그다음에는 이제 흡연 인구를 이제 파악해 가지고 흡연 유동 29:03 인들도 이제 파악을 했고요이 시설들을 찾을 수 있는 위치가 이런 나 출이 29:09 되는 거죠 이건 전부 다 피자하고 아이라는 프로그램을 통해서 한 거니다 그래서 이렇게 하다 보면 이제 29:16 부별로 어디에다가 흡연 구역을 만들면 될지에 대해서 이렇게 매핑을 했던 29:22 사례 그래서 유동인구 공석을 하고 흡연인구 한 다음에 흡연 시사의 현황을 깔고 마지막에 이제 필요 흡연 29:29 시설 위치를 좀 만드는게 이제이 작업들이었다 여기 있는 숫자들이 29:36 있 그래서 실제로 이걸 갖고 지금 뭐 하고 있는 창원시에서 이걸로 되게 흡영 구역을 만들고 있어요 창원시에 29:42 이걸 저희이 학생이이 겨울에 한 거를 봄에 대출을 했고 실제로 창원 29:48 시에서는 이거갖고 후영 그역을 만드는 중 왜냐면 이제 효과가 극대화될 수 29:53 있는 건 흡연자의 밀도가 높은데 흡연 구역이 없는 곳일 거 아니요 그런 거를 할 수 있게 된 거고요 30:02 기대가죠 근데 이제 여기에는 이런게 있 시시고 교통 시설에 대한 좌표도 30:08 다 데이터 출이 돼 데이터 서시 여기 빅데이터 캠퍼스에 파견을 오셔서 30:13 하시면 될 거예요 다 자유 구할 수 있고요 KT 유동인 데이터 뭐 L 6플러스 skt2 그 지자체에 따라는 30:21 다르긴 한데 제공이 지금 많이 되 그래서 이런 것들을 했고요 그래서 뭐 여러분들이 배워야 되는 거 어떤 30:28 기술을 배우느냐 R이라는 기술 아이라는 프로그램이 언어를 좀 다르지 않 되고 qjs 알면은 이제 통이 두 30:36 가지로 대부분에서 버가 되는 영네 예 뭐 찍을 예 찍으셔도 텐데 30:45 다시 할까요 잘 나왔나요 이렇게 됐고 그다음에 바로이 30:51 친구들이 하나 이제 아까 저 정도 프로젝트를 하고 나니까 이번에는 머신러닝을 좀 해보겠다고 했거든요 30:57 머신러닝 까지 그러면 간 시간이 얼마냐 머신러닝을 갖고 어떤 분석을 하는 데까지 얼마 걸렸냐 그러면 데이 31:04 아까 사회조사 분석사 자격증 하나 달랑 들고서 통계학 다 어놓고 군대다 왔고 그 상황에서 2년째 이게 31:10 2년째에 결과 그래서 중도탈락 대학생을 이제 31:16 예측 분석이라는 걸 한 겁니다이 예측 분석을 하기 위해서 필요한 건 뭐 중직 분석이라는게 있어 31:22 클러스터링이란게 있는데 그 방법을 쓴 건데요 아 그리고 아까 말한 취업을 31:27 한 분 있니다 그래서 해보자면 예 전국의 31:34 중고 탈락 대학학생 비율이라게 있고 굉장히 작지 않죠 그래서 대학들은 31:40 요즘에 충원율과 취업률 입학률을 굉장히 록을 내고 있는데요 뭐 그러다 31:45 보니까 여러 가지 문제가 있죠 뭐 문제에 대해서는 뭐 더 지적하지 않아도 될 겁니다 31:51 그러다 보니까 이제이 친구들은 해 본 거예요 중도 탈락자를 좀 막을 수 있는 방법이 없을까 굉장히 쉬운 31:56 거잖아요 그 주제 자체는 학교에서 뭐 동기나 후배나 혹은 신입생이 들어와 32:01 갖고 가시 에다가 갑자기 뭐 반수를 하겠다 나갈 수도 있고 갑자기 뭐 꿈을 잃어 가지고 대학생활을 안 만다 32:07 뭐 이렇게 만들 수도 있거든요 그거를 조금 데이터를 갖 잡아보자는게 이제 기본적인 생각이고 그러기 위해서 32:13 이거는 학 학교예요 학교에서 학적 정보 데이터를 좀 받아 냈어요 학적 정보 데이터는 인적 데이터라 중요하긴 32:20 한데 이름을 다돼 무기명 처리해 가지고 이렇게 기호를 바꿔가지고 주더라고요 그래가지고 그거를 전처리는 32:28 일단 전처리 얘기 좀 할 건데 그렇게 해서 이걸 인테그레이션이라고 하는데 데이터 결합을 좀 하고 그다음에 상담 32:35 데이터랑 이거게 없 거예요 두 가지 여기에 들어가지 제로면 학적 데이터는 뭐 이름 뭐 주소 뭐 나오 출신학교 32:42 뭐 학점 뭐 그다음에 과목별 성격도 다 있고요 뭐 이런 데이터랑 뭘 엮어 32:48 창문 데이터를 엮어 가지고 이제 데이터를 통합한 거예요 그러는 그중에서 어떤 것들이 좀 위기 팅을 32:54 만들 수 있느냐가 이친구들을 하려고 했던 작업이고요 예 뭐 구트 스트래핑이 기법을 설명 33:00 안 하겠습니다대 어쨌든 전에 머신러닝 기법을 활용해 가지고 예측모델 한걸 33:06 한 거죠 그래서이 두 가지를 결합한 거예 정형이 하면 아까 말씀드린 저 표 형태로 구현되는 거 비정형 33:13 데이터라고 하면 표로 구현되지 않는 다양한 도의 데이터 특히 우리가 이제 많이 쓰게 되는 거는 여러분들이 33:18 대학교 다니면서 많이 쓰게 될 것들은 텍스트 텍스트 뭐 그런 거 많이 보지 33:23 않았어요 워드 클라우드 같 이게 이제 워드 클라우드 때문에 주진 않네요 색깔은 이게 안 들어가고 그 글자의 33:30 빈도만큼 글자가 퍼지고 색깔이 들어가고 이런거든 뭐 그런 이제 기정형 데이터 활용을 많이 하기 위에 33:37 두 가지 영국이 프로젝트였어요 이렇게 해서 패턴화를 뭔가 시키는게 점입니다 33:43 예 턴을 CNN이라는 기법을 좀 패키지 명령하사 실제로 쓰는 33:50 관점 분석을 이제 했고요 중부 탈락한 학생들 이제 기계 공학부에 선 64 33:57 중에 132명이 했더라고요 이게 지방 대에서는 공대 탈락자가 많 공대에서 34:03 중도에 관두는 학생들이 많아요 문과는 비나 다니는데 군대는 뭐 기술이 34:09 필요하잖아요 기술이라고 하면 뭐 수리적인 등는 필요하고 일반 이제 34:14 물리나 뭐 일반 화학이나 이런 것들도 배워야 되고 공학 자체가 숙제도 많고 그러다 보니까 이제 많이 그만두는 34:20 경우가 많아서 어쨌든 공대 데이터를 이제 갖고 하는 건데 여기 인력에는 아까 학적 정도하고 상담내역을 어 34:26 가지고 데 이게 과연 영향을 미치느냐 그 한 거고요 먼저 비정형 데이터를 갖고 해가지고 어떤 경향성 하나 34:33 뽑아내고 거기서 형태소 분석이라는게 있는데 뭐 그런 거 있잖아요 명사 34:38 지사 형사 뭐 이런 것들 그런 것들 이제 뽑아 가지고 이제 어떤 단어들이 34:44 특징적으로 등장하는가 그만둔 학생들하고 안 그만둔 학생들의 차이를 좀 보고 그만둔 학생들에게 많이 34:51 나왔던 단어들에 대해도 찾아보 거서가이 기법을 다 설명할 수 없을거 34:57 같 그렇게고 이제 하면은 뭐냐면 이렇게 구름이 나와요 나중에 최종적으로 집 35:03 분석이라 걸 하면 컴포넌트 2는 이제 그만두지 않은 학생들이 어떤 련의 35:08 경향이 나온다는 거를 시각적으로 구현할 수가 있고요 컴 아 코디 1은 35:14 이게 그쪽에 이제 빨갛게 이렇게가 박스가 돼 있는 쪽은 그쪽은 이제 그만 학생들 중도 살라 전공 구저 35:22 분이라고 할 수 있는데 그럼 가장 큰 코팅이 뭐였나 보면은 전공 시득 학점 35:28 자체가 0에 가깝다 뭐 이런 식으로 있 결론이 나 것 뭐 이런 종류도 35:34 있네요 그다음에 뭐 다른서 다 고요이 프로젝트가 한 달 35:40 한 달 정도 걸리라고 한 달 정도를 매일 같이 둘이고 아까 말 세 명이 35:45 했는데 세 번째 학생을 아예 할 줄 몰랐는데 시작부터 해가지고 한는 친고 두 명은 이제 원래 좀 아과 그다음에 35:53 머실 이런 책을 좀 친 예 그렇게 돼 갖고 이제 뭐 이거 활용해 가지고 35:58 학교에서 또 이거를 좀 활용할 계획이에요 그래서이 작업을 했던 사람 중에 첫 번째 학생은 아마 뭐 그 36:06 경남대학교 교육 신원이 있는데 취 더 존재 되면 가고 아니면은 이제 단 이거부터 와서 연구중 하라고 연거 36:14 계획 해요 예 뭐 이런 종류 이제 프로젝트들을 실제로 하게 36:21 되더라고요게 되었고 뭐 성취라는 건 이런 프로젝트들이 본인 치였어 그래서 36:29 2017년에 처음에 왔을 때는 아까 말씀 제가 미세먼지 얘기를 왜 했냐면 그 2017년에 이친구 빅데이터 36:35 캠퍼스란 저희랑 협약이 안 돼 있을 때 친구는 어디 갔냐면 서울 사회혁신 리서치 랩이라는 데가지 불광동에 36:42 있어요 거기가 가지고 과제를 하라고 그랬더니 뭘 투사 했냐면 아까 미세먼지 같은 걸 세운 거예요 모냐면 36:48 오래 아 서울에 온도 추위를 하더라고요 그래갖고 여름에 36:53 덥다 여름에 더운데 뭐고 그 데이터를 갖고 무슨 해법을 36:59 낼래 여름에 거 서울이 그랬더니 뭐 양사를 써야 된다고 이상한 결 37:05 처 그 그랬는데 이게 한 이런 과들을 한 세 개네 개 정도 되니까 좀 물이 37:12 올라오더라고요 그니까 저는 좀 많이 걱정이 많았어요 저는 산업공학을 37:17 개인적으로 산업공학을 배운 사람한테 사사 받듯 회사에서 배운 사람 그 37:22 그런 경우가 아니고 그냥 본인들이 이런 그 뭐 계나 이런 37:28 머신러닝이나 이런 기법들을 과연 문과 학생들이 할 수 있을까에 대한 걱정이 저는 굉장히 많았던 사람이고 여전히 37:35 그 걱정이 있는데 어느 정도는 구현할 수 있게 많이 돼 있고요 그 이유는 뭐냐면 37:41 계하기 쉬워졌고 수학이 쉬워지는게 아니고요 그게 아니고 그것들을 중간에서 좀 쉽게 풀이할 수 있는 37:48 도구들이 많이 생겼고 내가 수학 공식을 모르더라도 구현할 수 있는 37:53 해법들이이 패키지라는 이제 라이브러리 혹 키지 라고 부르는 것들이 이제 37:58 많이 축적이 돼 있고 그 모르면 구글링 하면 해결할 수준에서 우리가 38:04 궁금한 것 정도에 대한 기법들은 다 있더라고요 예 그게 아마 좀 가능하게 38:09 만들고 있는 거 아닐까 또 하나의 이슈는 뭐였냐면 영화였습니다 예 데이터 분석을 하기 위해서 영어가 더 38:16 사실 수학보다 어려운 거였거든요 왜냐면은 하도 이거를 분석을 하는 사람들이 별로 없었기 때문에 대부분의 38:23 지식이 구글에 올라올 때 영어로 올라와 있었기 때문에 영어를 못하면 이 발생하는 문제들이 해결이 잘 안 38:30 됐어요 근데 지금은 이제 한글로도 많이 충분히 측정이 된 상황이라고 38:36 좀 예 그래서 뭐 이런 프로젝트 이제 쳐 여기까 내가 서울 온도 낮출게 38:43 여름에 더워요래 근데 온도를 낮추겠다 낮추 싫다하고 양산을 씌우는 걸로 38:48 했고요 그다음에 뭐 뭐 이렇게 하다 보니까 버스 미론 프로젝트가 아마 텍스트 마이닝 프로젝트였어요 그게 38:55 어떤 단어들을 가장 미원에 많이 올라오는가 그래서 창원씨 같은 경우 버스에 가장 큰 문제는 뭐냐면 예 그 39:02 산길 비탈길 이런 데서 880km 받는다는 거거든요 그리고 이제 내려주는 곳과 이제 내려주지 않는 39:08 곳이 정해져 있지 않아요 그 태워주는 곳과 내리는 곳이 정해져 있지 않아요 그러니까 그냥 배를 누른다고 이렇게 39:14 정의 치 해주지 않아요 그래서 뭐 그런 거에 대한 인원들을 좀 추출을 했었고 그런 작업은 여러분들 지금부터 39:21 시작하셔도 해두 한 그니까 방법을 안나고 전제하면 한 처음까지 5일에서 39:27 10일이 정도는 할 수 있는 아마 쉬운 프로젝 거요 그래 갖고 민원의 요점은 남법 전이었고 과속이 있는데 39:34 해법에 대해서 시민들한테 물어보면 다 똑같아서 준공영제를 서울에 구입하고 39:40 있는데 그게 창원 안 되기 되 기사들이 이제 쫓기듯이 이제 많이 태워야 되기 때문에 나보자 한다 39:45 보니까 결론을 그 데이터를 갖고 좀 찾아낼 수가 있었고요 뭐 그러다 보니까 이제 기량이 많이 39:51 올라가더라고요 그래 여기 와갖고 이런 데이터 분석할 때까지도 이제 어 예 39:57 좀 그랬는데 이제 아까 말한 탈 방 프로젝트도 있고 아까 40:03 제가 보여드린 뭐 그 흡연 구역에 대한 거 빼 놨네요 그런 프로젝트들 40:08 하다 보니까 이제 올라오는 거죠 그러니까 요점 뭐냐면 수업이나 어떤 40:13 정규 과보다 더 중요했던 거는 공모전들 실제로 끌고 가면서 굉장히 40:18 많은 기량이 올라왔다 그리고 이게 뭐 다 그 세 시장들이 좀 있는 거죠 40:26 아직도 데이터 분석가에 대한 수요보다 공급이 부족한 상황이긴 하거든요 그러니까 비슷한 일을 하던 사람들이 40:32 다 자기가 분석가 하는 상황이기 때문에 실제로 분석과의 영향 자체를 갖고 있다 이렇게 말할 안한 사람이 40:39 없어요 그 말은 거꾸로 말하면 어느 정도 이상의 기량이 되는 사람에 대한 수요는 여전히에 다 이렇게 말어이 40:47 친구를 보면서 그걸 느끼는 거예요 예 그 친구다 예 그렇습니다 40:57 뭐 이런 거 이제 이런게 이제 텍스트 마이닝이 하는 거고요 워드 클라우드랑 기법이죠 다 아실 아실 수도 있고 41:03 처음 보는 수도 있고이 글자를 긁어오는 거를 우리가 크롤링이 하는데 그거는 아리나 파이썬이 아는 이제 그 41:10 프로그래밍 언어에서 뭐 셀레늄 이런 풀을 활용해서 41:16 가져옵니다데 어 그런 거 배우면 그이 정도는 하는 거는 이거는 그냥 당일로도 할 수 있는 분석이라고 볼 41:22 수 있고 빈도를 세는게 제일 쉬워요 빈도를 세는게 쉽니까 단어의 빈도를 갖고 이렇게 만드 많이 나오는가 중앙에 41:30 크게 나오게 하 뭐 이런 우 할 수 있다 뭐 통계분석 그다음에 뭐 추론 41:37 통계 그런게 있어요 거 빅데이터 하면 통계 잘라야 되냐 이런 말이 있고 41:43 통계하여 우리 통계 자격증 아까 사회조사 분석사 두 세 명 있었는데 41:48 사회조사 분석사 중요한게 뭐 기술 통계 추론 통계 뭐 이런 거라고 알고 41:54 있거든요 기술 통계 뭐를 구한다 주 값을 구한다 뭐 뭐 그다음에 뭐 41:59 분산에 대해서 변이에 대해서 구하기 위해서는 뭐 이제 분산을 알고 표준 편차를 알고 뭐 그렇게 하다 보면 또 42:05 이제 피 검정도 해야 되고 무순 검정도 해야 되고 뭐 이제 분산 분석도 해야 되고 뭐 이렇게 가야 되는데 그런 분석이 한편에서 데이터 42:13 분석의 기법이 많는데요 근데 그 그 전통적인 통계학만이 그건 아니고요 42:19 요즘에는 이제 머신 러닝이 훨씬 더 많이 실질적으로 쓰이는 거고 통계학과 머신러닝의 사이이 요약한 점은 42:26 그거예요 통계 전통적인 통계는 표본을 갖고 전체 집단을 노출하는 거였다면 42:32 머신러닝 그게 아니고 쏟아지는 데이터를 배소로 쏟다 붙다 보면 이거에서 나오는 흐름을 갖고 42:38 무엇인가를 분석할 수 있다는게 기본적으로 머신러닝의 방법이 거고요 그런 부분에 있어서 그러면 그렇게 42:45 쏟아지는 데이터를 처리하는게 쉽냐 정통적인 통계가 쉽냐 이러면 사실은 머신러닝이 더 쉬워요 불법적으로 근데 42:52 그 안에 있는 알고리즘을 이해한다 이러면 물치가 아파지는 거고 여기서 알고리즘 공부까지 42:58 하실 기회는 그렇게 많지 않을거 대학교 할 때까지 프로젝트를 하는데 43:03 그 알고리즘에 완전히 수리적으로 이해할 필요는 없을 거예요 그 그 정도 수준에서 하면 되고요 43:09 근데 아 뒤에 있나 뭐 일단 그렇습니다 그고 뭐 이런 것도 뭐 43:14 어느 요일에 마타나 이런게 좀 쉽게 해볼 만한 것 예 지하철은 금요일날 많 그리고 뭐 미세먼지도 뭐 할 수 43:23 있 제가 이번에 여름에 저희과 학생들을 세 보냈더니 역시나 그 43:28 친구들이 미세먼 이거 이거를 한 두 달 동안 그리고 갔습니다가 금방 할 수 있는 거고요 43:35 그 이생원 이런 시 초 이생원 아까 말 원클라우드 이런 거 43:42 만드는데 드는 드는 지금 여기 26 줄인데 26 줄 정도의 코드를 내가 43:47 제가 여기 25기 전에 만들었 뭐 이렇게 련에 하는 작업들을 하면은 43:53 만들 수가 있습니다 그래서 이런 거 게 나왔고요 43:58 뭐 코딩 예 뭐 이거는 네트워크 분석 코딩 하는 건데요 네트워크 분석 코딩은 좀 길어요 그래서 뭐 줄스 44:06 하는 50초 그정도 들었던 거 같은데 네트워크 분석은 단어간의 연결성을 좀 44:12 보는 이런 것들 말고도 뭐 다른 매 어 맞네 이런 것도 요즘에 최근 많이 하는 거고요 실제로 구연 하는데 집줄 44:20 그리고 지식으로 치면 이것도 한 뭐 일주일 정도는 배워야 하는 기법 좀네 44:25 그런 거라 볼 수가 있습니다 이런 런 감정 분석 이런 거 출실 제를 44:31 해는데 그렇게 오래가 있는 건 아닙니다 그래서 어떤 나가 긍정적으로 어떤게 부정적으로 이런 것 파악하는 44:37 걸 이제 감정 분석이라고 하고요 이런 것도 할 수가 있죠 그러면 이제 이런 것을 이제 44:44 분석 좋다 이거예요 그 결과가 나오면 뭔가 그래픽도 있고 좋은데 얼마나 걸려서 좀 배워야 할 것인가 이게 44:50 이제 마지막 남는 지인 거 같아요 세 가지 영향입니다 예 네 그 44:57 데이터 분석을 하기 위해서 해야 되는 거는 세 가진데 뭐 이건 아주 흔한 45:02 얘기예요 그 한쪽에서 프로그래밍 뭐 해킹 스킬이라고 했지만 해킹 해커가 될 수준에 그 정도는 아닌 거 같고 45:08 뭐 프로그램 코드를 이해할 수 있고 디버깅을 간단한 것들을 본인들이 할 수 있을만큼 하는 거 그리고 뭐 수학 45:16 통계를 하는데 아까 제가 말씀드린 것지만 되게 높은 수준의 수리 통계는 부딪칠 때 하면 됩니다 부딪칠 일은 45:22 잘 없습니다 그러니까 부딪히기 전까지 알고 있는 걸로 하고 하면 조금씩 키워가면니다 그리고 자기 사실 근데 45:30 더 중요한 건이 문제 설정 아까 일반적인 기술이라고 했잖아요 제 한참 45:41 해서 예이 일반적인이 문제해결 능력들이 사실 더 중요하고 뭔가이 45:48 비판적 사고라고 하는 거는 자기가 알고 있는 어떤 영역에 대해서이 판에 대한 이해도와 이거에 대한 비판적인 45:54 능력이 있거든요 근데이 데이터 하라고 하면은 전부 다 뭐만 하냐면 코딩책 46:00 하나 딱 사가지고 이제 계속 봐서 따라 하고요 그다음에 이제 갑자기 썩 46:06 공부하겠다고 뭐 이렇게 인간 많 크 요즘에 공짜로 그거 듣고 있는데 그거보다 더 46:13 중요한 거는 어떤이 문제를 정의할 수 능력이 정의할 수 있는 능력이 더 중요할 때가 많아요 그게 자기분 발심 46:21 성이라고 하고 여기는 뭐라고 했는데 도메인 리즈라고 하는 경우도 46:28 많아요 그러니까 도메인 알리지는 자기가 알고는 1년에 딱 지식 그게 46:34 좀 더 중요한 순간이 있습니다 그래뭐 저희는 이런 거를 46:39 가고 뭐이 다 같이 배우는 효과가 있어서 이렇게 하고 있고 뭐 예 그 46:46 하나 말씀드리고 싶은거 요즘에 다이 아리나 파이썬을 배울 수 있는 과목은 언학 교나 다 있는 거 같아요 한 두 46:52 과목 정도 들으면 아리나 파이썬 자체를 데이터 분석이 필요한 거를 할 수가 있고 또 하나는 확률 통계론이나 46:59 사회 통계 이런 수업들을 아리나 파이썬으로 하는 경우가 많아졌어요 그냥 그런 거 들으면 되는데 그 앞에 47:05 제가 방법 놈이 실수도 제가 강의를 하고 있는데 좀 어 그 인식론적인 관점에 질문이 좀 필요해요 그러니까 47:12 내가 뭐가 궁금하면 이걸 어떻게 문제로 생각하고 가설을 정하고 이걸 어떻게 풀지 이거에 대한 연습을 조금 47:18 여러분들이 해 보시면 되 중요하다는 생각이 그 실제로 실전은 프로젝트를 47:24 많이 하는 것이 기술과 지식 많지 모르 그 뭐 실용적인 얘기만 47:31 해보겠습니다 요즘에 논쟁이 심해요 그 다 한동안 아을 배웠어요요 3년 동안 47:36 트렌드는 아이었어요 아을 열심히 배워 배운다는데 예 파이썬이 예 치고 47:43 올라오고 있고 요즘에 파이썬도 사실 다 구현하고 있어요을 쓰는 이유가 뭐냐 그럼 주지 플라 때문이라고 하는 47:49 사람들이 많았거든요 주지 플라센 그래프를 그려주는 패키지예요 근데 요즘에 파썬은 어떻게 그릴 수 있냐면 47:55 그냥 일반적인 그 그래프를 그리면 주지 플러스로 모양을 바꿔 줍니다 뭐 48:01 그런게 있기 때문에 이제 파이를 배우는 경우도 있고요 그 그겁니다은 그냥 통계 패키지 혹은 엑셀을 잘 48:07 쓰던 사람들한테는 아이 배우기가 편하고요 파이썬은 개발자들 아고 같이 48:13 일하고 내가 회사가서도 분석을 많이 하고 싶다 그렇게 할 경우에 파이썬이 범용적으로 많이 사용할 수 나오는 48:19 거예 이렇게 하면 되고요 순서는 뭐 기초 통계 배우는 것도 48:24 중요한데 3번에 뭐 타이디버스 넘파이 판다스 사이키 그 왼쪽에 타이디버스 48:30 아래에서 쓰는 가장 기본적인 패키지에요 그리고 우측에 있는 넘파이 판다스 사이키는 판 그 파이썬에서 48:38 쓰는 데이터서 패키지 이거든요 기본적인 근데 그이 얘기를 왜 48:44 여기다가 써냐 무엇을 할 거지데 여러분들이 데이터 분석 빅데이터 분석을 배우면 분석을 계속 할 거 48:50 같잖아요 근데 실제로 분석을 100 정도가 있으면 시간을 몇 정도 드릴까요 분석하는데 48:57 그것만 얘기해보면 얘기가 좀 끝날 것 같아요 10% 정고 분석하는데 10% 49:04 정고 쓰고요 문제정의 한데 10% 쓰고 그럼 80% 나오거 80% 예 전철이 한데 씁 내가 내가 원하는 49:13 형태로 만들어진 데이터는 세상에 없어요 그러니까 예 그거를 내가 원하는 대로 만드는데 80% 시간을 49:19 써야 되니다 노가다죠 다시 말하자면 노가 자데 그래서 기법 알고리즘 막 49:25 생각하기에 바빠서 데이터를 직접 만지는 건 잘 모르데 사실은 데이터 만지는 거 훨씬 더 중요한니다 49:32 데이터를 많이 만져 보는게 굉장히 중요 뭐 전공 지식 아까가 말지만 49:38 굉장히 중요해 그리고 배울 때는 많아요 뭐 여기 와서 배울거 많이 얘기할 필요는 49:44 없는 거 같지만 뭐 무크가 굉장히 많고요 무크 스 영어가 조금 돼요 49:49 코세라 코세라 에덱스 유다시티 있고 그 외에도 뭐 MIT 그래도 지금 49:54 계속 포스를 풀어놔 가지고 데이터 분석 관련 수학 관련 프로그램들은 굉장히 많이 돼 있어요 그리고이 칼 50:01 아카데미 이런 것도 있는데 이쪽에 있는게 칼 아카데미 든요 칼 아카데미 같은 경우는 특징이 이제 초등학교 50:07 1학년 수학부터 대학교 졸업 학부 졸업 수준까지 수학이 같이 들어가 있고요 이걸 보면서 문과 출신인데 다 50:13 클리어한 사람들도을 제어 그 그리고 네이버가 계속 번역하고 있습니다 네이버에서 번역하고 있고 이제 번역 50:20 프로젝트 많이 완 런 거 많이 쓰시는니다 그 많이 50:26 외우시면요 책도 이제는 굉장히 많이 올라와 있습니다 책 추천은 단 궁금하 개인적으로 물어보 그리고 뭐 요즘에는 50:33 그 아까 말한 코세라 이런데 유료예요 한한 광자데 5만 원 정도 들거든요 근데 지금 구글에서 계속 지원합니다 50:39 지금 스터디 보인가 진데 가는 구글에서 코세라 강의 주는 거는 지금 공짜로 지원해 주는 경우가 막 스도 50:46 나와요 그래서 그 구글 스터디 때을 좀 열심히 활용하시면 그 스터디 보면 50:53 괜찮을 거라는 생각이 좀 들 51:01 같 그 뭐 오픈스타일 오픈소스 스타일로 공부한다는 거 웹에 워낙 51:06 많은 정보가 있기 때문에 이것들을 좀 익숙하게 할 수 있는게 중요하다는 얘기고 해커 스타일로 일한다는 거는 51:12 뭔가가 그런게 있어요 존이라는게 있어요 존이라는 말이 있 손으로 그냥 51:18 해본다는 거예요 제가 학교에서 수업할 때 무슨 얘기 하냐면 피아노 레슨이라고 생각하려고 하는 경우가 51:23 있어요 저는 이렇게 수도 못하 은 괜찮은데 타자가 느리면 내 집에 다시 51:29 보내는 경우도 있습니다 2타를 가지고 와 2 벡터보다 늦으면 수업을 따라올 수가 없다네 그런 얘기 하거든요 51:36 그러니까 따라하고 많이 베기고 또 그 프로젝트를 조금 변주해서 해보는게 51:42 굉장히 이제 실제 빅데이터 수학이라는게 중요한 거 같고요 다른데 당연히 하 그리고 뭐 링크디 이런데 51:49 있잖아요 그럼 이제 온라인 뭐 이력서 업데이트하는 좀 좋은 거 같습니다 그래서 결국에는게 도 이렇게 만드는 51:57 습관을 좀 드리면 확실히 빨리 되는 거 같긴 해요 저는 제가 갖고 있는 모든 책을 1700번 정도였어요이 52:04 당시에 그 다 이걸 입력하고 안았는데 뭐 지금도 입력하고 있어요 뭐 이렇게 52:11 뭔가 그까 자기가 갖고 있는 데이터를 만드는 것도 좀 관을 드리는 거는 좀 중요한 거 아닌가 그리고 뭐 사회 52:18 학자로서 제가 얘기하자면 이제는 저게 없습니다 그러니까 직업 직장 평생 직장은 없어진지 52:25 10년이 너무 20 10년 된 거 같고요 평생 직업이란 관점에서 아직 서바이브 가능한데 평생 직장이라 52:31 말이가 안되고 언제든지 갈아탈 수 있는 사람이라면 요는 그냥 계속 뭔가 학습 52:38 학습에 대해서 스트레스 받지 않고 지속적으로 자기 지식을 쨌든 쌓고 발전시키는 거에 좀 핵심이 있는 거 52:45 같아요 그래서 그런 부분 좀 생각하는게 데이터 빅데이터 관련된을 정해 중요하다는 52:52 실 뭐 데이터 분석 한다는 면은 이런 말인데요이 네이트 실버는 한번 52:59 유명해도 딱 한번 망했어요 예 오바마가 당선될 걸 예측했다 떴고 트럼프가 되는 바람 망했어요 자기는 53:06 예 hrc 된다고 했거든요 근데이 사람이 한 말 제일 중요한 하나는이 53:11 데이터 분석은 뭐냐면 소음 속에 너무 많은 데이터가 세상에 널려 있고이 중에 신호를 잡아낸거다 예 어 이게 53:19 무엇이 소음이 신호인지를 좀 하는게 중요하겠죠 이런 거겠죠 데이터 원리를 53:25 찾는 거 많은고 어볼 53:32 사이트 그러 여기까지 53:38 [박수] [음악]

2803 2019.10.08

정형 · 비정형데이터 R 기초분석 2차 (2)

○ 교 육 명 : [서울시 빅데이터캠퍼스 정형 · 비정형데이터 R 기초분석 교육]   빅데이터캠퍼스에서 빅데이터에 관심있으신 기초 분석가들을 위하여 정형데이터(축제 분석 데이터 활용)와 비정형 데이터(민원 데이터 활용)를 분석 개요부터 데이터의 이해 및 분석실습과정을 연계 교육으로 8월 23일과 9월 6일 각 4시간에 걸쳐 아래와 같은 교육과정으로 실시하였습니다. 앞으로도 빅데이터캠퍼스의 데이터분석 교육의 많은 관심과 신청 바랍니다. 감사합니다.   ○ 교육과정 교육 과정 내용 1차 정형 데이터 기초분석 교육 데이터 분석 개요 데이터 조작 및 기초 탐색 이해 데이터 시각화 이해 축제 분석 실습 2차 비정형 데이터 기초분석 교육 Text 분석 개요 Text 분석 수행 방법 Text 데이터 조작 방법 이해 민원 데이터 분석 실습   [정형 ·비정형데이터 R 기초분석 교육 교안 다운로드]   (스크립트) 0:08 자 지금 이제지지 플러 2의 패키지에 하나만 더 할 건데요 나머지는 0:15 간단하게 그냥 명칭만 설명을 좀 드리고 또 다음으로 넘어가겠습니다 우선 GE 언더바 박스 플로라는 걸 0:22 할 건데 박스플러스 하기 전에요 부분에 대한 설명을 잠깐 드리고 박스플러스 시각화가 무슨 의미인지 0:30 이해를 좀 하도록 해보겠습니다 선생님도 갖고 계시는 교재 18 페이지를 0:37 보시면 자 우리가 데이터라는 거를 관점에서 통계적으로 바라볼 수 있는 0:43 대표들이 있어요 여기 통계학을 전공하신 분도 계실 것 0:49 같은데 일단 현대 통계학의 아버지라는 피어슨이 사람이 있니다 그 피는 0:55 학자가 숫자 값에 대해서 대표할 수 있는 대표값을 지 정의를 했어요 그게 1:02 평균 분산 첨도 외도라는 겁니다 근데 평균과 분산이라는 용어는 저희가 익히 1:08 이제 많이 들어서 아는데 외도나 천도는 사실 좀 못 들어 보신 분들도 계실 거고요 하지만 실질적으로 데이터 1:16 분석이라는 걸 해보면 천도하고 외도라는 단어의 대표값을 쓰는 거보다 1:21 지금 여기 18 페이지에 있는요 단어들을 쓸 때가 더 많습니다 자 그래서 뭐 한번 명칭만 1:28 간단하게 좀 보고 넘어갈게요 분산이라는 거 저가 평균이라는 거 히 들었으니까요 근데 평균도 여러가지가 1:34 있죠 단 평균 조합평균 기균 여러가지가 있는데 다른 거 다 필요 1:39 없고요 산술평균 저희가 익히 쓰는 거만 생각하시고요 분산과 표준편차는 같은 1:45 용어 평균을 중심으로 얼마큼 퍼져 있느냐 그거를 판단하는 도입니다 1:51 표준편차를 제곱하면 분산이 되는 거고요 자 그다음에 중은 데이터를 작은 것부터 큰값으로 1:59 열를 했을 때 가장 정 가운데 위치하는 값 자이 중앙 값이라는 거는 2:05 왜 쓰느냐는 저희가 2 37 때문에 중앙값이 용어를 씁니다 데이터들이 1 2:12 2 3 4 5 6 7 요렇게 밖에 없는데 갑자기 숫자가 1천 이렇게 나와 버리면 전체 값에 대한 평균을 2:19 계산하면 값이 엄청 커지거든요 그러면 그 데이터의 속성 자체가 완전히 의미가 없이 무너져 버리죠 그래서 2:27 중합 값이라는 용어를 쓰는 겁니다 통계에서는 모수적 출연이라는게 있고 2:32 비모수적 출연이라는게 있는데 비모수적 출환이라는 거는 이렇게 평균 이런 거 2:38 가지고 계산하는게 아니라 순위를 가지고 하거든요 순위 그럴 때 이제 이용할 수 있는게 중앙값이 대표 값이 2:45 하나가 될 수가 있습니다 자 그다음에 이하는 최소값 최댓값 요런게 있고요 2:51 범위라는 거는 최소값 아고 최댓값이이 사이값 범위 얼마나 범위 차이가 있느냐 최댓값 빼기 최소 값이고 2:59 최빈값은 데이터를 나열을 했는데 가장 많이 발생하는 숫자가 뭐냐 이게 최빈 3:05 값이고 자 3 4분수 1분수 iqr 용어가 있습니다 자 이거는 선생님도 3:13 갖고 계시는 자료 다음 페이지를 보시면 자 요런 장표가 나올 3:19 겁니다 요게 박스 플러이 그요 여기에 14수 3분수 IQ 용어가 여기서 3:26 이제 좀 표현을 하려고 제가요 장표를 끼운 거고요 3:32 데이터를 작은 값부터 큰 값으로 쭉 나열을 했어요 작은 값부터 값으로 쭉 나열을 3:38 했는데 나열한 데이터에 25% 위치하는 데이터값 그거를 분수라고 얘기를 3:47 합니다 작은 것부터 큰 값으로 쭉 나열을 했는데 나열한 위치에 25% 3:52 해당되는 값을 1분 75% 해당되는 위치값 해당되는 3:58 값을 라고 얘기를 해요 그다음에이 3 4분수 - 1분수의 4:05 값을 IQ 용어를 씁니다 자이 그래프이 앞에 장표를 4:10 보시면 여기 제가 박스를 하나 그려놨어요요 박스를 기준으로 해서 4:16 데이터 값이 월등이 떨어져 있느냐 아니면 가까이에 모여 있느냐 이런 4:22 거를 보는 겁니다 자 이런 거를 시각화할 때 쓰는게 박스 플이라 4:28 시각화 자 그래서 여기 제가 지금 점선으로 렇게 표현한 4:34 된 부분이 있어요 자 3 4분 에다가요 iqr 값 계산한 다음에 4:40 1.5를 곱해 줘요 그다음에 곱해서 나온 결과값을 3분다 더해 줍니다 4:47 더해 가지고 어떤 값이 나오겠죠 그 경계값을 벽이라고 용어를 씁니다 4:54 내벽 자 그다음에이 벽이라는 것도 하나의 숫자 값이에요 4:59 이 내 벽에다가 다시 1.5 * IQ요 곱한 값을 또 더해 줘요 5:05 거기에 또 나오는 어떤 기준 값이 있을 거예요 걔를 외벽이라 합니다 5:10 그래서 데이터들은 일반적으로 정규분포를 따른다는 얘기를 5:16 많이 하고요 정규분포도 가오스 포라고 하는데 대부분의 데이터들은 5:22 원래 과거에는 실험을 하게 되면요 1분 3분수 안에 대부분이 몰려 5:28 있었어요 근데 세상의 모든 데이터는 정규분포를 따르는게 아니거든요 다른 분포 따르는 5:34 것도 많습니다 근데 과거에는 안 그랬거든요 근데 어쨌든 정기를 5:40 따른다고 가정을 하고 봤을 때 하고 3 요쪽요 안에 대부분 몰려 있는데 5:46 갑들이 갑자기 쪽에 나타나는 경우가 있어요 런 것들을 이치라고 하는 5:51 겁니다 그럼 이상치가 발생을 했다 뭔가 있다 그러면 이상치가 왜 5:56 있는지를 확인을해야 되거든요 해봤더니 사람이 잘못 입력해서 이상치가 나올 수도 있는 6:03 거고 원래 이상치가 있는게 맞을 수도 있어요 이런 것들을 분석에 포함을 6:09 시킬 거냐 뺄 거냐 뭐 이런 것도 고민 좀 해봐야 되겠죠 자 우선 저희가 시각화라는 관점에서 자 gom 6:16 언더바 박스 플이라 걸 해 볼 건데 그걸 하기 전에 박스 플러스의 개념을 설명을 드린 겁니다 자 그럼 한번 6:23 박스 플러스를 한번 시각 해 보도록 하겠습니다 6:36 예 페이지는 41 페이지고 제가 먼저 명령을 한번 쳐 보겠습니다 7:05 예 지금 쳐 보니까 뭔가 시각화가 하나 지금 나왔어요 자요 박스들 다 가운데에 7:13 굵게 표시돼 있는 점 선이 있죠 요게 아까 파워포인트로 제가 만든 자료 그 7:21 페이지로 기준을 봤을 때요 두껍게 돼 있는게 중앙입니다 7:27 그다음에요 밑으로 밑으로 이제 박스의 밑에 선들 요걸 1사분위 수고요 자 7:34 그다음에 위에 있는게 3사분위 수예요 자 그다음에요 선이 하나 나왔어요 7:40 자요 3 4분 에다가 더하기 1.5 * IQ 값을 더한다 그랬어요 기 7:47 값이 끝이 요입니다 그다음에 여기 보면 비그 7:54 니라는 데이터는 지금요 밑에 지금 점이 하나 있어요 얘는 이상치 보는 8:01 거예요 원래 대부분들은요 선 선과 선 사이 끝다는요 범위 안에 다 있는데 8:07 뭔가 튀어나온게 있다는 거죠 요게 실질적인 의미가 있는 값인지를 확인을 해 봐야 되는 거고요 8:14 자 요렇게 데이터를 분포 현황을 이해하기 위해서 이상치가 있는지 없는지 그런 것들 볼 때 요렇게 g 8:22 언더바 박스 플이라 시각화를 통해서 확인을 합니다 8:29 자요 명령만 한번 쳐 보셔도 되고요 간단합니다 x 축에는 스페시스 아는 8:34 항목을 넣고요 y 축에는 세파 랭스는 항목을 넣어서 자 시각화로 박스 8:40 플러서 그려본 겁니다 자 요거를 제외한 나머지 시각화은 그냥 따라하시면 금방 익힐 8:47 수 있는 부분이라 설명만 드리겠습니다 자 40페이지의 맨 밑에 쪽에 보면의 8:54 원더가 V 라인이라는 함수가 있어요 요거는 는 9:05 버티컬이란 이고요 y 라인은 H 라인은 하리입니다 9:12 그래서 y 축을 기준으로 해서 특정한 값을 잡은 다음에 x 축하고 똑같이 9:17 평행 선을 그리려고 할 때 h 라인을 쓰는 거고요 그다음에 g 더바 9:24 텍스트는 41페이지 go 더바 텍스트는 아까 같은 9:30 산점도를 그렸을 때 산점도 위치에다가 어떤 값인지 표현하고 싶을 때 GE 9:36 원더 텍스트라고 쓰면 됩니다 그거에 대한 활용 예시가 옆에 이제 제가 만들어 놨으니까 그거를 보시면 되고요 9:44 그 더바 텍스트 옆에 활용 예시 쪽을 보시게 되면 geom 더텍스트 해놓고 지바 9:52 x 해놓고 0.2 이렇게 표현을 해놨어요 요거를 안 쓰면 9:58 글씨가 붙쳐서 나와요 그래서 글씨를 옆으로 약간 좀 빗게 하게 하려고지 10:05 언더바 x 이렇게 잡은 겁니다 0.2는 값이 얼마만큼 10:10 떨어지는지 이거는 뭐 보는 사람들 관점마다 다르 0.1로 했을 때 더 10:15 표현이 정확하지도 그거는 뭐 판단의 나름인 거 같고요 저는 이제 0.2로 좀 표현을 한 10:21 거고요 그다음에 의다 박스 밑에 보면 스라는게 있습니다 자 10:28 얘는 축의 항목 명칭 y 축의 항목 명칭 그다음에 그래프의 타이틀 뭐 10:35 이런 것들 바꿀 때 쓰는 거예요 그래서 거기 활용 예시를 봐 주시면은 10:40 바로 똑같이 하셔도 됩니다 그다음에 xlim 그다음에 yli 있는데 10:47 요거는 x 축하고 y 축의 길이를 뭐 0부터 뭐 100까지 할 거냐 0부터 10:53 50까지만 표현할 거냐 뭐 이렇게 범위를 잡을 때 쓰는 겁니다 그래서 11:00 xli y l 있다는 거만 이해하시면 되고요 자 다음 페이지로 11:08 가시겠습니다 자 42페이지 자 데이터를 텍스트 데이터를 핸들링 11:13 하려면 특히이 정규식이란 용어를 꼭 아셔야 돼요 11:32 [박수] 11:37 자 정규 표현이라는 걸 꼭 아셔야 되는데 이거를 머릿속에 다 담고 11:42 계시면 뭐 더말 더 말할 것 없이 베스트인데이 다 머릿속에 담고 있기 11:48 힘들거든요 물론 저도 다 담고 있지 못하고 필요에 따서 기법을 찾았었는데 11:53 왜 정식이라는게 사전적인 의미가 뭔지 잠깐 보고 이거 어떻게 써먹으려고 이런 걸 배우는 건지 먼저 간단하게 12:01 한번 느껴보고 가볼게요 우선 여기 있는 것처럼 12:06 특정한 규칙을 특정한 규칙을 가진 문자열 12:11 집합을 표현하는데 쓴다 이게 정규 표식이다 이렇게 정의가 돼 있어요 특정한 규칙을 규칙이라는 단어를 꼭 12:19 기억을 하셔야 돼요 특정한 규칙을 가진 문자를 뽑는데 쓰는 겁니다 정교 12:24 표현이라는 거는 아래만 쓰는게 아니라 자반이 파이썬이 뭐니 모든 기자 다 12:31 쓸 수 있는 거예요 요거는 표준입니다 표준 자 근데 정규식을 왜 쓰냐 한번 12:37 사례를 하나 볼까요 어 45 페이지를 한번 가보실래요 12:48 45페이지 밑에 쪽에 str 매치라는 명 함수가 있는 우측을 12:57 봐주시면 한번 요 자 요거 아래는 13:03 요시하루 열고 이렇게 때는 거는 이거 벡터를 말합니다 벡터 C 왜 C 쓰냐면 이게 컨케이트 13:10 약자예요 그래서 렇게 개별적으로 더블 쿼테이션 묶여 있는 단어들을 문자들을 그 이런 13:18 이런 값들을 C 해 가지고 묶어주면 이게 벡타 형태로 표현이 되는 겁니다 13:25 아래는 자 보면은 첫 번째로 219 733 89 13:32 65 요런 값도 하나 있고요 또 보니까 중간에 329 - 293 마스 13:38 뭐 이런 것도 전화번호 같네요 자 그다음에 여기 뭐 바나나도 있고요 13:44 그다음에 여기는 워크 해 가지고 579 이런지 숫자도 전화번호 13:49 같습니다 자 지금 여기서 여기서 전화번호만 뽑으려고 13:55 그래요 이런 데이터들이 있다라고 할게요 저희가 고객정보를 관리하는데 14:01 고객 정보를 관리할 때 고객 이름 관리하는 항목이 있고 주민번호 관리하는 항목이 있고 전화번호 14:06 관리하는 항목 있고 주소 관련 항목 있어요 전화번호 항목을 관리하는 항목에 데이터에 전화번호만 정말 다 14:13 대로 잘 들어가 있을까요 아니죠 별거 다 들어가 있죠 자 그런 데이터들 14:20 중에서 정말 전화번호라고 익힐 수 있는 데이터 뽑으려 그래요 그때 써먹는게 정규 표현식입니다 자 어떻게 14:27 써먹는지 한번 볼까요 론 을 보고 한번 앞으로 좀 잠깐가 볼게요 자 14:32 여기 보면 제가 가로에 대해서 제가 지금 세 가지로 정의를 14:43 합니다 자 세 가지의 괄호 유형을 정리를 할 건데요 자 요렇게 각져 있는 괄호를 14:50 저는 대괄호 아고 용어를 좀 쓰겠습니다 자 그다음에 요렇게 14:55 모양새가 이쁘게 돼 있는 걸 중가로 표현을 할 거고요 자 그다음에 매끄럽게 돼 있는 걸 15:02 소라고 표현을 할게요 자 대괄호는 화의 조건입니다 15:07 화 A 또는 B 이런 합니다 자 중호는 몇 건이 있어야 돼 중괄호 15:15 해놓고 3 그러면 세을 있어야 돼 런 거고요 중괄호 해놓고 3 4 그러면 15:22 세에서 건까지 있어야 돼 뭐 이런 얘기예요 자 그다음에이 소는 말하는 15:30 거룹 어떤요 소괄호 안에 있는 어떤 연산들은 하나에 하나야 런 의미입니다 15:36 자 그러면 방금 전에 봤던 str 매치 쪽에서 한번 잠깐 15:45 볼게요 자 여기 스트라는 변수에 이런 항목들의 벡타 값들이 들어와 있어요 15:51 자 여기서 전화번호만 뽑으려고 그래요 볼게요 자 여기 제일 밖에 15:59 묶여 있어요 그럼요 안에 있는 거는 그룹이라는 얘기예요 자 근데 그 그룹 안에 렇게 대괄호로 16:06 해가지고 2 - 9 이렇게 돼 있어요 대가로는 화라 그랬죠 5화 자 16:13 그러면 2 - 9는 숫자 2부터 9 사이에 있는 어떤든지 돼 이런 16:18 얘기예요 자 그러면 대괄호로 2에서 9까지 어떤 숫자도 좋아 한자가 나온 16:24 겁니다 자 두번째 그다음에 터 터 9 해놓고 또 대괄호로 묶여 있어요 16:31 0부터 9 어떤 수지 상관없어 이거예요 자 그다음에 중괄호 해놓고 16:37 2 있어요 그러면 0부터 99까지의 16:43 숫자들이 두 번 나와야 된다는 얘기예요 중괄호가 있으면 그러면요 앞에만 세 개의 글 16:51 숫자가 값이 딱 나오는 거죠 다시 한번 볼게요 자 대괄호 2 - 16:58 9입니다 근데 0이나 1로 시작하면은 그거는 여기 해당 안 되는 거예요 17:03 그래서 2부터 99까지의 숫자 중에 아무거나 첫 번째로 무조건 나와야 돼요 두 번째로 0부터 99까지의 수 17:10 아무거나 나와도 돼요 근데 그게 두 개 있어야 된다는 얘기예요 중괄호로 17:15 묶었습니다 자 그러면 여기 지금 스트링 스라는 데이터 중에 2로 17:21 시작되고 두 번째 세 개의 숫자로 연속으로 있는 것들은 해당이 요게 되는 거죠 자 그다음에 17:29 요렇게 해서 이제 소괄호를 나중에 이제 이걸 집단으로 하나 묶은 겁니다 자 그다음에 여기 대가호 해놓고 17:36 마이너스가 있고 스페이스가 지금 여기 하나 있는 거예요 그다음에 점이 하나 있어요 근데 요거 대가로 묶었어요 17:44 그러면 숫자 세 자리 뒤에 마이너스 기호가 붙거나 스페이스가 있거나 점이 있거나 17:52 아무거나 붙어도 된다 얘기예요 자 그런 규칙이 지금 정의가 된 거예요 17:57 그다음에 다시 소괄호를 또 묶어 놨어요 그다음에 대괄호가 또 있는데 18:03 요번에는 0부터 9까지 수 아 무거나 돼 근데 세 자리해야 돼 요렇게 한 18:09 겁니다 그러면 앞에 세 자리 뒤에 세 자리 여기까지 된 거죠 자 그다음에 18:16 대괄호로 해서 마이너스 스페이스 점이 있어요 세 중에 아무 거라도 된다 얘기죠 자 그다음에 마지막으로는 18:23 소괄호 묶고 또 안에 대괄호가 있는데 0부터 99까지의 숫자 아무거 나도 되지만 네개 가 있어야 돼 이렇게 18:29 정의를 한 겁니다요 규칙을 만족하는요 값들 중에서요 규칙을 18:35 만족하는 거 뽑아보면 전화번호만 뽑히겠지 주민번호도 18:41 마찬가지겠죠 숫자 여섯 가지가이어서 나와야 돼요 그다음에 가운데를 18:46 마이너스 항상 써야 된다 그러면 마이너스 붙여 주자고요 그다음에 그다음에 나오는 첫 번째는 1 아니면 18:53 2야 되잖아요 그러면 1 아니면 2라는 의미를 표현하게 대가 으면 18:59 되겠죠 그다음에 나오는 거는 숫자 여섯 짜리만 있으면 되죠 그러면 주민 부원의 규칙에 맞을 거 아니에요 19:04 일단은요 그걸 진짜 만는 주민 보는지 확인을 해 봐야 되겠지만 그래서 19:10 데이터가 쫙 나열돼 있는데 그중에서 특정한 패턴을 만들어는 걸 뽑을 때 쓸 거예요 그러 한글은 한글은 19:17 어떨까요 19:29 저희가 한글 자음과 모음을 딱 결합해서 제일 첫 번째 나오는 글자가 가짜입니다 19:37 제일 마지막 글자로 끝나는 자원 모에 결합해서 제일 마지막에 19:44 끝나는게 힘이랍니다 19:50 그러면 요렇게 하면 한글 한 단어에 대해서 뭐든지 여기 걸릴 거 아니에요 19:59 형태소 분석이라는 거 좀 있다 해보실 건데 텍스트 분석을 할 때의 포인트는 20:04 형태소 분석을 한 다음에 한글로 이런 것들이 연속으로 있는 것들 예를 20:11 들어서 뭐 주공 6단지 그러면 주공을 하나의 20:17 한글 단지를 하나의 한글로 뽑는게 맞는 거지 요렇게 묶어서 뽑지 20:23 않잖아요 그래서 형태분석 걸 하는 겁니다 왜 공이라는 거 얘 20:30 명야 즉 원이란 얘기죠 체 단지도 연이야 명야 그러 이런 단지만 명사들 20:38 뽑아서 시각화해 봐 해가지고 표현한게 포탈이나 이런데 많이 나오는 20:45 워드클라우드 자 그거를 저희가 이제 해보겠는데 어쨌든 그거를 이해하기 20:51 위해서 첫 번째로 정교 식이라는 걸 꼭 아셔야 되기 때문에 그거를 20:56 제 다설 을 하나씩 실습을 못해 보기 때문에 핵심적인 거만 한번 짚어보고 21:04 넘어갈게요 자 정규 표현이라는 거에이 점이 하나가 그냥 표현이 딱 돼 있으면 여기 있어요 예제에 21:10 있습니다 점 하나가 딱 있으면 얘는 모든 문자를 말하는 겁니다 모든 문자 21:16 근데 모든 문자 중에 새로운 행 새로운 행이라 거 엔터을 말하는 21:23 거거든요 이게 아스키코드 값이라는 걸 표현하면인데 새로운 행을 이렇게 21:28 표현하는이 저희가 탭 하면은 데이터가 옆으로 쫙 늘어나잖아 멀티로 그거를 21:35 기호로 표현하면 / t 그래요 그런 표현 기법이 있는데 새로운 행을 21:42 말하는 거는 슬 n 있니다 근데 그거를 제외한 모든 문자는이 점으로 다 찍힌다는 거예요이 점이면 뭐 21:49 마이너스가 됐건 플러스가 됐건 기호가 됐건 영문자가 됐건 한글이 모든 거 다 커버한다는 거예요 점 하나입니다 21:55 자 그다음에 슬 소문자 W 얘는 영어 소문자 영어 대문자 숫자 언더바를 22:02 표현할 때는 요렇게 표현하면 된다 얘기야 방금 전에 저희가 주민번호나 전화번호 같은 거 22:10 할 때 숫자 0부터 9 이렇게 했잖아요 자 그거 어디에 해당되지 한번 22:15 볼게요여 슬예 / D 숫자 여섯자리 나와줘 그러면 슬 22:23 D 중괄호 6 이렇게 하면 되는 거예요 근데 아까는 22:29 대가호 해놓고 0부터 9 대가호 맞고 중괄호 해놓고 여섯 표현한 거잖아요 22:36 그거를 얘로 표현해도 되는 거예요 그러니까 숫자에 대해서는 슬로 소자 22:42 슬로 하면 아 얘는 숫자를 표현한다 이렇게 규칙을 만들어 놓은 22:48 겁니다 그래서 정규 표현식이란 된 요런 규칙이 있다라는 걸 이해를 하시면 되고요 22:55 그다음에 요게 아까 저희 해봤잖아요 1 0부터 9 이렇게 해봤잖아요 근데 23:01 지금 여기는 a z 이렇게 돼 있어요 a - z 그럼 a z지 모두 말하는 23:08 거예요 요런 규칙이 있는 겁니다 요거는 모든 언어에서 다 쓰는 23:14 겁니다 요런게 23:20 있고요 자 그다음에 데이터를 몇개 보여 줄 건가 23:32 그러니까 요거 먼저 볼게요 우측 거 자 주민번호를 표현하는 23:37 예입니다 자 / D 하면 23:44 숫자아이디 그러면 숫자가 여섯 개 있어야 된다는 얘긴 거죠 자 그다음에 23:50 마이너스 대가로 1 2입니다 그러면 첫 번째 값이 1이나 2 둘 중에 23:57 하나야 된다는 얘기죠 자 그다음에 다시 슬 D 숫자예요 24:03 그다음에 중괄호 6에서 여섯가지 나와야 된다는 얘기죠 자 24:09 근데 요런게 그런 패턴 있죠요 중괄호 하고 3 넣잖아요 요거는 바로 직전에 24:16 있는 패턴이 3의 연속에서 나와야 된다는 얘기예요 그러면 여기서 24:23 숫자가 중가로 6 하면 숫자가 여섯 개가 계속 나와야 된다는 얘기예요 그런 의미입니다 자 그다음에 여기 24:30 중가로 1 마 3 하면은 바로 직전에 있던 그 규칙이 하나에서 세 상대 24:38 정도는 나와도 된다 얘기야 근데요 중괄호 말고 플러스 24:44 별표 물음표 요거로 표현할 때가 있어요 얘는 몇 개인지는 상관이 24:50 없어요 어떤인지 여기 설명을 보시면 돼요 자 더하기는 방금 전에 나왔던이 24:57 규칙 패턴이 무조건 1회 이상 나와야 되는 거예 무조건 1회 이상 그다음에 별표는 0 25:06 또는 1의 이상 요거 다 써먹을 때가 각각 있습니다 자 그다음에 물음 편은 0에 25:14 또는 1요 주민번호를 쓰는데 우리가 일반적으로 어떤 분은 중간에 여섯자리 25:21 앞에 여섯자리 다에 마이너스 붙이는 경우가 있고요 그냥 붙여서 풀로 쓰는 경가 있어요 그 마라는 기호가 다음에 25:29 물음표를 주면이 마이너스 기호는 0번이 1에만 무조건 나 된다는 25:35 얘기잖아요 렇게 해석을 하시는 거예요이 물음표가 방금 직전의 패턴이 25:42 0 또는 1에 가아 된다는 얘기예요 그러면 주민번호 여섯자리 다음에 25:47 마이너스를 붙이거 마이너스를 안 붙이거 거를 요거로 표현하면 커버가 된단 25:55 얘기예요 마이너스 다음에 물음표 그러면 마이너스가 0번 26:04 나오든지 한 번 나오면 된다는 얘기예요 그런 식으로 찾아갑니다 규칙을 만드는 26:10 거예 자 그다음에 요거는 그냥 있는 거니까 나중에 혹시라도 쓰실 때 가장 26:17 첫 번째 냐가 대문자로 뭐 대문자 비어야 된다 뭐 이런 것들 정의할 때 26:24 요렇게 웃음 표시 또는 달러 표시로 첫 번째 글자 끝에 글자를 정의를 26:30 한다 이렇게만 생각하시면 되고요 아까 저희가 가로에 정리는 한번 요약을 해 봤습니다 자 요게 정규 표현식이 왜 26:38 요거를 써야 되냐면 저희가 실습을 할 때이 기법을 활용을 해야 됩니다 자 26:45 그다음에 자 이제 실습을 또 해 볼 텐데요 자 스트링 R이라는 패키지가 26:53 있습니다 문자열을 우리가 다루다 보면 별의별 경우들이 많이 생겨요 27:00 예를 들어서 이름을 넣는 안에다가 첫 번째는 스페이스를 넣고 한 칸 띄고 이름을 시작할 수도 27:06 있고요 그다음에 이름을 세 자를 넣는데 뭐 성과 이름을 띄어 가지고 27:13 제 이름을 얘기 쓸 때 오재상 붙여서 쓰면 되는데 오하고 한 칸 띄고 재상 27:18 이렇게 쓸 수 있잖아요 그다음에 뭐 이름만 쓰면은 또 깔끔한데 뒤에다가 또 뭐 우음 표시들을 수도 27:25 있고요 그다음에 주소를 쓸 때도 딱 정해진 포맷에 맞춰서 주소 쓰는 27:31 분들 드물잖아요 그럼 문자 이런 것들을 핸드링 해 줘야 돼요 뭐 27:37 스페이스가 있으면 스페이스 제거해 주는 작업도 해야 되고 그다음에 뭐 27:42 어떤 숫자가 들어가 있지 안아야 되는 데이터인데 예를 들어 이름에 이름을 27:47 쓰는데 거기에다가 숫자 5 재상 이렇게 쓰진 않잖아요 근데 만약에 숫자 5가 들어가 있으면 그런 거 27:53 찾아내야 되잖아요 뭐 그런 것들 하려면 문자를 핸들링하는 그 기법에 27:58 대한 함수를 또 알아야 돼요 거기에 관련해서 아에서 어떤 훌륭하신 분이 28:05 스트링 아이라는 이런 패키지를 만든 겁니다 예 만들어서 오픈을 하신 거죠 28:11 그거를 저희가 세계적으로 많으신 분들이 쓰니까 이런 패키지는 저희도 알고 넘어가야 28:17 되겠죠 자 그거에 대해서 이제 하나씩 실습을 좀 해 보도록 하겠습니다 28:26 [음악] 스트링 할 패키지는 제가 이제 자료 28:31 만들 때 지금 44 페이지에 보이시는 저는 요런 요약 정리표 말고 뒷에 28:39 이렇게 넘어가시면 하나씩 하나씩 따라할 수 있게 해놨어요 28:46 쪽에는 오타가 절대 없습니다 제가 지금 실행된 결과치를 직접 결과까지 보여준 거기 때문에 앞에 요약에는 28:53 오타가 있을 수도 있어요 여기는 오타가 없으니까는 중이라도 한 번씩씩 28:59 하시면서 따라하시면 아 이거의 함수의 의미를 이해하실 수 있을 거예요 자 29:05 우선 첫 번째로 자 스트링 29:12 카운터라는 패키지부터 한번 해보겠습니다 자 29:17 근데이 함수를 저희가 이제 배우려면 다루려면 첫 번째로 해야 될게 29:29 자 첫 번째로 해야 될게 라이브러리를 먼저 로딩을 해야 되겠죠 스트링 29:34 R이라는 패키지가 있는 겁니다 자 이게 나중에라도 댁에 가셔서 선생님들이 29:41 갖고계신 노트북에 설치를 해서 쓰시려면 인스톨 패키지 해가지고 스트링 아을 먼저 설치를 하셔야 29:46 되고요 자 설치가 된 다음에는 당연히 29:52 LIB 라이브러리 해 가지고 30:05 스트링 R 한 다음에요 라이브러리를 먼저 실행을 30:10 시키시면 됩니다 자 그다음에 지금 46 페이지에 자 30:18 플루라는 변수에네 개의 항목을 갖고 있는 30:24 벡터를 만들어서 넣어놨어요 자 30:30 은은 변수라는 용어부터 좀 설명을 드릴게요 아실 거라고 생각을 하지만 30:35 그래도 혹시 자 변수라는 거하고 함수라는 30:42 거의 의미를 좀 명확하게 좀 드리고 가겠습니다 자 30:50 저희가 일반적으로 제일 많이 쓰는 용어 중에 상수라는 말과 변수라는 말이 있죠 상수는 절대로 변할 수 30:58 없는 수입입니다 저희가 숫자 3 아니면 숫자 100 이런 거 못 31:04 바꾸거든요 이거는 변하지 않는 수고요 변수는 그냥 쉽게 말하면 그릇이라고 31:10 생각을 하세요 여기에 구글 로면 국그릇이 되는 거고 밥을 넣면 밥그릇이 되는 31:17 이런 개념입니다 근데이 변수라는 것도 원래는 프로그램 31:24 언어마다이 그릇은 굿 그릇이야 이 그릇은 밥 그릇이야 이렇게 정의를 해 31:30 놓은 방식으로도 대부분 해요 근데 아래는이 변수에 국을 답던 밥을 답던 31:37 아무거나 상관이 없어요 뭐든지 담을 수 있어요이 변수에 시멘트를 담던 돌을 31:43 담던 물을 담던 아무거나 상관이 없습니다 그래서 아에서는 변수라는게 아무거나 담을 수 31:51 있는 형태다 그리고 이러다 보니까 알이 변수에 31:58 에다가 데이터도 담을 수도 있지만 각 처리를 하는 산 결과치 담을 수도 32:04 있고 수많은 그 엑셀 데이터 하나를 엑셀 시트 하나를 여기다 담을 수도 32:10 있고 별 다담을 수가 있어요 그래서 아을 다른 말로 체지 언어라고도 32:16 표현하는 책들도 있더라고요이 수은 이렇고요 그다음에 32:22 저희가 속으로 셀 d 뭐 필터 이런 것들 함수라고 누차 32:29 말씀드렸고 지금 스트링 R이라는이 패키지에서 쓸 것도 함수입니다 자 32:38 함수는 자 이거 초등학교 때 많이 했었죠 여기에다가 입력으로 2하고 32:45 3을 넣었어요 교합이 5가 나왔어요 자 가운데 더하기 연산이 있었던 거죠 32:52 저희는이 더하기 연산이 뭔지 몰라요 어떻게 처리했는지 몰라요 즉 32:58 2에 3을 더한 다음에 3을 뺀 다음에 다시 3을 더하는지 어떤 식으로 되는지 몰라요 하지만 결과가 33:05 5 나오는 건 아는 거죠 자요 블랙박스 요게 33:11 함수입니다 저희는 스트링 아이라는 함수에 문자를 집어넣는 거죠 문자를 33:18 딱 넣는 거죠 근데이 함수가 어떤 용도인지는 알아야 되겠죠 그래야지 거기에 문자를 33:24 거니깐요 함수가 어떤 결과치는 뽑아주는 알 그래 함수를 써먹을테니까 셀렉터 33:31 함수에 항목을 넣었어요 그럼이 셀렉터 항목 세 스라고 33:38 넣었어요 셀라는 함수에 자 이렇게만 넣는데 결과치는이 33:45 세의 값들이 리스트로 쭉 나오잖아요 밑으로 이게 함수 이게 속에 어떻게 33:52 로직 처했는지 저는 몰라요 하지만이 함수는 뭐를 넣으면 뭐가 나온다 정도는 알아야 이용하겠죠 이게 함수의 33:59 개념입니다 자 그러면 자 스트링 34:06 R이라는이 패키지에서 첫 번째로 str 카운터라는 걸 할 34:12 텐데 쉽게 넘어갈 수 있는 거는 좀 설명으로 좀 넘어갈게요 좀 손이 혹시 빠르신 34:19 분들은 직접 이렇게 타이핑을 해 보셔도 되는데 요거는 똑같이 그냥 34:26 치시면 결과치가 나옵니다 34:48 자 str 언더바 카운터 하나 함수입니다 자 루이라는이 변수에 34:56 변수의 네 가지의 값들을 갖고 있는 벡터를 넣은 거예요 자 그래서이 35:04 플루라는 변수의 그릇에 담았습니다 자 그다음에 str 언더바 35:10 카운트 함수입니다 자 근데 str 카운트 그니까 트링 아이라는이 패키지 안에 35:17 있는 함수들은 항상 규칙이 있어요 첫 번째로 변수를 써 줘야 돼요 35:23 그다음부터는 찾고자는 규칙을 연산을 주면 되는 거예요 그래서 str 언더 카운 하면이 35:31 루이라는 변수 안에 있는 것들 중에는게 몇 개 있는지 카운터를 35:38 해달라 이런 의미예요 그래서 나온 결과치가 애플 같은 경우가 한번밖에 없으니까 1이 나온 35:46 거고요 그다음에 바나나가 세번 있으니까 3이 나온 거예요 이런 식으로 쓰는 겁니다 거는 그냥 보셔도 35:54 단 익히 같아서 가다가 정말 꼭 중요한 것만 실습을 해 보겠습니다 자 그다음에 36:02 비슷한 함수예제이 플루라는 값 변수 안에 36:09 각각의 항목들 값들이 문자 값들이 바이 2가 몇 바이트인 이제를 36:14 물어보는 거예요 그래서 애플 같은 경우 다섯 바나나 바나나 여기 뒤에 지금 36:22 스페이스 있는 거예요 그래서 여로 나온 겁니다 뭐 이런 식으로 이제 카운터를 세 보는 거죠 길이를 예 36:29 그게 str 레스고 자 47페이지 36:41 자 47페이지 보시게 되면 자 여기 아까 정규 표현식에서 36:49 썼던게 슬상 나옵니다 자요 웃슨 표시 하나 있는 36:54 거요 첫 글자요 첫 글자 첫 글자가 a 돼 있는게 있니라고 37:01 물어본 거예요 정교 표현식을 그래서 요래서 알아야 된다는 얘기예요 자 보면은 37:08 str 언더바 트라는 거는 뒤에 만족하는 조건이 있으면 트루 없으면 37:14 스로 값을 보여 줘라는 거예요 개별적인 항목 값들에 대해서 그러면 37:20 플루라는 거에 애플 바나나 피어 뭐 파인애플 이렇게 있는데 플루라는 는이 변수 안에 37:28 각각의 항목들에 대해서 첫 번째 값이 a 돼 있니라고 물어본 거예요 37:34 그랬더니 애플은 당연히니까 트루가 되고요 나머지는 스로 나온 거예요 37:41 요때 쓰는게 SK 디입 요거 꼭 아셔야 돼요 많이 37:49 써먹습니다 자 그다음에 str 익스트랙트 익스트랙트 str 디텍터는 37:56 로지컬 자 논리적인 결과치 보여주는 거예요 루퍼스 이거만 보여주는 건데 38:02 str 스트는 해당 값을 뽑아 줘요 위하고 차이가 분명히 있습니다 자 38:09 근데 여기에 저희가 정교 표현식에서 썼던 규칙이 그대로 나왔어요 자 38:16 대가입니다 a - z 소문자 영어 소문자 a z 어떤 38:23 거지 상관없어 단 1부터 4 까지 나와야 돼요 규칙인 거죠 그래서 38:32 appl bh 백 밀크 이렇게 나온 38:38 거예요 근데 스트링 R이라는이 패키지 안에 있는 함수들에 일부가 지금 38:45 strr 언더바 익스트랙 이렇게 딱 끝나는게 있고요 익스트랙 언더바 올이 언더바 38:52 올이 붙는 함수들이 몇 개 있어요 뒤에도 나올 수 있잖아요 38:58 그니까 언더바 올이 안 붙으면 첫 번째로 해당되는 거만 보여주는 거고요 언더바 올이 붙으면 뒤에 있는 39:05 어떤거든 다 보여줘 요런게 차이예요 그걸 기억하셔야 됩니다 스트링 아려나 39:13 패키지에서는 언더바 올이 붙는 함수가 있고 안 붙는 함수가 있다라는 39:18 거 앞에 명칭은 똑같지만 뒤에 언더바 올이 붙느냐 안 붙느냐 따라 의미가 39:23 다릅니다 자 요런 함수가 있고요 39:33 [박수] 자 str 스프리트 데이터를 나누는 겁니다 자 어떻게 나누는지 볼까요 39:41 샘플이라는 변수에 If you want라고 썼어요 변수를이 문자 자체를 저장을 했어요 자 제가 한 39:48 단어씩 띄고 싶어요 i f 스페이스 y o 이렇게 39:55 끼고 싶은 거죠 자 요거 안 써먹을 것 같죠 써먹습니다 자 요렇게 한 단 없이 뛸 40:03 때 어떻게 하느냐 언더가 스트리트라는 함수를 통해서 바운드리 해 놓고 40:08 가로열고 요거는 외우셔야 돼요 저도 요거는 어떻게 쉽게 좀 표현하기가 좀 뭐해서 저도 그냥 기본적으로 렇게 뛸 40:15 때는 렇게 쓴다 이렇게만 좀 하고 있는데요 자 그러면 글자를 왜 이렇게 뛸 때 써 먹을까 머신러닝으로 40:23 학습시키면 한글 학습시키면 한 단씩 끊어야 되잖아요 자 그런 다음에 그 40:28 단어들 다 숫자로 변형을 시켜야 돼요 요거를 핫 코딩이라고 얘기를 40:35 합니다 머신러닝에서 원핫 인코딩이란 거로서 개별적으로 I 값은 40:42 1 y f 값은 01 00 이런 식으로 값을 변화를 시켜주 돼요 자 40:48 그러면 머신러닝에서 완한 코딩이라는 쓴 거를 쓰는데 통계에서는 하 40:54 코딩이라는 말이 없어요 가수라는 용어를 습니다 예를 40:59 들어서 지금같이 단어가 열 개다 그러면 개별적으로 단어를 쪼였을 41:09 때 이게 열개 단어다 그러면 41:17 머신러닝에서 요렇게 표현을 하는 겁니다 계속 이렇게 주고요 자이 41:23 항목이 개요 개 근데 통계 는 아홉 개입니다 통계에서는 가변수 41:31 용어를 써요 무슨 얘기냐 41:36 흑인 백인 간단한 얘로 황인 이렇게 세 종류의 인종이 있다라고 할게요 자 41:44 요거 세 개를 표현하는데 변수 두 개만 있으면 표현이 되거든요 자 X1이라는 변수하나 41:50 변수를 두고 백인은 41:55 영 흑인은 1 황인은 0 1 이렇게 하면 있어도 표현 돼 되잖아요 42:01 통계에서는 요런 식으로 씁니다 요거를가 변수라고 하는 거고요 머신 러닝이나 특히 텐스 플로에서 할 때는 42:08 요런 식으로 만들죠 요거를 원합 인코딩이 합니다 그러면 이와 같은 42:14 데이터들을 숫자형으로 변화를 시키기 위해서 우선 완한 인코딩을 해야 되는데 어쨌든 단어별로 쪼개야 이제 42:21 분할을 할 거 아니에요 그래서 요렇게 SK 스프리 함수를 쓰는 겁니다 42:27 그래서 쓸 일이 있다라고 제가 분명히 말씀드리는 42:33 겁니다 자 그다음에 스아 트림입니다 자 트림은 다른 것도 없어요 42:39 앞뒤에이 문자에 앞과 뒤에 스페이스나 이런 거 없애 달라는 42:44 거예요 그래서 딱 결과치를 보면 여기 지금 strn 스페이스 두 개의 42:50 스트링 해 놓고 또 중간에 스페이스가 세 개 있고 막 이랬어요 있는데 트린 42:56 str 트린 하니까 가 중간에 있는 스페이스는 그냥 있고 앞뒤 거만 없어진 43:01 거예요 자 요렇게 하는게 있고요 stl 트림이라게 43:06 있고요 자 strr 스키라게 있어요 얘는 앞뒤 분만 43:15 트림보우 얘는 스키시 중간에 있는 여러 스페이스도 하나로 줄여 준다는 43:21 얘기에 그래서 str 스케치라는게 있습니다 자 그다음에 43:27 플레이스라는게 있어요 리플레이스는 어떤 거를 어떤 값으로 43:32 대체를 해라 바꿔줘라 이겁니다 그냥 말 그대로 자 그래서 루이라는 변수에 43:38 이런 이런 항목들의 값들이 들어와 있는데 벡터 값들이 있는데 자 거기에 여기 호예요 대가호 43:47 a 자 43:53 대니까니다 이것들을 죠 이런 얘기예요 그래서 43:59 거기에 해당되는 단어들이 다 없어진 거죠 요게 str 44:10 리플레이스 자 그다음에 str SUV 서브 스트링인 44:17 특정한 단어에 어디서부터 어디까지 바이트수를 자르려고 할 때 쓰는 44:22 겁니다 그래서 str라는 함수가 있다는 거 기억하시고요 44:27 요거는 사실 옵션이라고 말씀드릴게요 str SUV 저도 사실 많이 쓸 일은 없었어요 근데 요거는 써야 44:34 됩니다 str 바라는 함요 요거는 언제 쓰느냐 지금 44:41 예시로는 영어 대문자를 나타내는 기본 신텍스 소문자 나는 기본 44:47 신스들을 렇게 중간에 콜론으로 해서 묶어서 이렇게 보여줘라 이렇게 제가 44:53 예시를 다른 건데 사실은 같은 경우 하고 나서 결과치가 숫자로 44:59 나오거든요 아까 이제 아까 If you 원투 you 뭐 이런 식으로 했을 때 결과치 숫자값을 나오는데 그 45:06 숫자값을 문자 값으로 나중에 변환한 다음에 걔네들을 붙여 줘야지 한 줄로 나오거든요 그때 스트링 strc 하는 45:14 거예요요 함수를 쓰는 거예요 개별적으로 막 밑으로 나오는 45:19 걸 옆으로 펼친 다음에 중간중간 단어들을 다 붙여 놔야 이게 한 문장이 되잖아요 그런 거 할 때가라는 45:26 거 쓰는 거 요거는 꼭 쓸이 45:34 생깁니다 자 저희가 꼭 알아야 돼 str 매치라는 45:40 함수입니다 저희가 밀터 실습을 할 때 형태소 분석을 한 뒤에 거기서 명사 45:47 단어만 뽑을 거예요 그때이 str 매치라는 함수를 쓸 겁니다 자 근데이 45:55 함수는 형태 을하기 위해서 꼭 쓰는 거 개념보다 정말 유용하기 때문에 쓰는 거예요 자 우선 아까 저희가 46:02 사례로 한번 런 거 봤어요 다시 한번 짓고 넘어갈게요 자 정교 표현식 엄청 46:07 많이 있습니다 자이 스트라는이 여기에 지금 전화번호 명칭 뭐 여러 가지가 46:14 있는데 그중에서 정말 전화부에 해당되는 것만 뽑기 위한 규칙을 46:19 이렇게 만든 겁니다 자 다시 한번 볼게요 대괄호의 의미 중괄호의 의미 소괄호 의미를 꼭 46:26 아셔야 돼요 자 매끄럽게 원으로 이렇게 같혀 있는 소가는 집단을 말하는 거예요 하나의 그룹을 말하는 46:33 거고요 자 대괄호는 5화입니다 5화 중괄호 최소 어디까지 몇 바이트 46:41 몇 개 뭐 이런 겁니다 자 그다음에 더하기가 있었고 곱하기가 있었고 물음표가 있었어요 그거 꼭 기억을 46:49 하셔야 돼요 그다음에 / W 뭐 / D 이런 거는 필요했다 찾으셔도 돼요 46:57 하지만 대가호 중괄호 손가의 의미를 혼자 블로그나 이런 걸 보시면서 47:03 익히시기 조금 개념을 정립하는데 머리 시간이 걸리세요 혼자 하시기에는 그래서 47:09 설명드리는 거예요 그 관점에서 전보에 해당되는 거를 찾아줘 하고 겉에 47:15 strr 매치라는 함수를 씌웠어요 그랬더니 원래 값이 걸르는 것도 다 47:21 나왔어요 나온 다음에 여기 지금 소괄호 있죠 소괄호 47:27 에 해되는 것 별도로 이렇게를 해준 거예요 근데 요게 지금 보여주는게 47:36 깔끔하게 막 한게 아니라 거 가운데 보면처럼 깔끔하게 보이잖아요 렇게 47:43 나와야 저희가 데이터 조작을 하 쉬운 거예요 요렇게 돼 있어야지 처음 했던 47:51 dyr s 그해서 만져 가는 데이터만 뽑아 줘 47:58 필터라는 걸로 거르면 되는 거죠 그런 단계를 걸치는게 비전기 데이터 분석하는 48:05 방법이에요 자 str 매치 요거 꼭 기억을 하셔야 됩니다 좀 있다 한번 48:10 실습을 할 때 자 str 매치 함수를 써 [음악] 48:17 보겠습니다 자 그다음에 아에서 48:30 자 우리나라 사람인데요 저는 본 적은 없어요 어떤 분인지 얼굴은 본 적 없는데 이름은 48:37 알아요 전원이라는 분이에요 이름은 성함은 전원이라는 분이신데 어 SK 텔레콤이 있다라고 48:44 얼 들었어요 이름은 이분이 다른 모르겠는데 6년인가 7년 동안 한글에 48:52 대해서 문법적으로 분류하는 거를 연구를 해서 만든 패키지가이 klp 48:58 패키지입니다 근데 이분이 정말 노력을 많이 해서 한 거죠 자 이분이 한글에 대해서 우리가 49:08 문장에 대해서 이거는 명사 동사 이런 거 어쨌든 불리는 걸 만드신 거예요 근데 이분이 49:15 만들면서 이거를 klp 패키지 명을 해서 R 이에 관련된 수많은 49:22 패키지들을 핸들링하는 거기 웹사이트에 올린 거예요 그래서 거기서 검증을 해봤더니 어 한글에 대해서 괜찮네 49:29 해가지고 공포가 돼서 저희가 쓰는 거죠 어쨌든 지금이 K 키지 공짜니까 49:34 쓰는 거죠 근데 상용으로 하는 것들은 별도로 패키지를 사야 되겠죠 형태소 분석이라 하는 패키지를 쓰려면 49:41 그러지만 저희는이 패키지 관점에서 우선 쓰는 겁니다 자라는 거 이거를 49:48 사실 혹시 선생님들 돌아가셔 가지고 노트북이나 데스크에이 설치한 다음에 형태소 49:55 하시려면 nlp 패키지를 설치를 해야 되는데 이게 그렇게 딱 한번에 아까처럼 50:02 DPR yr이나 뭐 GG 플로나 스트링 알처럼 인스톨 패키지 하고 50:08 라이브러리 딱 하고 끝나면 좋은데 그게 안 돼요 그래서 제가요 장편을 50:13 만들어 놓은 겁니다요 klp 패키지를 쓰려면 50:18 자바라는 거로 설치가 돼 있어야 돼요 자바라는게 설치가 돼 있어야 되는데 이거 자바라는 거는 또 50:25 오라클이라는 사이트 서 다오를 받으셔야 돼요 그래서 요게 일부러 코멘트를 좀 달아 놓은 겁니다 50:32 그래서이 패키지를 쓰려면 자바를 먼저 설치를 하시고 자 자바 그럼 어떤 거 50:38 설치해야 되냐 요런 거는 오히려 블러그나 이런 거 드셔 가지고 klp 50:43 딱 이렇게 검색해도 klp 걸 쓰기 위해서 자바 어떤 거 설치해야 되게 많이 나와 50:49 있어요 그거 활용하 가지고 잡아 설치하고 그다음에 klp 쓰려면 50:54 klp 패키지 설치하고 라는 설치 개를 해야돼 그래야지 51:01 이제를 설치하는 환경이 딱니다 그다음에 klp이 패키지는 사전 51:09 방식이에요 사전 방식 그니까 쉽게 말씀드리면 단어는이 단어는 명야이 51:16 단어는 사야이 단어는 형용사 이거를 사전을 갖고 있어요 를를 하면 본으로 51:25 사끼니다 세네 가지가 있 그 사전 중에 대표적인게 세종 DIC 이런 51:32 사전도 있고요 시스템 DIC 뭐 이런 사전도 있어요 런 사전을 기반으로 51:38 형태소 분석을 하는게 패키지입니다 그다음에 그러면요 사전에 우리가 쓰고 51:45 있는 모든 단어가 다 들어가 있느냐 그렇지가 않거든요 업종에 관련된 특화된 업 51:51 사전이나 단어들은 다르거든요 그래서 가지고 비정형 데이터 분석을 51:58 하러 딱 들어갔는데 국방부를 갔다고 할게요 그 국방에 관련된 용어들이 막 있을 거 아니에요 그러고 찾아내야 52:04 돼요 찾아낸 다음에이 단어가 명산지 뭔지 그런 것들이 사전에 등록시켜 52:11 줘야 되거든요 그래야지 나중에 형태소 분석을 할 때 그런 단어는 명야 뭐 52:17 이렇게 뽑아냅니다 그래서 그런 거를 사전을 에다가 52:22 새로운 단어를 추가하는게 머라 런 함수가 있어요요 패키지 안에 있는 52:28 겁니다 요거를 가지고 ncn 그러면은 명사로 추가하는 거야 뭐 이런 식으로 52:33 용어를 쓰면 돼요 렇게 해서 단어들을 추가해주셔야 돼요 그래야지 형태소 분석이 제대로 되는 52:40 거예요 자 그다음에 요거는 함수인데요 심플 포스 구라는게 있고 52:47 심플 포스 2라는게 있어요 우측에 보시면 카이스트에서 52:54 카이스트에서 리라 언 품사를 아홉가지의 사나 더 깊게 들어가서는 53:00 22가지의 품사 용으로 분류를 한 겁니다 태서 분석을 돌리고 나면 단어 53:06 뒤에 요런 단어들이 붙어요 영어 알파벳들이 슬 n 이렇게 붙어요 예를 53:13 들어서 비 그러면 이렇게 붙 그러면 저희는 그 53:19 붙어 있는 것 중에는 아 이건을 말하는 거야 그 얘만 붙어 있는 건 53:24 뽑아내면 되거든요 려면 어떻게 해 돼요 형태소 분석 해 놨으니까 정교 표현식으로 찾아야 53:32 되겠죠 슬러시 n 있고 한글이 있고 슬러 n 있는 거만 그렇게 해서 정규 53:37 표현식을 그래서 써야 되는 거예요 그래서 정규 표현식에서 그 단어만 뽑고 그 단어만 뽑은 53:44 다음에 뽑아냈는데 단어 중에 뭐 그 저 뭐 이렇게 한 단어로 돼 있는 53:50 것들도 있고 두 글자 이상으로 묶혀 있는 것들도 있고 막 이럴 거 아니에요 한 단어로 돼 있는 것들은 53:56 별로 의미가 없을 것 같아 그러면 걔를 또 제거를 해야 되거든요 그러면은 필터라는 걸 해가지고 걔는 54:02 빼는 작업을 하는 거예요 근데 빼기 전에 걔 단어가 몇 바인지 알려면 54:08 아까 스트링 아에서 str 스 딱 했잖아요 그거 해가지고 1이 해당되는 54:14 거 딱 빼면 되죠 그런 거 빼주고 그다음에 최소 두 단어 이산으로 돼 있는 것들 두 글자 이산으로 돼 있는 54:20 것인 다음에 걔를 카운터를 해가지고 어떤 단어가 몇 거 나왔는지 숫자 54:26 다음에 그거 가지고 시각화 워드 컬러로 넘기는 끝나는 거예요 그런 54:32 식으로 비정형을 이렇게 분석이 가는 겁니다 어쨌든 요런 klp는 패키지를 54:38 가는 형태소 분석을 합니다 자 54:44 이제부터 저희가 본격적인 마지막 저희가 이제 민원 54:50 사례 데이터를 가지고 분석을 해 보겠습니다 본격적으로 실습에 들어가기 전에 54:56 자 아까 비정형 데이터 분석에 대해서 저희가 어떤 단계를 가지고 분석을 할 건지 아까 다섯 구간으로 나눠서 좀 55:04 표현을 해 놨습니다 첫 번째로 자 지금 아무것도 모르는 상태예요 데이터 55:09 이렇게 받았어요 데이터가 있고 이제 데이터가 어떤 식으로 구성되 있는지 레이아웃을 55:16 받은 거예요 봤더니 여기 뭐 번이라는게 있고 55:22 접수일자 민원 데이니까 민원이 언제 접수되지 접수 있 당연히 있겠죠 그다음에 그 민원 55:30 접수한게 산업군에서 따지는 업종분류 업종분류 대중소 이런 업종 분류에 55:35 어디에 해당되는지 이렇게 좀 표현이 돼 있었어요 여기 좀 있어요 자 그다음에 민원에 대해서 뭐 상담을 뭐 55:43 어떤 거로 상담을 한 건지 그다음에 그 민원이 발생한 55:49 지역이 우리나라 행정구역상으로 뭐 서울인지 아니면은 55:55 그냥 특별 서울시 뭐 이런 점인지 아니면 그냥 시군구 점인지 뭐 이런 56:01 관점에 관해서 소비자 지역 1 2로 지금 나눠져 있고요 그다음에 뭐 56:07 접수한 사람의 성별 연령 뭐 이런 데이터들이 있고요 그다음에 마지막으로 56:12 사건 내용이 뭔지가 이렇게 있을 거 아니에요 아까 말씀드린 것처럼 비정형 데이터라고 해가지고 비정형 데이터만 56:19 있는 건 절대 없습니다 이렇게 정과 같이 묶어서 옵니다 페이스북이라고 56:24 아까 말씀드렸어요 똑같습니다 출판 날짜가 있고 저자가 있고 금액이 있고 56:30 당연히 숫자 데이터들 분명히 있어요 다른 것들 어쨌든 사건 내용이라는 건 56:35 얘는 텍스트예고 왔는데 어 얘는 비정형 56:41 얘는 텍스트 마이닝을 해야 되는 건 알겠어요 나머지도 그러면 최소한 좀 봐야 될 거 아니에요 그래서 비정형 56:49 데이터 분석한다 딱할 때는 텍스트만 분석하지는 전혀 없이 정과 비정을 같이 해야 56:55 됩니다 그거를 이제부터 한 스텝씩 해보면서 넘어가도록 57:01 하겠습니다 자 앞에서 봤던 데이터셋 자 요렇게 나와 있었어요 57:08 데이터셋 자 자료에 대해서 제가 그랬죠 자료가 이렇게 쫙 왔으면 이게 이것만 봐서는 정확하 구조 57:14 모릅니다 이거를 이렇게 데이터간에 하이라키 구조로 해서 좀 풀어놔야지 57:20 데이터들 간의 관계성을 쉽게 이해할 수 있고요 그다음에 분석 주제를 정할 때도 57:26 이렇게 항목들로 나열을 해본 다음에이 관계성을 좀 맺어 본 다음에 어 사건 57:33 내용하고 어떤 거하고 좀 묶어서 좀 접근해볼 수 있는 주제거리 나올까 이런 생각을 하셔야 된다는 얘기예요 57:39 그냥 간단한 예로 업정 분류가 상품에 대한 분류체계가 대중소로 돼 있어요 57:46 대분류 관점에서 사건 건수가 어떻게 되는지 분석할 필요도 있겠죠 어떤 57:51 업종이 제일 많은 건지 어떤 상품이 상품이 관점에서도 한번 볼 필요도 57:57 있을 거고요 또 필요 소분 관점에서도 볼 필요도 있을 거예요 그러면 상품 58:02 유용에 따라서 그러면 하자 내용이 어떤 거하고 또 관계가 있는지 묶어볼 수도 있을 거고요 그다음에 지불 58:09 방법에서 민원이 접수했다면 상품 유형별로 지불 방법하고 또 관계성도 볼 수도 있고요 또 이거 접수 일자가 58:18 있어요 접수 일자는 날짜요 그러면이 접수가 1년이라는 기준에서 날짜별로 58:25 어떤 추세가 있는지 도 볼 수도 있잖아요이 다양하게 이제 해석을 해야 되죠 근데이 해석을 이거만 쫙 보고 58:33 이거만 쫙 보고 이해가 되면 베스트 있겠죠 하지만 이것만 보고 이해가 쉽지 않으니까 이렇게 펼쳐놓고 여기서 58:40 아이디어를 찾는 작업을 해야 되는 겁니다네 일단은 이제부터 이제 58:50 실습인데 자 이제부터 진짜로 이제를 가지고 조작하는 실수입니다 기 전에 잠시하 쉬다가 58:59 이제 마지막 수업으로 진행 하도록 하겠습니다 한 15분만 59:04 쉬겠습니다 관계만 남았는데요 일단 지금 오늘 아까 59:11 서두에도 말씀드린 것처럼 지금 사실이 과정 4시간이라는이 시간 동안 이거를 59:19 다 여기서 소화를 못하실 거예요 그래서 누차 말씀드린 것처럼 교제가 59:25 따라하시면서 충분히 하실시 있게 좀 구성이 돼 있고 그다음에 아 이런 59:30 식으로 하는거나 하는구나라고 정도까지만 이해하셔도 사실 좀 59:36 앞으로 스킬업을 시키시는 데는 충분히 좀 의미가 있지 않을까 생각이 듭니다 59:44 그다음에 저희가 지금은 이렇게 그 비정형 데이터라는 부분을 결국에는 59:49 시각화를 하려고 이제 하는 쪽에 포커싱을 두고 있는데 지금부터 이제 실습할 것도 59:56 정형 데이터도 일부 좀 분석도 해볼 거고 그다음에 비정형 데이터 텍스트 1:00:01 데이터에 대해서 이제 분석도 해 볼 건데 지금 같은 접근 방식은 사실 기술통계 관점에서 접근하는 거거든요 1:00:08 그니까 데이터 분석한다 그러면은 많은 분들이 얘기하시는게 첫 번째 예측 1:00:14 모델 이런 쪽에 많이 또 생각을 하세요 근데 예측도 분석 모델이 1:00:20 하다지만 현황에 대해서 정리 요약을 해가지고 그속에서도 또 보이지 않는 인사이트를 는 것도 분석의 1:00:27 방법입니다 근데 물론 이제 예측이나 이런 기법까지 이제 들어가게 된다면 1:00:32 각종 이제 통계 이론들도 좀 활용을 해야 되고 그다음에 뭐 비용 계산 1:00:38 방법이라든지 머신러닝 딥러닝으로 가면은 CNN이나 rnn 뭐 이런게 법도도 가야 되는데 그런 부분들은 어 1:00:46 정말 좀 많은 시간을 투자를 해서 설명을 드려야 될 부분들이다 1:00:52 그래서 오늘은 이제 그런 부분들에 대한 거는 설명을 드리 한계가 1:00:57 있고 어 간단하게 뭐 그냥 제가 생각하기에는 지금 이제 실습 과정만 1:01:04 남았는데요요 부분은 제가 보기에 잘 이제 타이핑만 치시고 잘 1:01:10 쫓아 오시면 한 3 40분이면 요한을 끝낼 수도 있을 것 같아요 근데 1:01:16 간략하게 그냥에서 어 그러면 예측 모델 어떻게 하는 건가 간단하게 하나만 그냥 보여 1:01:23 드리면 사실 예측 모델을 만드는 거 굉장히 알리나 이런 1:01:28 데서 쉽습니다 간단하게만 하나만 보여 드릴게요 1:02:06 제가 지금 이제 50 여기 라인에 LM 해 놓고선 세팔 랭스 해놓고 1:02:14 물결 표시한 다음에 점 찍었어요게 다중 회기 분석입니다 1:02:19 저게 저거를 m이라는 변수에 담은 거예요 그 아래는 아까 그랬잖아요 1:02:25 변수 는 뭐든지 담을 수 있다고 그래서 m이라는 변수에이 결과치를 1:02:30 담은 거예요 흑기 분석을 돌린 결과치를 그다음에 썸머리 해가지고 1:02:35 m이라는 거를 딱 해보니까 지금 여기서부터 여기까지 결과치가 그 1:02:43 변수에 다 담겨 있는 겁니다 이런 거를 해석할 줄 아시면 되는 1:02:49 거예요 지금 지금 세스 물결표시이 좌축 있는 1:02:56 거를 종속 변수라고 하는 거고요 뒤에 점을 찍은 거는 나머지 모든 변수 써 달라고 한 1:03:02 거예요 독립변수를 말하는 거죠 그런데 그 변수들에 대해서 요렇게 1:03:10 에스티메이트 해 가지고 요렇게 숫자 값들이 나온게 요게 계수값이에요 그 1:03:15 방정식이 쉽게 말하면 y 어 0.49 589 * 세 위스 1:03:23 더기 0.82 924 곱하기 세팔 위스 뭐 이런 식으로 이렇게 방정식이 1:03:30 근데 이런 개별적인 방정식들의 요런 항목들이 이렇게 있는데이 항목들이 정말 유용한 1:03:37 항목인지 안 유용한 항목인지 여기 피 요걸 피 1:03:44 밸류라인 겁니다요 값이 0.05보다 적으면 유용하고요 값이 0.05보다 1:03:50 크면 아이 변수는 빼고 하는게 맞아 이렇게 해석하는 거고요 그다음에 이 1:03:56 방정식이 정말 어느 정도 예측력을 좀 보여주고 있는지 그런 걸 확인할 때 1:04:01 여기 어디스 스퀘어라는 조정결정 계수라고 한글로 표현하는데요 요게 1:04:08 0.86이에요 86% 정도 표현하고 있다라고 하는 거예요 요런 개별적인 여기 지금 제가 1:04:15 LM 요렇게만 썼거든요 요거는 선용 회기를 말하는 거고요 요거 말고 또 1:04:20 glm 여러가지가 있습니다 S 있고 그다음에 1:04:27 뭐야 로지스틱 회기분석 클래시피케이션 클러스터링 이런 용어들 군집분석 하고 1:04:34 군집분석 끝나고 나면 이제 분화 제대로 치는 모델도 만들고 그런 거 1:04:40 할 때 항상 이런 피 통계 용어인데요 이런 용어들을 가지 해석을 하는 겁니다 용어는 통계적인 접근 1:04:47 방식이고요 이거를 지금해 썼던 공을 1:04:53 신닝 리 된다면 개별 변수들이 어떤게 유용해 이런 거는 안 1:04:58 나타나거든요 머신 러닝으로 하면 또 세 가지가 중요하거든요 그게 뭐냐면 파피스 1:05:04 가설을 세우는 거 공식을 만드는 거 하나 그다음에이 공식을 돌렸을 때 1:05:10 학습을 제대로 잘하고 있는는 코스트를 산정하는 방식 하나 그다음에 어떤 1:05:15 거를 가지고이 모델을 트레이닝 시킬 건가 옵티마이저를 좀 트레이닝해 주는 그 세 가지 그래서 가설 파티스 1:05:23 코스트 그다음에 옵티마이저 요 세 가지의 관점으로 머신러닝에서 돌리는 1:05:28 거거든요 근데 머신 러닝은 말씀드린 것처럼 어떤 어떤 변수가 중요하다 이거는 볼 수가 없어요 그래서 1:05:36 개인적인 생각이지만 머신러닝으로 돌리기 전에 이렇게 통계 분석을 통해서 어떤 변수가 유용한지 먼저 1:05:43 판단을 해보고 그다음에 그 유용한 변수만 머신러닝으로 학습시키면 더 1:05:48 유용한 결과치가 나오지 않냐라고 생각을 저는 가끔 좀 해봅니다 그래서 1:05:54 어떤한 분야에 치우치는 것도 깊이 있게 아는 것도 중요하다고 생각을 하는데 그거와 별개로 아 통계에 대한 1:06:02 어떤 적 방식도 일 활용에서는 굉장히 한 축이 될 수도 있겠구나 렇게 1:06:08 이해를 해주시면 될 거 같고요 예 잠깐 여담으로 잠 옆으로 1:06:15 빠졌는데요 자 일단 간 저희가 아 하고자 하는 거를 마지 실습을 1:06:22 해보겠습니다 페이지는 페이지요 자 우리 저희가 하려는 1:06:31 데이터는 지금 선생님들이요 명령문을 좀 쳐 주셨으면 1:06:36 좋겠습니다 자 저희가 엑셀로 돼 있는 데이터를 읽을 거예요 아에서 엑셀에 1:06:43 있는 데이터를 읽는데 또 유용한 패키지가 있습니다 그게 리드 1:06:48 엑셀입니다 그래서 지금 47 라인에 라이브러리 로고 리드 XL 이렇게 1:06:55 표현이 돼 있잖아요 요거를 먼저 실행을 시키셔야 돼요 그래서 47 라인을 쳐 1:07:04 주시고 그다음에 컨트롤 엔터를 눌러 주신 다음에 자 엑셀 파일에 있는 1:07:09 함수들은 이제 지금 메모리 상이 올라가 있는 상황입니다 라이브러리까지 했기 때문에요 자 그러면 이제 어떤 1:07:14 파일이 읽을 건가를 이제 작용을 하는 함수를 불러서 써야 1:07:20 되는데 그때 쓰는 함수가 리드 언더바 엑셀이라는 함수가 있습니다 1:07:26 요 함수는 리드 엑셀이라는이 패키지 안에 있는 1:07:42 함수예제 데이터를 읽고 올 겁니다 그래서 48 라인을 그대로 쳐주시면 1:07:49 돼요 48인 해가지고 렇게 하면은 1:07:54 VOC 가 읽혀지게 될 1:08:09 거예요 그렇게 해서 읽은 거를라는 변수에 담아 놓는 작업을 해 1:08:15 주시면 됩니다 1:08:29 자 그러면라는 변수에 데이터를 담았는데 정말 어떤 1:08:35 데이터가 담겼는지 저희가 방금 전에 쉬기 전에 봤던 데이터 구조처럼 담겨 1:08:40 있는지 한번 좀 보고 넘어갈게요 그래서 교재는 55페이지 중간에 보면 1:08:48 헤라는 명령이 있고 뷰라는 명령으로 써 있는게 있어요 헤드 해가지고 한번 1:08:53 먼저라는 걸 볼게요 1:09:02 자 요렇게 쳐보니까 헤드 해가지고 쳐 보니까 순번 나오고 접수 일자 나오고 1:09:09 데블 품목코드 대류 품목명 이런 식에서 데이터들이 좀 나오고 있어요 자 근데 요렇게만 봐서는 1:09:17 한눈에 또 보기가 좀 어렵게 돼 있어 가지고 그럼 요걸 좀 더 그 쉽게 1:09:23 보려고 하면은 뭐가 좋냐면 라는 명령을 통해서 한번 보면은 더 깔끔하게 볼 수가 1:09:30 있습니다가 대문자입니다 그래서 뷰 해 1:09:36 가지고 대문자 viw 하신 다음에 자 렇게 하면 새로운 창이 1:09:43 열리면서 방금 전에 읽었던 데이터들이 이렇게 엑셀 시트처럼 이렇게 잘 1:09:49 표현이 돼 있어요 요렇게 해서 아 요런 이런 데이터 형태들도 들어가 있구나 이거 1:09:55 확인을 하는 거죠 자 여기서 뷰를 통하면 viw라는 명령을 1:10:03 통하면 렇게 보실 수가 있는데 요건 지금 데이터 건수가 많지 않아서 이렇게 보기가 편한 겁니다 데이터가 1:10:10 엄청 사이즈가 크면요 뷰라는 명령 때린과 동시에 한참 동안 먹통이 해요 1:10:16 그러니까 그때는 헤드 뭐 아니면 테일 해가지고 앞부분만 본다든지 뒷부분만 1:10:22 본다든지 뭐 이런 식으로 좀 찾아가셔야 되고요 그거는 뷰 뷰라는 명령문은 한 번에 1:10:28 너무 때리시면 또고 아파지니 자 그다음에 그 데이터는 1:10:34 이제 봤으니까 구조를 한번 좀 볼게요 데이터 셋에 우리가 활용하려는이 1:10:41 데이터셋의 구조를 보는 명령이 또 str이라는 명령입니다 str 해 1:10:49 가지고 괄로 열고 D 한번시면 1:10:57 자 그러면 지금 저희가 읽은 데이터가 어떤 형태의 데이터 유형으로 돼 1:11:03 있는지가 이렇게 보여요 자 지금 보면 번이라는 거는 1:11:09 숫자 타입으로 돼 있는게 딱 나타나고요 그다음에 접수일자 같은 1:11:15 경우는 저희가 해석할 때는요 지금 2017 12월 1:11:20 29일인데 기본으로 읽어보다 보니까 얘가 입으로 1:11:26 거예요 그리고 여기 계약이라는 것도 있는데 얘는 숫자 타입으로 읽은 거예 n 1:11:34 메릭의 약자입니다 그다음에 CH 캐릭터의 자고요 요런 것들은 데이터형으로 1:11:42 바꿔줘야 되거든요 데이터를 데이터형으로 돼 있어야 1:11:49 순서가 있다라는 어떤게 크다 작다의 기준은 좀 알 수 있고 데이터값 1:11:54 자체가 를 의미하기 때문에 데이터를 날짜를 의미하는 변수 타입으로는 1:12:00 변형을 해 주는게 필요합니다 그래서 지금 구조만 봐서는 아 이거는 뭔가 데이터의 변형을 좀 1:12:07 시켜 줘야 되는구나라는 걸 판단할 수가 있고요 그 다음 페이지로 이제 1:12:17 보시면 자 DT 달러 접수 일자 해가지고 데이터를 변형하는 이제 1:12:23 신스를 좀 거기다 삽입을 해놨 자 1:12:28 요거를 제가 하나씩 하나씩 한번 같이 해보도록 1:12:40 하겠습니다 참고로 지금 저희가 지금 여기 한번만 봐주세요 1:12:46 48라 지금 엑셀 데이터를 읽어서라는 변수에 담았습니다 자이라는 1:12:53 변수 안에는 들이 있는 거예요 자 그런데 55라인 지금 1:13:00 제가를 딱 치고 달러까지 탁 표시를 했더니 뭔가 1:13:05 나타나요 자이라는 변수 안에는 이런 항목들이 한꺼번에 다 당겨 있다는 1:13:11 얘기거든요 그럼이 중에서 제가 바꾸고자 하는 항목만 선택을 해야 되는 거예요 자가 그래서 접수 일자를 1:13:20 지금 문자형으로 돼 있는 걸 날짜형으로 바꾸기 위해서 얘를 선택을 한 겁니다 1:13:25 자 그다음에 좌측에 우측의 처리 결과를 담을 1:13:32 거예요 그때 활용하는게 이렇게 화살표 반대 방향처럼 돼 있는 기호를 1:13:39 씁니다 그러니까 화살표 반대 방향 저 기호는 우측에 있는 결과 처리를 1:13:44 좌측에 넣으라는 얘기예요 자 이렇게 해서 문자형으로 캐릭터 형으로 돼 1:13:51 있는 거를 데이트 형으로 좀 바꾸겠습니다 1:14:18 자 제가 지금 55 라인을 실행을 했고요 자 실행을 1:14:24 했더니 워닝 메시지가 쫙 이금 올라온게 있습니다 거 신경 안 쓰셔도 1:14:29 되고요 왜 그런지는 설명을 1:14:34 드릴게요 자 어쨌든 자 1:14:39 아래는 숫자를 숫자를 문자로 바꾸겠다 그러면 점 캐릭터라는 함수가 있고요 1:14:47 그다음에 문자를 날짜형으로 바꾸겠다 그러면 점 데이트라는 함수가 있는 거예요 1:14:54 그다음에 숫자를 그니까 문자를 문자인데 문자 안에 값들이 숫자로 돼 1:14:59 있어요 근데이 문자를 숫자 타입으로 바꾸겠다 그러면 점메 이런게 있는 1:15:05 거예요라는 거는 변환을 할 때 쓰고요이라는 것도 있어요 이점 데이트 1:15:12 그러면 뒤의 값이 날짜 형이니 이런 걸 물어보는 거고요 이점 그러면 어 1:15:19 이거 물어보고자 하는 값이 숫자 타입인지 물어보는 거니 이런 거예요 그래서이가 지가 있습니다 자 그러면 1:15:28 D 접수 일자라는이 데이터는 문자형으로 돼 있어요 근데 얘를 문 1:15:35 날짜형으로 데이터형으로 바꿀 건데 들어가 있는 데이터가 요런 규칙성을 1:15:40 갖고 있는 거예요요 퍼센트 대문자 y 대문자는 y 대문자면 연네 자리를 1:15:47 말하는 거고요 y 소문자면 연두 자리를 말하는 거예요 그다음에 중간에 1:15:54 마이 가 항상 들어가 있고 원래 데이터값에 그렇게 돼 있습니다 그다음에 퍼센트 m m 스의 1:16:01 약자입니다 그래서 소분 자입니다 이거 그리고 마이퍼 D데 데의 약인 D 쓴 1:16:08 거예요 그래서 들어가 있는 데이터는 요런 런 포맷으로 들어가 있어 1:16:14 그러면서 걔를 데이터형으로 바꿔 가지고 원래 있던 트라는 변수에 있는 1:16:21 접수 일자의 그 값으로 치환을 해줘 명령을 때린 겁니다 자 때렸는데 여기 1:16:28 지금 워닝 메시지가 쭉 나와 있어요 이게 뭐냐면이 D 달러 접수 입자에는 요런 1:16:36 포맷으로 안 돼 있는 데이터들도 있는 거예요 간혹 그 널값으로 NA 값이라고 값이 배정이 안 돼 있는 1:16:44 것들 그런 것들이 있다라는 걸 여기 표현을 한 겁니다 그래서 에가 아니라 1:16:50 워닝 메시지를 띄어준 거예요 해서 하의 지금 1:16:57 바꿨습니다 그다음에 접수 일자는 이렇게 바꿨고요 그다음에 계약일을 바꿀 건데요 1:17:04 요번에는 계약일이 아는이 데이터는 넘버 타입으로 돼 있어요 뉴메릭 돼 1:17:10 있어요 뉴메릭 돼 있는 거를 바로 데이트 형으로 못 바꿉니다 그래서 1:17:17 뉴메릭 돼 있는 거를 캐릭터로 바꾼 다음에 캐릭터를 다시 데이트로 바꾸는 1:17:22 작업을 하는 거예요 그게 그 밑에 라인에 있는 데이트 점 1:17:29 계약일 요쪽 있데요 요것도 같이 한번 쳐 보도록 하겠습니다 1:18:11 자 그래서 제가 56 라인과 57 라인을 찾는데요 여기는 지금 1:18:17 계약일이이 데이터는 위에처럼 퍼 y 마이너스 뭐 이런 식으로 있는게 1:18:23 아니고 중간에 하이이 없어요 그래서 포맷을 퍼 y % m 퍼로 지금 1:18:31 정의를 한 겁니다 데이터가 들어가 있는 규칙에 맞춰서 해야 되겠죠 1:18:37 근데 날짜에 관련된 데이터가 월일만 딱 있는게 아니고 10분 초도 있을 때도 많잖아요 그런 것도 또 규칙에 1:18:45 맞춰서 정의를 이렇게 해 줘야 1:18:51 돼요 근데 지금 우리가 지려고 하는 는 요렇게 연월 일까지만 있어도 요거 1:18:57 변환을 잠깐 한 거고요 자 그다음에 좀 넘어가겠습니다 자 57페이지 1:19:04 이쪽으로 봐 주시고요 자 데이터에 대한 이제 기본적인 구조를 맞추기 1:19:09 위한 변환 작업은 끝났습니다 자이 탐색을 하는 겁니다 자요 한번 저희가 아까 비정형 1:19:18 관점에서는 1:19:23 데이터를 자 핸들링 했는데 핸들링 하면서 이제 어떻게 분석하는지 접근을 간단하게 1:19:37 봤는데요 비정형 분명히 존재하는 데이터는 없습니다 정형 같이 있습니다 1:19:42 자 그래서 일단 이제부터 일단 접근은 정형 데이터를 먼저 잠깐 탐색하는 작업을 할 거예요 실습을 해볼 건데요 1:19:50 첫 번째로 s b 요건 저는 요걸 뭐라 거는 원래 S 샘플이에요 1:19:57 샘플인데 샘플은 우리가 이제 앞으로 의미가 없고 빅이 아아 빅데이터 1:20:03 그래서이 B고 저는 용어를 좀 씁니다 자 그다음에 2가 탐색 있니다 1:20:09 탐색 익스플로 탐색 자 M이 모디파이 1:20:16 모디파이 그다음에 그다음에 M이 모델이고요 그다음에가 1:20:26 세트라고 해 가지고 [박수] 1:20:33 평가 요런 의미로 지금 씁니다 자 근데 요거에 대한 설명 자세한 거는 1:20:40 선생님도 갖고계신 교재 앞부분에 있어요 제가 요거에 대해서 표로 1:20:45 만들어 놓고요 각각의 단계에서 어떤 어떤 걸 한다라는 것도 표현을 해 놨으니까 나중에 분석에 대한 접근 1:20:53 흐름을 이해하시려면 앞부분을 보시면 됩니다 자 그러면 어찌됐든 이게 정형 데이터 관점에서의 1:21:00 데이터를 이제 찾아가는 방식인데 지금 뭐를 할 거냐면 저희가 기본적으로 1:21:07 정형 데이터 빈형 데이터 같이 있으니까 정형 데이터에 대해서 일부 탐색을 좀 해보려고 하는 거예요 1:21:13 그래서 첫 시간에 했던 DP yr 그다음에 뭐 시각화 뭐 이런 것들을 1:21:19 핸들링 하면서 정형 데이터에 대한 탐색을 좀 해보겠습니다 1:21:27 자 첫 번째로 접수 일자별로 접수 일자별로 1:21:32 민원이 몇 건씩 접수되는 카운터를 세보고 그거를 시각화까지 같이 그냥 바로 해 보려고 1:21:40 그래요 자 저희가 아까 시각화에 대해서 할 때 GE 언더바 라인이라는 1:21:46 거를 못해봤어요 여기서 한번 해보겠습니다 자 라인이라는 거는 시결 1:21:51 그래프를 그릴 때 쓰는 겁니다 자 한번 해보겠 습니다 1:23:12 예 지금 제가 59 라인부터 62 라인까지는 잠깐 쳤는데요 자 59 1:23:20 라인만 보면 그냥 접수 일자별로 건식이 있는지 요걸 그냥 카운터를 센 1:23:26 거죠 그래서 접수 일자별로 몇 건의 민원들이 접수돼 있는지 이렇게 숫자로 1:23:32 본 겁니다 근데 요렇게만 보면 확 와닿지 않으니까 이걸 시각화를 한 1:23:38 거죠 시각화의 결과가 저 우축 하단이 시각화에 대해서 기존에 우리가 다 1:23:45 그래프를 그리던 히스토그램을 그리던 똑같습니다 위에는 데이터를 조작하는 거 핸들링 했고요 그다음에지지 플러 1:23:52 딱 여기서부터 시작이잖아요 시각화의 자 AS 해가지고 x 축은 접수 있자 1:23:57 y 축은 n 카운터 센 거죠 자 그다음에 라인 그래프를 그려줘 해가지고 g 언더바 라인까지만 해도 1:24:05 시각화는 나옵니다 그러니까 저는 지금 60 라인부터 62 라인까지는 한 1:24:11 통으로 지금 이제 쓴 건데 이거를 디버깅 할 때 예를 들어서 1:24:17 했는데 오류가 났어요 뭔가 로직을 돌렸는데 오류가 났어요 만약에 그러면 1:24:22 오류를 찾아야 되잖아요 그러면 부부 어서 하는 거예요만큼만 1:24:29 돌려보고 어 이거 오려 없네 이렇게 확인하시면 그다음에는 이렇게 끊어서 1:24:36 보는 거예요 얘만 실행해보고 어 이건 뭔가 그림은 안 나왔지만 뭔가 오류는 1:24:41 안 떨어졌어요 그다음에 나이까지 붙여가지고 또 한번 보는 1:24:46 거예 어 여기까지는 이상이 없네 런식으로 하나씩 하나씩 붙여서 1:24:51 실행해보시면 오류가는 분이 어 는지를 확인할 수가 있거든요 그러면 그 오르한 부분에 대해서 찾아가면 되겠죠 1:24:59 자 그다음에 지금 라인까지 그리는 저 지금 반전시켜서 실행한 건 여기 그래프까지 나온 겁니다 자 그다음에 1:25:07 스케일 x 데이터라고 제가 쓴 거는 1:25:19 뭐냐면 자 지금 x 축으로 한번 봐 주세요 x 축이 1:25:25 4 그다음에 여기가 얼만지는 모르겠지만 5.5가 되는지 하간 여기 뭐가 있고 10 렇게 7이 있고 1:25:32 이렇게 떠 있어요 제가요 x 축을 일자별이나 월별로 월별로이 1:25:39 구간을 이렇게 했 선을 더 나누려고 하는 거예요 그다음에 요게 표현돼 1:25:44 있는 글자를 연로 표현하고 싶은 거예요 그때 쓰는게 스케일 언더바 x 1:25:50 언더바 데이트라는요 함수입니다 자 그래서요 함수를 자 날짜에 대해서 1:25:59 한 달 단위씩 끊어라 그래프를 그래프를 선의 축을 한 달 단위로 1:26:04 끊어라 그다음에 그래프에 x 축에 데이터를 찍어 주는 명칭을 주는 1:26:10 레이브를 연원로 찍어 달라 요렇게 지금 설정을 한 겁니다 자 요렇게 1:26:16 하고서 돌렸을 때 결과치를 한번 볼게요 1:26:25 자 이게 간격이 이제 또 조밀하게 이제 이렇게 구간들이 좀 나타나고요 1:26:31 축에 표현되는게 이제 연로 지금 표현이 된 거죠 러면서 시계열에 1:26:37 시간의 흐름에 따라서 데이터에 발생건수가 민원의 발생수가 어떻게 되는지 확인을 해보는 거죠 물론 1:26:45 요렇게만 해도 의미가 있겠지만 더 깊이 들어가면 데이터에 반복성이 1:26:51 있는지에 대한 순이 있는지 이런 것까지 나중에 봐야 됩니다 그래서 1:26:57 그런 거는 이제 시계열 분석이 이제 계절 분해하는 것도 해 봐야 되 여러 가지 나올 수도 있고요 하지만이 1:27:03 자체로도 아 어느 시기가 좀 몰리고 있구나 사람이 직감적으로 그래프를 1:27:09 보고 판단할 수 있는 근거는 됩니다 예 요런 식으로 일단은 기본적인 탐색을 한번 해 1:27:16 봤고요 자 그다음에 이제 1:27:22 보시면 자 그다음에 이제 몇 가지들은 간략하게 지금까지 했던 거의 1:27:29 반복이니 설명을 간단하게 한번 넘어갈게요 58 페이지를 보시면 자 58페이지 위쪽에 1:27:37 보시면 디스트라 거는 유니크한 값들이 뭐 무엇이 있는지를 찾아보는 함수라고 1:27:42 아까 말씀을 드렸어요 그래서 DPR yr이는이 패키지 안에 디스팅트 하면은 어 유니크한 1:27:50 값들이 뭐뭐가 있는지 그걸 보는 건데 디스팅트 해 가지고 지금이 지금 활용하려는 데이터셋 1:27:57 안에서 대라고 분류돼 있는 품목 코드가 뭐고 그거에 따른 명칭이 1:28:03 무엇무엇이 있는지 알아보려고 한 거예요 그게 58페이지 위쪽입니다 1:28:08 그래서 대류로 지금 분류하는 품목의 기준은 총 23개의 분류가 있다라는 1:28:15 겁니다 지금 개가 지금 글자로 보여 있고요 그 밑에 1:28:21 로라고 돼 있잖아요 앞으로 13개가 가 더 있다라는 얘기거든요 그래서 토탈 23개의 지금 대분류 유형이 1:28:28 있다 요렇게 보시면 되고요 그 밑에는 대불이 아니라 중분류 레벨까지 한번 1:28:35 떨어진 거죠 그래서 중분류 레벨로 몇 건식이 있는지 한번 확인하는 1:28:40 것들이죠 자 그다음에 59페이지 쪽으로 1:28:46 가시면 자 59페이지 위쪽을 보시면 얘는 또 소분류 레벨까지만잡고 1:28:55 그래서 현재 166건의 소분류 레벨로 품목이 분류되 있구나 이렇게 해석을 1:29:01 한 겁니다 자 그다음에 밑에 거 그다음 거를 보시면 그러면 현재 지금 접수돼 1:29:08 있는 데이터 중에 대분류 관점에서 그러면은 대류 품목 관점에서 어떤게 1:29:14 제일 많이 지금 접수가 됐나 민원의 접수가 되나를 카운트 관점에서 해봤더니 의류나 섬유 신변용품 1:29:23 이라는게 제일 많이 민원이 접수가 된 거라는 걸 확인을 해 본 거죠 자 요거는 그냥 말 그대로 저희가 DPR 1:29:30 패키지에서 썼던 SQL 쓴 겁니다 그냥 특별히 한 거 없고요 자 그다음 페이지로 1:29:39 가시면 자 대분류 관점에서는 의류 섬유 신병 용품이 있는데 그러면 1:29:45 중분류 관점에서 좀 더 들어갔을 때 어떤게 제일 많았냐 보니까 감편 복이 제일 많았다 이거 이제 해석을 해 1:29:52 보는 거죠 자고 밑에 보면 소분류 관점에서 그러면 뭐가 제일 많냐 그랬더니 기타 의유나 섬유가 이쪽으로 1:30:00 분류되 있는 것들이 제일 많이 민원이 접수가 됐었다이이 이유에 대해서는 여러 가지 1:30:07 이제 해석을 해야 되는데 어쨌든 품목이라는 관점만 보면 요렇게 지금 정의가 돼 있는 1:30:13 거죠 자 그러면 61 페이지를 좀 1:30:20 볼게요네 똑같은 관점의 것들은 조금 설명만 하고 넘어가겠습니다 1:30:26 61페이지 보면 요번에는 필터라는 거를 통해 가지고 한번 걸러 본 거죠 1:30:33 대류에 중에 의류 섬유 신변 용품이라고 돼 있는데 그러면이 대류를 1:30:39 먼저 걸른 다음에이 항목에 대해서이 품목 블 품목에 대해서 일자별로 몇 건씩 1:30:46 발생했는지 한번 본 거죠 그거에서 그거에 대해서 바로 밑에 배분 관점 1:30:53 배 의명 관점에서 시기의 그래프를 그려본게 바로 밑입니다 단하고 더의 1:30:59 똑같은 패턴으로 한번 여기를 본 겁니다 자 여기까지가 그냥 정형데이터 1:31:06 탐색이라는 이제 비정형으로 가겠습니다 그러면 날짜별로 이런 이런 1:31:12 추위 있었던 걸 이해를 했습니다 이렇게 한다라는 건 봤고요 자 그러면 1:31:18 그럼 비정형 데이터 관점에서 어떤 것들이 이제 나오는지 한번 쳐보도록 하겠습니다 여기서 칠 때 두 번째 1:31:25 라인은 제가 먼저 하나를 먼저 좀 제가 화면에 치는 거를 보시고 조아하시면 될 거 같고요 여기서 1:31:32 설명을 좀 몇 가지 더 드릴게 있으니까 우선 제가 치는 거를 보고 1:31:37 나서 쳐 주시면 좋겠습니다 자 우선 위쪽은 먼저 쳐도 1:31:43 돼요 자 뭐냐면 라이브러리 R 자바 라이브러리 klp 라이브러리 리이프 1:31:50 2 라이브러리 스트링 R 요거는 쳐 가지고 실행을 시켜 주시면 좋겠습니다 1:32:52 k 아 1:33:14 [음악] 1:34:22 g 1:34:32 자 지금 제가 70 라인부터 68 라인부터 83 라인까지 2 라인까지 1:34:39 친게 있는데요요 부분을 똑같이 한번 쳐 주셨으면 좋겠습니다 지금 1:34:44 교재에는 교재에는 70 라인이 지금 없어요 교재 요거 한번 표현을 좀 1:34:51 해놔 주시면은 나중에 쫓아 따실 때 한번 도움이 되실 거고요 교재는 70이 없으니까 그거를 좀 1:34:58 기술를 좀 해주시면 좋겠습니다 자 그다음에 72 라인부터 1:35:04 81 라인까지는 그냥 프로그램 코딩 관점에서지 로직을 좀 짠 거예요 이제 1:35:11 왜 이렇게 는지는 좀 있다 설명을 한번 1:35:17 드리겠습니다 그래서 68부 1:35:22 라인까지 을 쳐주시면 되고요 709만 그 교재에 없고 나머지 72 라인부터 1:35:32 82 인까지 똑같이 있습니다 그 그거는 그냥 치셔도 돼요 책 보시면서 치셔도 되고요 1:36:39 고 1:37:12 자 보시면서 한번 보겠습니다 제가 68 라인에 지금 간단한 지금 1:37:18 명령문을 하나 쳤어요 자 68 라인에 1:37:23 저희가 지금 74 아이부터이 로직을 짰는데 자 여기 심플 포스 공부라는 1:37:28 거 있잖아요 요거 하나만 보고 먼 넘어갈게요 자 68 라인에 심플 포스 1:37:34 공고해 놓고 제가 문장을 준 거예요 무궁화꽃이 피웠습니다라 놓고 이렇게 해 놓고 아홉 가지의 품사로 분석 그 1:37:43 형태소 분석을 해 봐라고 이제 명령을 때릴 거예요 어떻게 나오는지 한번 보세요 1:37:57 자 심플 포스 공고 딱 해가지고 때렸더니 자 무궁화라는 단어가 첫 번째 1:38:04 있었고요 무궁아입니다 자 그다음에 꽃이 꽃 / 1:38:11 n 플스 e / j 이렇게 나온 거예 그다음에 피었습니다 피음 까지가 1:38:19 명사로 지금 분류가 돼 있는 거예으로 그다음에 다가 뭐 m 돼 1:38:24 있는데 이거 뭔지 모르겠네요 하간 요렇게 지금 1:38:30 데이터들이 요거를 뭐라 그러냐면 아래는 리스트 타입이라 그래요 아래는 1:38:35 데이터 구조 중에 데이터 프레임이라는 구조가 있고 리스트라는 구조가 있고 1:38:42 매트릭스라는 구조가 있고 레이라는 구조가 있고 뭐 이런게 있어요 얘는 규칙성이 없는 구조를 1:38:49 가질 때 많이 쓰는 데이터 관리하는 유형 중에 리스트라는 유형이 있습니다 1:38:56 얘를 좀 깔끔하게 정리하려고 1:39:12 해요 제가 지금 퍼센트에 퍼센트 해놓고 티 트라고 딱 1:39:19 적어는요 함수를 쓰게 되면 방금전에 불규칙했던 것들이 요렇게 좀 1:39:25 체계적으로 바뀝니다 저희는 형태소 분석을 하면 1:39:31 이런 식으로 결과가 나와요 그러면이 형태로는 저희가 분석을 하는데 너무 어렵고 안 되는 1:39:38 경우가 많아요 그래서 얘를 깔끔하게 엑셀 시트처럼 모양새가 잘 1:39:45 갖춰진 것처럼 변형을 해 놔야 그다음부터 데이터를 조작을 하거든요 그래서 벨트라는 함수를 통해 가지고 1:39:51 데이터를 이렇게 바꾸는 자로 해 줍니다 자 이거를 하기 1:39:58 위해서 자 지금 저희가 읽었던 1:40:03 데이터에는 자 1:40:08 볼게요 자 지금라는이 데이터 1:40:15 안에는 자이 사건 내용이라는 제일 우측에 1:40:21 있는 아 이 측에 있는 거는 텍스트 문자 들이잖아요 자 근데 각 행마다 1:40:28 1번 행에 어떤게 있고 2번 행에 어떤게 있고 막 이렇잖아요 자 이것들을 개별적으로이 1:40:35 건수만큼 건수만큼 반복적으로 돌면서 한 줄 한 줄씩이 텍스트 1:40:41 문자에 대해서 형태소 분석을 하려고 해요 형태소 분석을 하게 되면요 첫 1:40:47 번째 인터넷 블로그로 해가지고 시작되는 거만 형태소 분석을 첫 번째 할 거예요 하게 되면 1:40:53 데이터가 깔끔하지 않고 리스한 형태로 막 왔다갔다 나올 거란 말이에요 1:40:58 그러면 걔를 깔끔하게 트라는 걸 해가지고 이쁘게 포장을 먼저 첫 번째 1:41:03 줄에 할 거예요 자 그다음에 두 번째 줄 또 읽을 겁니다 읽어서 하는데 두 1:41:10 번째 줄도 역시 왔다 갔다 하는 거를 이쁘게 포장을 한 다음에 첫 번째 줄 1:41:16 했던 거 밑에 붙고 해요 계속 그러면서 막 밑 히려 1:41:22 해요를 지 1:41:28 짠게 자요 부분입니다요 부분 자 루프문이라고 용어를 씁니다 1:41:36 데이터가로 하면은이 해당된 데이터가 밑으로 밑으로 몇 건이 있는지를 세는 1:41:52 함수요약 전체 건수까지 하나씩 반복해서 읽을 건데 첫 1:41:58 번째 읽은게 첫 번째일 때는이라는이 변수에 담겨 있는 데이터 1:42:05 중에 마지막에 있는 사건 내용이 텍스트로 돼 있거든요 저 사건 내용만 1:42:11 가지고 와서 여기 보이는 것처럼 방금 전에 무궁화꽃이 피었습니다 했었잖아요 그것처럼 평태 분석을 해 해고 그거를 1:42:21 트라는 거로 해가지고 이쁘게 바꿔죠요 얘기를 한 겁니다 그다음에 있는 1:42:29 라인은요 처리에 대한 결과를 살짝 몇 번 줄 몇 번째 줄에 있는 1:42:36 데이터였다 씌운 것뿐이에요 정확하게 말하면 77 라인과 78 라인은 약간 1:42:43 중간에 나머지 앞번 처리하고 같이 묶기 위해서 잠깐 변수 선을 한 거예요 자 그다음에 첫 번째 라인이 1:42:50 아니면 첫 번째 라인이 아니면 첫 번째 했던 거보다 뒤에 계속 붙여야 1:42:56 되잖아요 밑으로 쭉 붙이는 함수가 알바 인드라는 겁니다 옆으로 붙이는 1:43:01 거는 바인드는 함수가 있어요 항목을 옆으로 나열하는 거는 바인드 밑으로 1:43:08 쭉 데이터를 쌓게 하는 거 알바라는 용어를 써요 요런 함수를 쓰게 되면 1:43:14 밑으로 계속 붙어요 그러면 첫 번째 줄을 읽었으면 형태소 분석 벨트까지 했으면 깔끔하게 1:43:21 데이터가 정리가 됐잖아요 1:43:37 자 지금 77 라인을 잠깐 봐 주세요 자 형태소 분석까지 하게 되면 1:43:43 이렇게까지 밖에 안 나와요 이게 76 라인입니다 이게 여기에 바인드 해 1:43:51 가지고요 내용에다가 I 아라는게 지금 1 이거든요 첫 번째에 있는 거니까 1:43:57 여기 1 붙이라 얘기예요 그게 77 1:44:03 라인이야요 데이터에 111이 이거는 첫 번째 줄에 있었던 데이터 1 2를 1:44:09 붙이라 얘기예요 그다음에 루프를 도는데 1이 아니고 1보다 큰 2부터는 요거 처음에 1:44:17 만들어졌으니까 밑으로 붙이면서 관련된 번호들 2 붙이고 형태소 분석한 1:44:24 결과에 3 33 붙이고 밑으로 쭉 나라는 거예요 그렇게 되면 데이터가 1:44:31 밸류 값하고 L1 값하고 번호 값하고 세 개가 항목으로 돼 있어서 밑으로 1:44:36 쭉 나와야 되겠죠 요거까지 지금 돌린게요 작업입니다 자요 작업이 됐으면 이제제 1:44:45 저희가 본격적인 핸들링을 하면 됩니다 예 63 라인으로 가볼게요 1:44:54 자 63 라인에 얘도 보니까 얘 구조를 한번 볼게요 str 해 가지고 1:45:01 t 언더라 변수에 최종적으로 1:45:09 남겼으니까 거기를 봤더니 밸류라인게 터라는 용어로 지금 붙어 1:45:15 있어요 1:45:34 자 여기 지금 반전시켜 놨는데요 밸류는 팩터 이렇게 돼 1:45:39 있고요 L 1은 chr 캐릭터 아는 1:45:45 인티저 인티저 정수 뉴메릭 1:45:50 실수입니다 자 그래서 아는 정수 형태로 데이터가 감겨 있다는 얘기예요 자 1:45:56 근데 팩터는 용어가 1:46:08 나왔어요 자 벡터라는 거를 한번 먼저 설명해 1:46:14 드리겠습니다 자 통계에서는 데이터를 분류하는 척도가네 가지가 있어요 분류 1:46:20 유형이 1:46:31 자 통계에서는 우리가 다루는 데이터에 대해서네 가지 유형을 분류를 합니다 명목 서열 등간 비율 또는 뒤에 1:46:39 붙여서 명목 촉도 서열 촉도 등간 촉도 비율 촉도 이런 용어를 써요 자 1:46:44 명목이게 뭐냐면 명칭입니다 말 그대로 명칭을 부여한 거예요 예를 들어서 1:46:51 남녀 그다음에 뭐 상암고등학교 상암초등학교 1:46:57 서울시 부산광역시 이런 식으로 명칭을 부여한 걸 명이라 그래요 1:47:06 요거를 명칭부여 또는 뭐 이름 이름을 부여한 거죠 이거를 명목 척도라고 하고요 1:47:14 서열 척도라는 거는 저희가 길거 1:47:19 가다보면 어떤 회사에서 설문조사를 좀해주세요 라고 이제 문제지를 1:47:24 나눠드리는 경우가 있어요 자 그 문제지의 문항을 보면 우리 회사 제품에 대해서 어떻게 1:47:31 생각하십니까 문제는 그렇고 답을 보니까 1번 매우 좋다 2번 좋다 1:47:38 3번 보통이다 4번 나쁘다 5번 매우 나쁘다 요런 식으로 돼 있는 문항들이 1:47:43 있어요 요걸 서열 도라고 합니다 리커트 도라도 하고요서 도라는 용어를 왜 쓰느냐 1:47:51 얘는 가제가 안돼요 좋다하고 좋다가 두 개가 1:47:56 있으면 매우 좋다가 되는게 아니거든요 명확한 구간의 범위에 대해서 얼마다 1:48:02 얼마다 표현을 못하지만 못하지만 반드시 순위는 있는 거예요 요런 데이터들을 서유 도라고 1:48:21 합니다 에 대해서 서열을 구현하는데 가감 승계는 안 되는 거예요 자 1:48:27 간이나 비율 촉도 숫자 데이터에 대서 표현하는데 등가는 가장 쉽게 1:48:33 말씀드리면 온도 개죠 숫자가 0 밑으로도 계속 나올 수도 있는 것들 대신 또 가감 승제가 1:48:42 되잖아요 자 비율이라는 단어가 할 때 비율 도은 0미 숫자가 있을 수 없는 1:48:47 거죠 자 이렇게 해서 데이터를 분 하는데 아래 타라는 1:48:54 거는이 통기요 명목 속도와 서열 속도를 표현할 때 1:48:59 쓰는 자료 구조예요 1:49:04 데이터들간에 순위가 있다 그러면 저 팩터를 만들 때 오더라는 거를 좀 1:49:10 주면은 순위가 되 부여 되거든요 근데 그렇지 않고 여기 1:49:16 뭐 데이터값이 력 이런 것들이 이제 팩터로 정의를 하는 1:49:21 거예요 그 그다음에 뭐 거주지 뭐 이런 것들 팩터 형태로 정의가 돼요 1:49:27 근데 지금 밸라이 값은 저희가 팩터로 볼게 아니라 캐릭터로 보고 싶은 1:49:34 거예요 캐릭터로 보고 싶어 가지고 요거를 변형하는 작업을 좀 하려고 1:49:47 합니다 그래서 63인의 위쪽에 자 변형하는 지금 점 캐릭터 1:49:55 해가지고 데이터 형태를 1:50:09 바꿨습니다 자 요렇게 바꾼 다음에 자 그다음에 실질적으로 to 1:50:16 언더바 DN 이제 어떻게 들 데이터가 들어가는지 한번만 다시 한번 확인하고 갈게요 1:50:29 자 to 언더바 D 해 놓고 헤드에서 지금 10개의 데이터만 1:50:35 봤어요 그랬더니 어쨌든 좌측의 제일 밸류 1:50:43 값에는 형태에서 분석을 했을 때의 그 아홉 가지 품사 유형으로 분류했던 1:50:49 기호들이 뒤에 붙어 있고요 그다음에 원래 데이터입니다 그다음에 몇 번째 라인에 있는지 런게 1:50:55 표현된 거예요 자 이거를 이제 조작을 하려고 해요 자 첫 번째로 명사만 뽑으려고 1:51:03 합니다 명사만 자 명사만 뽑으려고 하는데 그게 63 라인의 중간을 1:51:09 보시면 자 to 언더바라는 데이터에서 파이프라인 기호 퍼센트 색 퍼센트를 1:51:15 통한 다음에 뮤트라는 함수 그거는 기존에 있는 데이터 항목에 새로운 1:51:20 항목에서 추가하는 거라 그랬어요 자 근데 추가를 하는데 명사만 뽑을 1:51:26 겁니다 근데 어떤 기준에서 명사를 뽑느냐 한글로 계속 있는 거면서 슬 1:51:33 n 기호 표시로 요거 잠깐만 보 1:51:46 갈게요 지금 교재에 보이실지 모르겠는데 52페이지 잠깐만 넘어가 보시면 1:51:56 예 52페이지 포스 공구 좌측에 아 우측에 포스 구라는 거 밑에 좀 한번 1:52:02 세 내가면 S 기호 F 외국어은 체온 이렇게 1:52:08 나와요 자 n 연이라는 거에 옆으로 가보면 그 옆에 22개의 개수로 1:52:14 넘어가면으로 시작되는 것 중에 NC 보통명사 nq 고유명사 뭐는 의존명사 돼 있잖아요 1:52:24 슬 n이라는 거는 쉽게 말하면 연이라는 용어를 쓰는데 아홉개 품사 기준으로는 근데 얘는 우리가 쉽게 1:52:30 말하는 명사라고 그러면 자 저희가 다시 원어치를 좀 1:52:37 갈게요 62 라인으로 다시 62페이지 가셔서 아 60 3페이지로 가셔 1:52:47 [박수] 가지고 로 가셔서 밸라 값 밸류라인 1:52:55 값은 분명히 지금 형태에서 분석을 한 다음에 그거에 달른 기호랑 같이 붙어 있습니다 그러면 슬 n 붙으면 체연 1:53:03 이거든요 그거만 뽑으려고 하는 거예요 근데 뽑을 때 아까 저희가 스트링 1:53:09 알려라 패키지를 썼을 때 str 매치라는 함수가 있었어요 걔를 통해서 1:53:14 뽑으려고 하는 거예요 자 그거를 뽑기 1:53:21 위해서 지금 중간 라인에 있는 명령 물을 제가 한번 먼저 쳐 보도록 1:53:27 하겠습니다 자 꼭 같이 한번 쳐 주세요 1:54:25 자 그 제가 저는 이제 93 라인과 94 라인으로 좀 이렇게 헤드까지 1:54:32 해가지고 단어를 몇 개 더 보는 거로 지금 이제 표현을 해놨는데요 이제 1:54:37 요거는 제 거를 같이 보시면서 예 좀 해석을 하도록 1:54:45 하겠습니다 자 str 매치라는 함수를 1:54:51 통해서 값 밸라 이런 하나의 벡터에 대해서 행 벡터에 열 벡터에 대해서 1:54:58 여기에서 한글이라는 기준은 아까 저희가 잠깐 봤듯이 지금 정규 정규 1:55:04 표현식으로 대가로 그든 그리고 가부터 흰 사이에 있는 모든 데이터입니다 1:55:10 그다음에 플러스 기호가 있어요 플러스는 하나 이상입니다 하나 이상이니까 한글 1:55:16 가부터 흰 사에 있는 어떤 단어든간에 이게 개가 됐던 20개가 됐던 1:55:23 플스가 붙으니까 하나 이상 있는 것 무조건 나오고 나오고 자 역이 들어가 1:55:30 있어요 저게 문구가 항상 붙어야 된다 얘기죠 규칙에 맞는 거를 뽑아라 한 1:55:36 거예요 그다음에 지금 그 뒤에 대가로 마 2 1:55:43 해놨어요 str 매치라는 함수를 돌리게 되면 한번 1:55:48 그죠 지금 제일 소 묶게 되면 그거에 규칙들을 옆에 하나씩 더 붙여 1:55:54 주잖아요 두 번째 값만 찾아오란 얘기예요 지금 원래 데이터 놔두고 두 1:56:00 번째 구한 거만 뽑기 위해서 콤마 2가 붙은 겁니다 쉼표 1:56:05 2가 두 번째 항문만 뽑아서 걔를 no이라는 거로 항목을 추가한 거에 1:56:11 이렇게 나열을 한 거예요 자 한번 볼게요 여기 숫자이 지금 저 가하고 1:56:17 가해서 힘까지 안 걸리잖아요 그러니까 얘는 없는 거예요 요 여기 좀 내려가 1:56:23 볼게요 여기 1 17은 숫자가 의미 없고요 자 1이라는 한글을 다음에 1:56:30 슬이 있어요 걔는 그래서 1로 지금 뽑힌 거예요 자 그다음에 밑에 볼게요 1:56:36 안내 안내 / n 있니다 요거만 해당되아요 그래서 안내라는게 여기 1:56:43 튀어나온 거예요 요런 거는 어떻게 보면 걸린다 하다가 이거 저희 기준에서는 불합리할 1:56:50 수 있잖아요 그러면 뭐가 이거 잘못된 걸까요 사전에 이게 잘못 들어가 있어서 그런 1:56:56 거죠 이게 이게 걸린다 여기까지가 만약에 명사라고 등록을 해 놔야 나중에 얘는 1:57:05 명사로 요금만 뽑히겠지 그래서 k nlp는 거를 쓸 1:57:10 때 사전 방식으로 하다 보니까 업종에 대해서 신규 프로젝트를 들어갔는데 1:57:15 klp 쓰겠다 그러면 그 업종에 맞는 사전 단어들을 추가를 해 줘야 돼요 1:57:21 근데 그것도 사실 일이겠죠 어떤 업종에 얼마만큼 많은 사전이 필요한지 그건 1:57:27 모르니까요 그래서 돈을 주고 사서 형태소 분석을 1:57:33 하는 솔루션을 쓰기도 하지만 뭐 예를 들어서 기업 입장에서는 사전 방식으로 쓰지만 어 1:57:40 우리가 직접 업종 사전 뭐 이런 것들도 사점에 파니까 그런 것들을 가지고 디비화 시켜도 괜찮겠다 1:57:47 데이터베이스화 시켜도 괜찮겠다 하면 이렇게 또 갈 수도 있겠죠 예 요런 식으로 1:57:54 형태소 분석을 해가지고 명사 단만 뽑은게 63 라인입니다 그럼 다음 1:58:00 페이지 한번 가볼게요 자 명사 단어를 뽑은 뒤에 1:58:06 지금 제일 위쪽에 NA이라는 지금 함수가 하나 붙어 1:58:11 있는게 있어요 그거는 뭐냐면 지금 화면을 봐주세요 앞에 여기에 데이터 1:58:18 보면 이렇게 이렇게 들어 거 있잖아요 요런 라인이 있는 것도 다 제거하라는 1:58:25 얘기예요 NA 오미시 자 요런 거를 제거를 하고 자 1:58:31 제거 제가 한번 1:58:44 하겠습니다 자 이렇게 toot 언더바 나온 퍼센트 거세 퍼센트 NA 오미 1:58:51 하면 지금 널값이 있는 것들이 제거가 된 상태예요 헤드 한번 1:59:01 볼게요 이러면 아까 위에는라고 돼 있는 값들이 없어진 상태고요 자 1:59:07 그다음에 여기 보면은 을원 이런 한단어 짜리가 있어요 자 1:59:13 이런 한단어 짜리는 좀 빼고 가는게 좀 괜찮을 것 같아서 저는려고 하는 거예요게 중간에 1:59:21 있는 을 활용을 한 겁니다 근데 필터라는 명령을 쓸 때 단어가 한 1:59:27 단어인지 스를 체크해야 되니까 더바 스라는 함수를 쓴 거예요 자 그래서 1:59:34 한 단짜리 제거를 했어요 그다음에 마지막에는 1:59:42 아 번호 그 위치를 좀 바꾼 거예요 순서를 좀 보기 편하게 몇 번째 1:59:47 라인에 몇 번째 명인지 요걸 보기위해서 셀렉트 해가지고 위치를깐 조정을 한 겁니다 자 조정을 한 1:59:54 다음에 마지막으로 65페이지가 볼게요 2:00:00 마지막으로 워드 클라우드라는 패키지를 설치를 2:00:07 하고 데이터가 명사로 몇 건이 발생했는지를 카운터를 센 다음에 걔를 2:00:13 시각화를 한 겁니다 자 여기까지 제가 빨리 한번 쳐보고 먼저 보여 드리고 2:00:18 워드 클라우드에 대해서 하나만 더 설명을 드리고 오늘 끝내도록 할게요 자 여기까지 한번 같이 쳐 보셔도 2:00:23 좋고요 계속 붙여서 좀 쳐 주시면 더 좋을 것 같습니다 2:01:20 s ch 2:01:58 자 지금 저 같은 경우는 지금 우측 하단에 지금 워드 클라우드로 해서 보여 주는 것까지 지금 한번 진행을 2:02:04 했는데요 요거 한번 계속 쳐봐 주세요 예 잠깐 쳐봐 주시고요 2:02:46 자 워드 클라우드에 관련해서 워드 클라우드라는 패키지가 있고요 2:02:52 라는지가 있어요 뭔 차이면 똑같은 워드 클라우드에 관련된 2:03:00 패키지인데가이 모를 좀 이쁘게 해가지고를 많이 쓰는 거예요 워드 2:03:05 클라우드라는 키지도 상관이 없고요 자 그래서 지금 문법에 2:03:11 대해서만 설명하고 제가 밑줄에 10라인 쓴 거 설명하고 끝는 2:03:22 기준으로 카운터를 봤는데 한 건도 나올 수도 있고 두 건 있는 것도 나오고 막 2:03:27 이러잖아요 모든 데이터의 단어에 대해서 워드 클라하 이게 너무 복잡해요 그래서 자주 나오는 거만 2:03:35 뽑아보려고 필터를 한 겁니다 그래서 카운터가 최소 50건 이상인 것들만 2:03:41 한번 뽑자 그런 다음에 정렬을 한번 살짝 해 준 거예요 가장 많이 나온 2:03:46 거부터 한번 데이터 정 한 거죠 자 그다음에 그거해서 2:03:52 했니 지금 우측에 나온 거거든요 근데 워드 클라우드라는게 사실 지금 저희는 2:04:00 단어에 대해서 문장에 대해서 명 형태소 하고 명사를 찾고 카운터를고 뭐 이런 과정을 쳐서 이렇게 찍은 2:04:08 거지만 워드 클라우드라는이 자체는 사실 굉장히 간단한 2:04:14 기능이에요요 10라인 봐주세요 스로 카터를 2:04:20 거요 클라우드 2까지 쓰기 전까지만 결과만 잠깐 2:04:26 볼게요 자 여기까지만 제가 반전시킨 거만 실행을 하겠습니다 어떻게 나오는지 2:04:33 보세요 그냥 결과값도 이렇게 숫자로 나온 거잖아요 워드클라우드 2라는 2:04:38 거는 명칭과 숫자만 있으면 되는 거예요 명칭과 만 있으면 명칭과 2:04:43 건수만 있으면 되는게 워드클라우드 자이 결과치를 뒤에 워드 클라우드까지 있는 것까지 같이 한번 2:04:50 볼까요 돌려보겠습니다 자 이렇게 나온 거예요 원래 워드 2:04:59 클라우드는요 명칭과이 6.3이라는게 몇 건 있는지 그 두 개 간만 있으면 2:05:05 이거 찍을 수 있는 시각화 패키지예요 근데 저희는 어찌됐든 문장에 대해서 분석을 하고 2:05:12 추적을 해가지고 명사가 어떤게 제일 중요한지를 알려고 지금 했던 거고요 2:05:18 하지만 워드 클라우드에 고유한 의미는 이런 식으로 쓴다 겁니다 자 간 여기까지가 비정형 2:05:25 데이터인데 사실 비정형 데이터는 이거만 있는게 아닙니다 SNS 분석 2:05:30 소셜 네트워크 라이라는 분석 기법도 있고요 그다음에 의미 연결망 이런 2:05:35 용어도 있고요 많이 있어요 근데 그 부분에 대해서는 2:05:41 제가 그쪽을 더 알고 싶으면은 제가 생각할 때는 블로그나 이런 거 많이 활용하시면 좋으신 분들이 글을 많이 2:05:48 올려 저도 많이 봤거든요 면 개별적인 분석 접근 2:05:53 방법에 대해서 충분히 학습이 되실 겁니다 단 하나 오늘 여기서 얻어 가시는게 있다면 아 텍스트 분석을 할 2:06:00 때 이런 이런 절차에 걸쳐서 이렇게 해야지만이 가능하다라는 거를 그거만 꼭 아시면 오늘 큰 의미로서 저도 2:06:07 가르치는 거에 보람을 느낄 것 같습니다 예 하여간 장시간 정말 더운데 들어 주셔 가지고 2:06:15 감사하고요 일단은 오늘 배운 것이 꼭 좀 도움이 되시고 앞으로 업무하시는 2:06:20 라든지 아니 하시 조금이나 했으면 좋겠습니다 간 더우신데 여기 먼데까지 2:06:27 감사합니다 수고했습니다 [음악]

756 2019.10.01

정형 · 비정형데이터 R 기초분석 2차 (1)

○ 교 육 명 : [서울시 빅데이터캠퍼스 정형 · 비정형데이터 R 기초분석 교육]   빅데이터캠퍼스에서 빅데이터에 관심있으신 기초 분석가들을 위하여 정형데이터(축제 분석 데이터 활용)와 비정형 데이터(민원 데이터 활용)를 분석 개요부터 데이터의 이해 및 분석실습과정을 연계 교육으로 8월 23일과 9월 6일 각 4시간에 걸쳐 아래와 같은 교육과정으로 실시하였습니다. 앞으로도 빅데이터캠퍼스의 데이터분석 교육의 많은 관심과 신청 바랍니다. 감사합니다.   ○ 교육과정 교육 과정 내용 1차 정형 데이터 기초분석 교육 데이터 분석 개요 데이터 조작 및 기초 탐색 이해 데이터 시각화 이해 축제 분석 실습 2차 비정형 데이터 기초분석 교육 Text 분석 개요 Text 분석 수행 방법 Text 데이터 조작 방법 이해 민원 데이터 분석 실습   [정형 ·비정형데이터 R 기초분석 교육 교안 다운로드]   (스크립트) 0:00 [음악] 0:08 저는 오제삼이라고 합니다 일단 비도 오는데 오시느라고 또 식사도 또 0:14 하셨는지 잘 모르겠네요 아 저희가 1시부터는 할 건데 지금 한 시간마다 쉬지를 0:23 못하고 아 두 번만 쉴 거예요 왜냐면 지금 오늘 할 내용들이 지금 이제 0:30 앞에 보이시겠지만요 내용들을 사실 조금 조금 깊게 하면은 한 20시간 정도 0:36 해야 될 분량입니다 분량인데 오늘 그 나름대로 시간이라는이 시간 0:42 안에서 일단 비정형 데이터에 대해서 특히 텍스트 마이닝이 용어를 쓰는이 0:49 부분을 한 시간에 걸쳐 짧은 시간 내에 최대한 좀 한번 부터까지 좀 0:55 훑어보려고 하는 과정이기 때문에 어가 최대한 좀 설명을 드릴 거는 1:01 드리겠지만 너무나도 이제 또 반복되는 부분들은 스킵을 하면서 설명을 드릴 겁니다 그렇지만 20시간 수업 내용이 1:09 부족하지 않도록 최대한 설명을 해 드릴테니까 어 집중해서 들어 주시면 1:15 될 거 같고요 그다음에 오늘 여기 계시는 분들 중에 3회차에 들어섰던 1:21 분들도 있으실 거고 아니면 오늘 처음 듣는 분들도 계실 테고 또 1:26 반면에 이런 데이터 분석에 대해서 그 그 혼자 공부를 하시거나 또 아니면 1:34 하시는 업무에서 조금 쓰셨던 분들도 있으신 반면에 처음 이제 이쪽 분야가 1:39 이제 무엇인지 궁금하셔서 오셨을 분도 계실 것 같아서 제가 보기에는 좀 갭의 차이들이 좀 있으실 것 같아요 1:47 근데 그 차이가 좀 있더라도 제가 최대한 좀 어 오늘 통해서 좀 1:52 얻어가실 수 있는게 있도록 한번 선을 맞춰보겠습니다 저는 이쪽 분야에 1:58 대해서 한 14 일을 좀 했고요 그 전에는 이제제 데이터베이스 DBA 쪽 2:05 그다음에 튜닝 이런 쪽에 일을 좀 했었습니다 제가 뭐 이렇게 사실 많이 하는 건 아니고요 여기 계시는 2:12 선생님들보다 먼저 이쪽 분열 먼저 뛰어들었다는 관점에서만 봐주시면 되고 2:17 저도 사실 지금 부족한게 많아서 계속 좀 공부를 하고 또 새로운 거를 좀 2:22 머릿속에 닫는 작업을 계속 하고 있습니다 제가 물론 이제 설명을 2:27 드리면서 뭐 실수할 때도 좀 있기도 하 지만 어 최대한 어 실수 없이 어 2:35 매끈하게요 과정들네 가지의 목차에 대해서 한번 진행을 좀 해 보도록 2:41 하겠습니다 저희가 이제이 수업을 본격적으로 하기 전에 그 실습을 하기 2:46 위해서 환경을 좀 마치는 작업을 해야 됩니다 그 환경을 마치는 작업부터 잠깐 먼저 좀 맞춰 놓고 본격적으로 2:54 좀 설명을 드릴게요 3:00 아 일단 다른 건 아니고 지금 메인 화면에 이렇게 화면을 띄워 놓은 3:06 상태에서 이렇게 그 브라우저를 하나 익스플로러를 한번 여시면 됩니다 첫 3:12 번째로 여신 다음에 딱 열리게 되면 지금 이와 3:19 같은 화면들이 나오거든요 이와 같은 화면들이 나오면 3:24 지금 여기 각자 앉아계신 선생님들이 쓸 수 있는 그 그 로인 아이디하고 패스워드 3:32 정보하나 자원 그 IP 정보가 있어요 그거를 좀 활용해야 되기 3:37 때문에요 화면에서 일단은 여기 캠에 입주 3:43 신청을 하실 때 쓰셨던 아이디하고 패드를 가지고 등록을 일단 모기를 좀 해 주세요 4:00 예 이렇게 그 화면에 로인을 하신 다음에 메뉴 4:06 중에 할당 자원 접속 정보라는 메뉴가 있습니다 4:13 이거를 누르시면은 나의 자원이라는 서브 메뉴가 나오는데요요 나의 자원이라는 거를 4:20 누르신 다음에 4:29 예 나의 자원이라는 서브 메뉴를 눌러서 이렇게 나오는 화면에서 두 번째 줄에 분석 서버 4:36 하고 괄로 열고 vm이라고 돼 있는 항목을 보시면 돼요 여기에 보면은 4:42 IP 있고요 IP 정보가 있고 아이디하고 패스워드가 4:47 있어요요 IP 정보만 일단은 복사를 하셔 4:54 가지고 아니면 직접 입력을 하셔도 상관없고요 가지고 여기 시작 버튼 5:01 누르신 다음에 여기 원격 데스크탑 연결이라는 5:06 메뉴가 있습니다 요거를 클릭을 하시면 요런 원격 데스크탑 연결이라는 5:14 런 조그만 창이 뜹니다 여기에 해당 IP 넣어 5:20 주시면은 돼요요 해다 아를 넣으시고 연결 버튼을 누르게 되면 5:28 인하는 화면 나오는데 거기에 지금 IP 복사했던 옆에 있는 5:35 아이디하고 초기 패스워드 그거를 입력을 하면 새로운 윈도우 창으로 5:40 들어가는 겁니다이 vm이 뭐냐면 버철 머신의 약자예요 가상환경으로 저희가 들어가서 오늘 5:47 수업을 좀 진행을 하려고 5:53 합니다 자 다시 말씀드리면 지금 브라우저를 여시게 되면 여기 서표 5:59 빅데이터 캠퍼스라는 이런 화면이 나오게 되고요 여기에 로인을 하셔야 되는데 6:05 인하는 아이디하고 패스워드는 입주자 신청하실 때 쓰셨던 그 아이디하고 6:11 패스워드로 이제 로인을 하시면 됩니다 자 로인을 하신 6:17 다음에는 마이 페이지에 마이 페이지 할당 자원 접속 정보에 나의 6:25 자원이라는 서브메뉴를 클릭을 하시면 보이시는 것처럼 화면들이 나타나게 6:31 되고요 여기서 두 번째 줄에 있는 분석 서버로 vm이라고 돼 6:38 있는요 정보를 참조를 해서 6:45 지금 가상 머신 쪽으로 좀 접속을 하려고 합니다 그래서 분석 서버 가고 6:50 vm이라고 있는 거에 접속 IP 정보를 복사를 하셔도 되고 아니면 6:56 그냥 그 화면을 띄어놓은 상태에서 하셔도 되고요 자요 상태에서 원격 접속을 하기 7:03 위해서는 윈도우 시작 버튼 누른 다음에 원격 데스크탑 7:09 연결이라는요 메뉴를 찾으셔 가지고 요거 클릭을 하시면 렇게 원격 7:15 데스크탑 연결이라는 창이 뜹니다 자 여기에 vm이라고 분석 서버 가르고 7:23 vmm이라고 돼 있던 거에 접속 IP 치시면 넣고 연결을 누르시면 7:30 새롭게 접속할 수 있는 아이디하고 패스워드를 넣어하는 창이 나옵니다 7:35 거기에 지금 분석 서버 괄로 vm 있는 제일 뒤쪽으로 있는 아이디하고 7:40 패스워드 초기 패스워드 값을 거기다가 셔 가지고 로인을 하시면은 7:51 됩니다 자요 행위가 끝나시고 되면 7:58 [음악] 자 요렇게 새로운 윈도우 화면이 나타날 8:05 거예요 자요 환경까지 이제 오시면 본격적으로 좀 시작을 하도록 8:13 하겠습니다 자 저희 지금 직원이 돌아다니면서 혹시 안 되시는 분들은 8:18 지금 체크를 하고 계시니까 안 되시는 분들은 손을 좀 들어 주시면 저희 직원이 뒤에 가서 8:24 봐 드리도록 할게요 예 8:34 가신 번면 이거랑 [음악] 8:46 1 확인해요 9:05 아 참고로 지금 갖고 계시는 교재는 어 지금 저희가 오늘 진행할 9:12 내용을 떠나서 여러분들이 따라할 수 있도록 만들었어요 그래서 그 내용은 하나씩 9:19 하나씩 보시면서 연습을 해 보시면 정형 데이터 분석이나 비정형 데이터 9:24 분석을 이런 맥락으로 하는구나 그거를 이해할 수 있도록 좀 따라하기 식으로 9:30 좀 만든 자료이기 때문에 그 자료를 한번 잘 나중에라도 좀 이용을 하시면 좋으실 것 9:36 같고요 사실 지금 데이터 분석과 관련해서 이제 뭐 유튜브나 아니면 9:41 온라인이나 오프라인 강의들을 보면 주로 정형 데이터 분석의 강의들이 좀 9:47 많은데 비정형 데이터에 대한 분석 부분들은 조금 이렇게 정리된게 없었던 9:52 걸로 제가 알고 있어요 그래서 여러분들 여기 계시는 선생님들이 활용하시기에 도움이 되도록 좀 자료를 9:58 만든 거 때문에 따라하기 개념이라고 생각하셔도 자료는 충분히 역할을 좀 10:03 할 거라고 보고 있고요 지금 갖고 계시는 교재는 좀 10:09 잘 활용해 주시면 좋을 것 같겠습니다 자 이제 어느 정도 보셨다고 생각을 하고 이제 진행을 좀 10:16 해 보겠습니다 10:26 [박수] 10:43 예 오늘 주제에 해당되는 비정형 데이터 분석입니다 비정형 데이터 분석이지만 10:49 사실 비정형 데이터만 분석을 하진 않을 거예요 지금 앞부분에 있는 정형 10:54 데이터 분석의 페이지도 일부 보시게 될 거고 비정형데이터 분석 에 대해서 11:01 뒤쪽으로 넘어가서는 실습을 좀 해보도록 [음악] 11:14 하겠습니다 아 첫 번째로 좀 개요부터가 볼까요 뭐 개회에 대해서는 사전적인 11:20 의미로 그냥 따지면 뭐 이렇게 뭐 지신 매체 언어 매체 뭐 이런 식으로 용어는 돼 있는데 사실 이거 사전적인 11:27 용어보다 저희가 일반적인 텍스트 문장으로 돼 있는의 데이터를 11:33 가지고 거기에 있는 단어를 추출을 해서 거기서 무엇을 표현하고자 하는지 11:39 의미를 찾는게 비정형 데이터의 대표 데이터 구조인 텍스트 데이터를 분석하는 11:45 방법입니다 근데 좀 뒷장으로 가면 이제 구체적으로 좀 말씀을 드리겠지만 11:51 비정형 데이터라고 딱 표현을 하지만 이게 저희가 대표적으로 비정형 데이터 11:56 그러면 뭐 소셜 책이나 뭐 페이스북 트위터 뭐 인터넷상에서 돌고 있는 12:02 소셜 데이터들 생각할 수 있는데요 사실 소설 데이터나 아니면 12:07 소설책도 글씨들로 막 채워져 있지만 이게 사실 비정형 man 있는게 아니거든요 소설책도 딱 보게 되면 12:15 그게 어느 출판에서 출판한 건지 몇 년도에 한 건지 금액은 얼만지 여러 12:21 가지 부분들이 있잖아요 또는 뭐 페이스북이나 트위터 같은데 12:27 보면 뭐 그 소셜 쪽을 이용하시는 분들이 글을 제를 하지만 제만 하는게 12:34 아니라 그게 어느 날짜에 제를 했는지 그리고 좋아요는 몇 건인지 뭐 12:40 팔로우는 몇 건이나 있었는지 뭐 이런 것들 공유권 수는 몇 건인지 이런 것들이 다 있습니다 그래서 비정형 12:47 데이터 분석 하면은 일반적으로 소셜 네트워크 뭐 이런 거를 많이 생각하시는데 그 데이터 안에도 정형 12:53 데이터가 분명히 있더라는 거죠 그래서 저희가 오늘 하려고 하는이 텍스트 분석은 앞부분에 부는 정형 데이터 13:01 분석을 좀 해보고 뒤쪽에서 텍스트 분석으로 넘어갈 거예요 그래서 텍스트 13:06 마이닝 텍스트 분석 한다고 해서 꼭 정형만 하는 건 아닙니다 자 우선 텍스트 분석에 대한 개는 말 그대로 13:13 문장 속에서 의미 있는 단어를 찾아가지고 그거를 분석을 하려는게 주된 목적입니다 그 갖고 계시는 13:20 교재들은 같이 넘겨가면서 보시면 더 효율적일 거라고 생각이 들고요 필요하시면 거기에 또 표현을 13:26 해놓으시면 나중에 보시는데 좀 도움이 시지 않을까 생각을 합니다 자 그러면 다음 페이지로 13:35 좀겠습니다 오늘 저희가 그 서울시 여기 빅데이터 캠퍼스에서 보유하고 13:40 있는 데이터 중에 민원 사례 데이터라는게 있어요 데이터를 가지고 오늘 이제 13:48 3교시에 실질적으로 텍스트 분석을 어떻게 하는지 한번 직접 실습을 좀 13:54 해보도록 하겠습니다 일 근데 스는 어 하는지 14:00 제일 사실 궁금 것 같아요 텍스트 분석을 떠나서 정 데이터 분석이라는 14:06 거를 할 때는 저같은 경우는 마 마라는 용어를 쓰는데 째로 데이터가 14:13 주제가 정해지고 데이터가 있으면 탐색을 하고 탐색을 하본 다음에 14:19 데이터를 뒤져보니까 뭔가 결측치 나오고 이상도 나오고 이런 것들이 보이 그런것을 14:28 는을 정 핸들링할 수 있는 구조의 세팅이 딱 되면 그다음에 분석 주제에 14:33 맞는 분석 모형에 태워서 뭔가 알고자 하는 결과치를 돌출을 하죠 그 분석 14:40 모형이라는게 대부분 통계 분석이 될 수도 있고 머신러닝이나 닝이 될 수도 있는 거죠 그와 같은 이제 통계 분석 14:48 모형을 통한 다음에 최종적으로는 평가 단계로 넘어가서 시화를 통해서 14:53 전하는게 정형 데이터 분석 관점인데 비정형 데이터를 분석하는 관점 도 사실 비슷합니다 비슷한데 15:02 약간 정형 데이터 분석과 상해한 부분이 약간 있어서 렇게 좀 표를 좀 만들어 15:08 봤어요 제가 조금 전에 말씀드린 것처럼 비정형 데이터를 분석한다고 해서 항상 텍스트 문장만 있는게 15:15 아니라고 말씀드렸잖아요 정형 데이터가 같이 묶여 있습니다 그러다 보니까 비정형 데이터를 분석을 하려고 15:22 하더라도 데이터들 간의 상하 관계가 있거든요 15:27 고객 정리를 추구하는 법인은 가장 상단에 고객과 상품과 15:34 조직이라는 데이터 관점에서 데이터가 정기가 된답니다 근데 비정형 15:40 데이터라고 하는 저희가 아무것도 모르는 데이터 세을 받았다 하더라도 그 데이터 셋 안에는 뭔가 가장 15:46 상단에 존재하는 뭔가 데이터 구조 자체가 생기는 거죠 그래서 데이터를 15:52 분석하기 앞서서 데이터가 딱 생겼다 그러면 데이터들 간의 관계성을 좀 15:57 이해할 수 있는 하이라키 구조의 구조도를 한번 만드는게 16:02 필요합니다 왜이 구조도가 필요한지 뒷장에 저희가 사례를 할 때 한번 다시 한번 설명을 16:08 드릴게요 구조도를 이제 만들어 놓고 나면 데이터들 간에는 이런 이런 관계성이 있겠구나 이런 것들 일단 16:15 한눈에 일 파악을 하죠 자 그런 다음에 하는 일이 데이터를 이제 16:20 조화시켜서 이제 봤는데 데이터가 실질적으로 분석을 해 보려니까 이상도 16:26 나올 수도 있고 아니면 날짜 형태로 데이터가 돼 있어야 되는데 뭐 예를 16:31 들어서 숫자로 별 표현이 돼 있거나 안 맞는 규칙들이 정 종종 나타나고 16:37 하거든요 그와 같은 이제 안 맞는 규칙들을 좀 마치는 작업들 좀 해 줍니다 그럼 마치는 작업을 한 다음에 16:44 아 이제 비정형 데이터 분석을 시작해야지라고 딱 뛰어들려고 하는데 비정형 데이터만 있는게 아니라 정형 16:51 데이터도 있다 보니까 아 정형 데이터 관점에서 일단 기초적인 탐색을 해봐야 되겠구나 그래서 정형 데이터 관점에서 16:58 번 중에 탐색을 좀 합니다 자 요렇게 탐색이 되고 나면 정형 데이터와 17:04 비정형 데이터를 묶어서 이제 전개를 해야 되는데 비정형 데이터의 분석 방법에서 오늘 실습할 거를 또 위주로 17:11 간다 보면 첫 번째로 할 일이 뭐냐면 저희 한글이라는 데에서는 문법의 어떤 17:17 규칙성이 있다 보니까 일반적으로 아무 문자나 뽑을 수가 없어요 그래서 17:22 형태소 분석이라는 걸 합니다 그래서 문장에 대해서 아홉 가지의 품 17:29 22가지의 품사 유형으로 형태소 분석을 한 다음에 그 형태소 분석이 17:34 돼 있는 표현 기법을 가지고 어떤 단어들만 뽑을 건가를 또 먼저 17:41 추출하는 작업들을 해야 돼요 그 추출을 한 다음에 데이터를 추출로 17:47 끝나는게 아니라 분석을 하려면 비정형 데이터 막 산재돼 있는 데이터를 분석을 하려면 깔끔하게 표현을 해놔야 17:54 되거든요 그 깔끔하게 정리하는 작업들도 한번 해야 됩니다 그래서이 깔끔하게 정리된 작업이 18:01 이루어진 다음에 그때부터 데이터에 대해서 비정형 데이터에 대해서 핸들링을 하고 의미를 18:07 파악하는 작업을 한 다음에 최종적으로 시하나 평가로 넘어가는게 이게 비정형 18:14 데이터 분석 방법입니다 지금 갖고 계시는 교재의 앞부분에 보면 정형데이터 분석 18:20 방법론이라는 걸 제가 또 표현해게 있어요 부분도 나중에 혹시 18:26 참조하셔서 부분 을서 이렇게 보시게 되면 아 데이터 분석이라 저차는 이와 18:33 같은 단계를 가지고 하는 거구나 렇게 이해를 하시면 될 거 18:43 같습니다 자 그러면 저희가 본격적인 이제 데이터 조작 단계로 좀 18:50 들어왔는데요 첫 번째로 저희가 이거는 3회차때 제가 자세하게 설명드렸던 18:57 분인데 처음 오시는 분도 계실 것 같아서 요거 간단한 거 좀 실습도 좀 19:02 해 보겠습니다 해보는데 지금 제일 위에 3-1에 19:08 dplyr 패키지 이해 이렇게 써나 있어요 이게 뭔지를 지금 아직 19:14 모르시는 분들도 계실 것 같아서 제가 간단하게 좀 개념을 좀 설명을 드리겠습니다 아니 아니 이거 19:25 [음악] 아네 19:40 천가까 하지 20:10 와 20:32 판을 아 여기 칠판을 좀 봐주시면 될 거 같고요 저희가 지금 dpy 20:38 패키지를 이해하기 위해서요 지금 화면을 잠깐만 좀 봐주시고 제가 설명을 드리는 걸 듣고 이제 저거를 20:45 보시면 저희가 왜 이런 패키지라는 거를 배워야 되는지 이해를 하실 거라고 생각이 듭니다 자 여기 지금 20:52 사무실이 하나 있어요 사무실인데 굉장히 구조가 20:57 간단하죠 쪽에는 캐비닛이 있습니다 캐비닛에는 첫 번째 가장 상단에는 21:04 계약에 관련된 정보를 갖고 있는 캐비닛이 있고요 두 번째는 회계 정보 21:10 세 번째는 생상 정보로 이렇게 관련된 서류들을 보호하는 캐비닛이 있어요 자 21:15 그다음에 여기 책상이 있습니다 전화기가 있고요이 21:21 외부에 여기라는 영업 사원이라고 얘기를 21:26 할게요 영업사원이 21:32 고객 중에 고객 중에 홍길동이라는 21:40 고객에 전화번호가 갑자기 알고 싶은 거예요 그래서이라는 영업사원이 회사로 전화를 21:48 했습니다 그러면은 전화이 올리겠죠 자 올렸습니다 그 내부에 21:53 있던 직원이 가서 전화기를 받았어요 전기를 를 21:59 해보니까라는 영업사원이 홍길동이라는 사람의 전화로 좀 알려 주세요라고 얘기 한 거예요 자 그러니까이 내부 22:07 직원이 갔어요 그래서 첫 번째 계약 정보라는 캐비넷 제일 위에 거를 열어봤어요 22:15 열었더니요 22:21 안에는 이렇게 뭉퉁 거리로 황 아들이 막 꽂혀 있다라고 할게요 첫 번째는 22:29 고객 정보를 갖고 있는 하일도 있고요 그다음에 두 22:34 번째는 뭐 구매 내역이라는 정보를 갖고 있는 황일도 22:39 있을 거예요 뭐 그다음에 뭐 AS 접수 여러가지가 있었겠죠 그래서이 22:45 사람이 지금 홍동이 사람이 물어본게 고객의 전화번호요 그래서요 고객 정보에 대한 22:51 황화일 하나 뺐어요 가지고 다시 와서 여기다 상 22:59 어 펼쳐 놨습니다 자이 펼쳐놓는데 23:05 옆에는 이렇게 레이블이 붙어 있던 거예요 뭐라고 붙어 있냐면 뭐 기역니은 디근 이런 식으로 레이블이 23:13 붙어 있다고 할게요 그래서이 내부 직원이 길동이를 전화번호를 알려줘야 23:19 되니까 레이블이 붙어 있는 것으로 찾아간 거에 있는 거를 딱 23:26 펼치니까 정 나타나는데 고객 정보를 관리하는 23:36 항목이 첫 번째는 고객명 23:44 전화번호 주소 뭐 이런 식으로 이제제 출력물이 돼서 이렇게 확 표현이 돼 23:50 있다라고 할게요 어이 내부 직원이 홍길동의 전화번호를 홍길동이라는 23:57 고객의 이름을 찾아서 전화번호를 체크를 해가지고 수화기로 이제 안내를 해 준 거예요 자이 행위 24:05 자체를 보세요요 a 아는 사람이 자요 제가 24:10 지금이 그린이 사무실이 이거 뭐라고 표현하냐 요거를 데이터베이스라고 24:17 표현하면 되거든요 자 데이터베이스 24:22 안에서 뭐냐면 데이터베이스에 있는 정보를 핸들링을 하려면 24:30 이런 거를 들어보신 분들 당연히 있으실 텐데 SQL이라는 언어를 가지고 조작을 24:36 합니다이 SQL이라는 언어를 가지고 홍길동의 전화번호를 찾아 주세요라고 24:43 여기라는 영업사원이 요청을 하는 거예요이 퀘라 언어를 쓰기 위해서 24:50 기본적으로 쓰는 문법들이 있는데 자 셀렉트라 문법이 24:56 있습니다 찾아주세요 뭐 전화번호를 25:03 찾아주세요 요게 첫 번째로 이제 들어가고요 자 어디서부터 찾을 거냐 25:09 프럼 절이라는게 들어가요 요게 계약 25:15 정보에서 계약 정보 캐비닛 안에서 그 안에 있는 고객 25:22 정보에서 전화번호를 찾아 주세요 이렇게 요청을 합니다 자 그다음에 25:28 누구 거를 찾기 할 거냐 그게 외어리 거를 통해서 하는데요 25:35 고객 명이 홍길동이라는 사람의 정보를 찾아 25:41 주세요라고 이렇게라는 영업사원이요 문장을 날리는 거예요 이게 날라오면 사무실에 안돼 25:50 있는요 사람은 누구냐면 데이터베이스 단에서 표현하면요 사람은 백그라운드 25:55 프로세스라고 얘기를 합니다 요 백그라운드 프로세스가 밖에서 26:03 요청한 정보를 받고 어떤 정보를 찾아주면 26:08 되겠다라는이 A 아는 영업상의이 SQ 분석을 해서 구문 분석을 해서 26:15 여기까지가 가지고 필요한 정보를 뽑아 와서 메모리 상에다 일단 올려 놓고요 26:21 테이블이 메모리에 메모리 메모리상에 올려놓고 거기서 홍길동이라는 고객의 26:28 전압을 찾아 가지고 수화기를 통해서 안내해 주는 겁니다 자 그러면 요렇게 26:35 하는 것들을 SQL 아고 하는데이 SQL이라는 거는 데이터베이스 26:40 표준입니다 안시 SQL 아고 정확하게 얘기를 하거든요 데이터베이스에 관련해서 공인 26:46 공용 언어인데 정확한 용어는 안시 SQL 아고 쓰고 있고요 자 이거는 26:53 데이터베이스에서 쓰는 데이터를 조작하게 언어입니다 근데 에서도 26:59 아래도 이렇게 조작하는 SQL 같은 명령문이 있어요 이게 dpy 아이라는 27:07 겁니다 자 이거를 알아야에서 데이터를 불러 27:14 가지고 필요한 정보를 찾거나 아니면 걸러내거나 이런 조작들을 할 수가 27:20 있거든요 그래서 기본적으로 아에서 쓰는 SQL dprl 대해서 요거를 27:27 숙 게 다루실 줄 알아야 앞으로 새로운 분석을 하고 뭘 하더라도 효과적으로 진행을 할 수가 27:34 있어서 기본적으로 꼭 아셔야 되는 문법들 몇 가지만 좀 정리를 해 27:40 놨습니다 요거를 우선 실습으로 좀 해 볼게요 참고로요 자료는 앞부분에 갖고 27:46 계시는 선생님들 갖고 계시는 자료에 앞부분에 보면 정형 데이터 분석에 요거 좀 더 자세하게 한 줄 한 줄씩 27:53 표현하는 내용들이 있습니다 나중에 혼자 따라하시기 할 때는 그거를 참조해서 보시면 될 거 같고요 저희가 28:01 오늘 할 거는요 부분에 대해서 자세하게는 못 하고요 부분에 대해서 하만 일단 우측의 활용 예시라고 돼 28:08 있는 것들 위주로 어떤 기법으로 쓰는 건지에 대한 이해 정도를 하고 넘어가도록 28:13 하겠습니다 자 그러면 첫 28:18 번째로 dpy 아는 거를 쓰려면이 DPR yr이라는이 28:25 패키지를 불러와야 되거든요 이 불러 온다라는게 무슨 28:32 말씀이냐 저희가 컴퓨터에서 파워포인트를 쓰려면 오피스를 깔아야 되잖아요 자 오피스를 28:40 깔았다고 해서 바로 수쓰 거 아니잖아요 시장 메뉴 누르고 해가지고 파워포인트라는 메뉴를 눌러야지 실행이 28:47 될 거 아닙니까 아래 데이터를 분석을 28:52 하려면 아에서 쓰는 SQL 저 dpri 걸 설치 사실 해야 돼요 28:59 설치를 한 다음에 얘를 실행을 시켜 줘야 되는데 그 실행시키는 명령이 29:05 지금 앞에 화면에 보시는 라이브러리라는 저 명령 문입니다 그 29:11 인스톨은 어떻게 하느냐 설치는 어떻게 하느냐 지금 선생님들 앉아 계시는 29:17 자리에는 이게 지금 다 사실 설치가 돼 있어요 근데 설치하는 명령문은 29:28 지금 제가 인스만 썼는데 여기 지금 패키지 이렇게 29:34 나오잖아요요 상태에서 설치를 하는 29:40 거예요 요런 식으로 해가지고 즉 2번 명령문을 쳐서 먼저 29:46 설치를 하고 4번 줄에 있는 라이브러 해가지고 얘를 메모리 올리는 작업을 해야 됩니다 근데 한번 설치돼 있으면 29:53 우 굳이 재설치할 필요가 없잖아요 그래서지 는 리에 2번은 지금 돼 29:59 있는 겁니다 그러면 4번만 해주시면 돼요 자 4번 라이브러리 해가지고 30:06 dyr 해가지고 저렇게 하신 다음에 30:11 커서가 4번요 항목에 있는 상태에서 껌뻑이는 상태에서 컨트롤 엔터를 30:18 누르시면 이게 밑으로 실행이 됩니다 혹시 지금 저하고 화면이 좀다 30:23 수 있는 분들 시는데 저는 위에글 는 에디터 창이 있고 밑에는 30:30 지금 보여주는 콘솔 창인데요요 윗부분이 안 보이시는 분들은요 시작 메뉴를 누른 30:37 다음에 뉴 파일 그다음에 여기 30:42 스크립트라는 렇게 에디트 창이 하나 생깁니다 자 이렇게 제가 누르니까 30:48 여기 하나 또 비게 이렇게 생긴 거예요 여기서 치시면 30:54 돼요 자 그래서 4번 러 해놓고 가로 열고 DPR yr이라고 치신 다음에 31:03 괄로 닫고 컨트롤 엔터를 누르셔도 되고요 아니면 4번을 그냥 이렇게 31:08 반전시키는 다음에 우측에 상단에 상단 정 31:14 가운데쯤에 런이라는 명령문이 있습니다 이게 버튼이 있어요 얘를 누르셔도 31:23 됩니다 아 dplr 있니다 IR 제가 지금 그럼 여기 잘못 표현한 거고요 31:30 dplyr 있니다 자 요렇게 하면 밑에 컨솔 31:37 창에 요렇게 다음 거세로 이렇게 떨어지면 31:43 이게 정상적으로 처리가 된 31:50 상황입니다 자요 상태까지 된 상태에서 저희가 아래 31:56 쓰는인 DP 을 한번 실습을 좀 해보도록 32:05 하겠습니다 자 첫 번째로 셀렉트 셀렉트 교재랑 같이 보시면서 하셔도 32:12 되고요 아니면 칠판을 보시고 그 화면을 앞단에 프로젝트 화면을 보시고 32:19 하셔도 됩니다 자 첫 번째로 셀데 저 셀렉트는 방금전에 제가 안이라고 32:26 데이터베이스 하고 표현했던 설명드렸던 부분에서 어떤 항목을 갖고 올 거냐 이런 거를 이제 하는 32:33 부분이죠 저희가 활용할 데이터는 iris 아는 데이터입니다 자 32:39 iris 아는 데이터가 뭔지 한번 잠깐 보고 32:48 넘어갈게요 자 헤드 해놓고 가로 열고 iris 이렇게 하고 괄로 닫으신 32:54 다음에 컨트롤 역시 엔터를 치시면 33:00 자 밑에 콘솔창에 데이터 몇 건만 지금 보여줍니다 자 이거 33:07 보시면 지금 세팔 랭스는 항목으로 명칭으로 해서 데이터가 지금 5.1 33:14 4.9 뭐 이렇게 지금 밑으로 좀 나오고 있고요 세팔 위스 해가지고 또 데이터가 나오고 있고 페팔 랭스 33:21 페리스 스페시스 런 식으로 데이터가 보이고 있어요 자이 irs 데이터는 33:27 이렇게 아시는 분도 아실 텐데 이게 뭐 붓꽃과 관련된 데이터라고 합니다 33:33 붓꽃과 관련된 데이터인데 꽃잎과 꽃받침에 대한 정보를 갖고 있는 33:39 데이터 붓꽃의 종류는 세 종류의 붓꽃을 분해서 여기 지금 데이터가 33:45 구성이 돼 있습니다 자이 irs 데이터를 가지고 저희가 먼저 아에서 33:52 쓰는 SQL 먼저 조작을 할건데요 첫번째로 irs 33:58 두 개의 항을 좀 갖고려고 해요 자 그거부터 34:13 해보겠습니다 제가 8번 라인에 지금 irs 해놓고 퍼센트 세 퍼센트 34:19 기호를 중간에 넣고요 그다음에 셀렉트는 문구로 34:25 넣습니다 자 그 상태에서 문장을 다 치신 다음에 컨트롤 엔터를 치면 지금 34:31 150건의 데이터가 기본적으로 이렇게 나타납니다 자 이거에 대해서 좀 34:37 설명을 34:45 드리면 자 irs 데이터셋에서 쉽게 말하면 여기 지금 34:51 화이트보드 관점에서 보면 계약정보 같은 캐비넷이에요 자 IR 라는 34:58 데이터셋에서 퍼센트 세 퍼센트는 부분하고 뒷부분의 데이터를 연결하기 35:04 위한 연결 기후예요 그러니까 퍼센트 세 퍼센트는 irs 데이터로부터 35:11 뭔가를 처리해 줘라는 연결자 보시면 됩니다 자 그래서 퍼센트 세 퍼센트 35:17 자로부터 데이터를 셀렉트 갖고 와죠 근데 뭘 갖고 올 거냐 세판 스라는 35:25 거하고 테스라는 두 항목을 갖고 갖고 온 거만 한 겁니다 그러니까 35:31 요거만 취했기 때문에 irs 데이터에서 갖고 있는 모든 수들이 다 35:39 나오는 거죠 단 항목은 세수와 페수 두 개만 항목으로 해서 모든 데이터 35:45 다 뿌려지는 행위를 취한 겁니다 자 요렇게 하나의 셀렉트는 함수만 이런 거 35:53 함수라고 하는데요 함수라는 행위만 취했다 해서 이렇게 어쨌든 결과치를 일단 확인을 36:00 하나 한 겁니다 자 36:06 그다음에 자 셀렉트를 했으니까 요번에는 좀 필터를 해서 좀 저희가 36:11 엑셀이나 이런 거의 필터 기능 있잖아요 걔하고 똑같은 개념입니다 자 필터를 해가지고 특정한 항목에 있는 36:19 조건에 특정한 조건에 만족하는 거만 갖고 올려고 해요 그게 이제 필터라는 36:25 건데요 자제가 9번 다시 한번 여기서 쳐 36:47 보겠습니다 자 제가 10번 라인에 여기 지금 자 irs 데이터로 부어 36:54 필터 해가지고 아까는 제가 이제 안시에서 어라고 표현을 했는데 아래는 필터라는 37:02 명령이 웨어고 똑같은 명령입니다 그래서 필터 해 가지고이 스페시스 37:10 항목이 세토사 것만 먼저 정의를 먼저 걸렀어요 자 37:16 아에서 어떤 거하고 같은 거를 찾아와줘 하고 연결을 할 때는 부모 37:21 조건에 해당되는 걸 할 때 이렇게 모 표시 두 개를 쓰거든요 그래서 자 37:27 irs 아는 데이터로부터 스페시스 세토 사인 거를 먼저 걸렀습니다 걸른 다음에이 헤드라 37:36 건 사실 뭐냐면 데이터가 전체가 많으니까 다 한 번에 보기에는 37:41 그렇거든요 그래서 헤드 해 놓고 여기 숫자를 두면 해당 건수만 보여 주는 37:46 거예요 그래서 일부만 좀 보기 위해서 헤드 해 놓고 괄로고 여섯 시라고 준겁니다 37:53 자 방금 전에 위에서는 저희가 셀렉트라 항목을 정의를 한 거죠 37:58 자 그다음에 요번에는 필터라는 걸 가지고 조건을 또 걸었어요 자요 두 38:04 가지를 한번 묶어서 한번 해 볼까요 그러면은 조금 더 데이터를 조작하는데 38:10 의미 있는 것처럼 보일 거 같아서 두 개를 한번 살짝 묶어 볼게요 38:49 자 지금 제가 지금 라인하고 라인을 한번 38:55 묶었어요 자 irs 데이터로 39:01 붙어 먼저 필터를 했습니다 스페이스가 세토가 먼저 39:07 걸어요 걸 다음에 그다음에 보여줄 건데 다 39:12 보여주지 말고 두 개의 항목만 보여줘 렇게 하고 맨 뒤에 퍼 세 퍼 한 39:19 다음에 그냥 헤드라고 줬어요 번에 6을 안줬어요 디폴트로 나오는 수가 39:26 개입니다 수만 이렇게 보이는 거죠 아래에서 쓰는요 명령들이 지금 저희가 39:33 좀 아직 더 해봐야지만 되는데 요런 셀렉트 필터 뭐 헤드 이런 것들이 39:40 중간중간에 퍼센트 세 퍼센트로 계속 연제를 해주면 연결자가 됩니다 그래서 명령들이 계속 이어져서 진행이 될 39:47 수가 있어요 요런 흐름을 가지고 데이터를 조작을 하는 39:52 겁니다 이거는 정형 데이터 조작만 아니라 비정형 데이터를 할 때도 이런 조작을 써 야 돼 저희가 마지막 39:59 수업의 단계에 비 민원 사례 데이터 분석을 해 보실 때 반드시 쓰시게 40:04 되니까 일단은 좀 더 연습을 좀 해보도록 하겠습니다 자 필터가 40:11 됐고요 자 필터가 됐으면 요번에는 세 번째 뮤트라는 40:18 함수입니다이 뮤트라는 거는 저희가 지금 irs 아는 데이터에는 40:23 기본적으로 다섯 개의 항목으로만 구성되 있는 여기에 새로운 항목을 또 추구하고 40:29 싶을 때도 있을 거예요 그런 거 쓸 때 뮤테라는 함수를 씁니다 자 그래서 40:35 뮤테이트 한 걸 제가 한번 쳐보도록 할게요 41:11 자 지금 제가 1라인을 지금 쳤는데요 자 한번 똑같이 또 한번 41:17 설명을 한번 드리고가 볼게요 자 필터까지 방금 전에 했던 41:23 거하고 똑같으니까 이제 어려움 없이 이제 갈 거라고 보고 있고요 자 뮤트라는 함수를 41:29 태우면요 뮤티 안에 있는 어떤 연산 처리가 이루어진 다음에이 처리된 41:36 결과가 기존에 있는 데이터 항목에 추가가 됩니다 자 그래서 41:42 실질적으로 제가 지금 원하는 즉 우리가 일반적으로 쓰는 데이터를 41:48 핸들링을 할 때 정형 데이터를 핸들링할 때 많이 쓰는 함수가 있어요 평균 구하는 거 최소값 구하는 거 41:55 최댓값 구하는 거 중앙이라는 것도 구할 수도 있고 뭐 런 것들 많이 쓰잖아요 카운터를 해본다든지 자 그런 42:03 함수 중에 하나입니다 산술 평균을 구하는 함수인 민 함수를 써 가지고요 세 스라는 거의 평균을 한번 42:11 구해 줘 한 거예요 자 구한 다음에 걔를 42:16 세스 민이라는 변수 항목으로 항목으로 여기 같이 기존에 있는 데이터에 42:22 추가해서 표현해 줘요 명령을 때린 겁니다 라는 함수입니다 많이 쓰셔야 42:30 돼요 계속 이쪽을 업무를 특게 하시려면요 dprl 너무너무 익숙할 42:37 정도로 정말 눈 감고 치실 수 있을 정도로 많은 연습이 필요합니다 왜냐면 좀 있따 보시겠지만 42:45 누차 말씀드리지만 데이터 분석이라는 걸 하려면 사실 전처리에 대한 장계가 42:50 굉장히 중요합니다 전처리의 과정이 전체에 한 50% 이상은 전 42:55 처리하는데 다 투자를 해요 그래서 전처리를 잘하려면이 DPR 43:01 yr 같은이 패키지 능숙하게 쓰셔야 되거든요 또 DPR yr이 아니라 43:07 데이터베이스 단에서 전처리를 할 수도 있습니다 그럴 때는 저는 안시 SQL 43:12 제가 칠판에다 썼던 저런 문법들을 통해서 데이터 전처리 해야 됩니다 자 43:17 근데 일단 어찌됐든 R 관점에서 SQL dplyr 능숙함을 다루기 43:24 위해서 또 이제 지금 티라는 걸 해봤고 자 그룹이라는 거하고 머라이 함수를 43:30 묶어서 한번 간단하게 해보겠습니다 자 그룹이라는 거 43:36 라이즈는 건데요 저희가 요거 먼저 한번한번 짚고 43:43 넘어갈게요 데이터를 저희가 몇 건이 있는지 알고 싶다 할 때는 카운터를 43:48 하잖아요 근데 전체 데이터에 대해서 몇 건이 있는지 그 전체를 하나의 43:54 그룹으로 잡은 거예요 에 대해서 몇 건이 있느냐 하는 건 전체를 그룹으로 44:00 잡은 거고요 특정한 항목 예를 들어서 뭐 여기 상한 고등학교가 있다고 할 44:06 때 1학년 몇 명에 있느니 2학년 몇 명에 있는지 3학년 몇 명에 있는지 44:13 이런 거를 알려면 학년이라 거를 룹으로 먼저 잡아주고 건수를 세야 되거든요 전체를 셀 때는 그냥 전체가 44:21 통이 때문에 카운터를 세면 돼요 근데 학년별로 몇 명씩 있는지를 알려면 44:27 학년이라 거를 그룹으로 항목으로 잡아 줘야 돼요 자 그래서 저희가 지금 그룹 바이라는 거하고 서머라이즈 44:33 묶어서 할 건데 자 어떻게 쓰는지 한번 보고 다시 설명을 드릴게요 44:57 아 지금 교재에 오타가 좀 45:07 있습니다 지금 교재에 지금요 서머라이즈 아고 표현되 있는요 45:13 부분에 민하고 가로 열고 세팔 랭스 렇게 돼 있어야 되는데 그 교재에 45:19 지금 오타가 좀 있네요 민 이꼴로 돼 있는데요 그게 이코가 아니고 가입니다 45:25 그거 좀 참조해 주시고 요런 오타 부분이 정형 데이터 분석 그쪽에 가시면 거기에는 오타가 없어요 45:32 그니까 개별적으로 이렇게 나열돼 있는 자료를 보시면 거기에는 오타가 없으니까 그거 보시면서 따라하시면 45:39 되고요 지금 앞 지금 교재 보시는 거는 그 45:45 집게 집 대성에서 좀 이렇게 리스터 시킨 거기 때문에 고기에 좀 오타가 45:50 있는 거고요 자 서머라이즈 하고 로바이 좀 보겠습니다 45:57 자 irs 아는 데이터 세에는 스페시스 세 가지 종류가 46:02 있어요 자 스페시스 항목에는 세토사 버디칼 비그이 세 개의 항목들이 46:10 있는데요 각각에이 스페시스 안에 있는 데이터 각 각각에 46:16 대해서 세팔 랭스는 항목에 평균을 구해 봐라고 쓴 겁니다 자 46:22 그래서 상암고등학교 1학년 2학년 3학년 학생들이 몇 명 있는지를 알기 46:28 위해서 학년이라 거를 룹으로 잡은 거예요 쉽게 말하면 irs 데이터에서 46:35 스페시스 거에는 세 개의 항목으로 돼 있는데 값들이 그럼 스페시스 안에 46:40 있는 항목으로 그룹을 잡아 줘 렇게 정의를 한 겁니다 먼저 그런 다음에 46:46 룹 바이라는 거 쓸 때 항상 같이 쫓아다니는 명령문이 있어요 함수가 그게 선라이즈라군컨트리클럽 46:57 그래서 자 스페시스 항목으로 여기에 있는 스페시스 모든 값들 기준으로 47:03 그룹을 잡고 그 각 그룹에 해당되는 세팔 랭스 값에 대해서 평균을 47:09 계산해서 보여 줘라고 명령을 때린 겁니다 그렇게 했더니 여기 스페시스 47:16 세토사 5.02 버지 칼라는 5.94 비그 47:21 니카는 6.59 이렇게 값이 나온 겁니다 자 그룹이라는 함수를 굉장히 47:27 자주 씁니다 반드시 아셔야 되고요 뒤쪽에서도 또 실습을 좀 연습을 이와 47:34 같은 패턴으로 돼 있는 거를 해볼 거기 때문에 뒤에 가서 또 한번 47:42 해보겠습니다 자 데이터를 우리가 이제 서머라이즈 해봤고요 자 데이터를 지금 보여주는 47:49 방식에 대해서 정렬을 하고 싶을 때가 있어요 데이터를 작은 값부터 큰 47:55 값으로 어센딩 하게 보여 줄 건지 아니면 큰 값을 가장 위에 보여주고 작은 값으로 48:02 밑으로 떨어뜨리면서 작게 보여줄 건지 그래서 어센딩 디센딩 관점으로 데이터를 정렬해서 보여 주고 싶을 48:08 때가 있거든요 그때 쓰는 명령이 렌지입니다 자 그래서 렌지라이프가 48:23 [음악] 48:47 자 지금 제가 15 라인에 요기 지금 서머라이즈 명칭을 받는 변수를 하나게 48:54 중간에 삽입을 좀 했고요 자 그다음에 49:01 렌지라이프가 49:10 데이터가 민 점 vl 값이 가장 작은 거에 해당되는 5.01 표현되고 49:17 5.94 나오고 6.59 나온 거예요 자 어센딩 정렬이 된 겁니다 요거를 49:24 디센딩 좀 정렬하고 싶을 때 지라는이 명령 안에 DC 49:31 해가지고 한번 값을 좀 씌워 49:37 주시면 자 데이터의 표현 자체가 바뀌어서 나타나게 49:43 됩니다 자 요렇게 데이터를 정렬을 해서 보여주거나 49:50 조작을 할 경우가 많이 생깁니다 50:00 지금 저희가 그룹바이 서머라이즈 어렌지 요렇게 세 개의 함수만 묶어서 표현을 50:07 했지만 방금 전에 저희가 셀렉트 해 봤고 필터라는 명령문 봤고 뮤트라는 50:14 명령도 해 봤는데 이와 같은 것들을 계속 뒤에다 붙여서 50:22 명령문들의 아래에서 쓰는 SQL dplyr이라는이 패키지의 굉장히 50:29 파워풀한 장점입니다 50:35 자 15라인 한번 요렇게 보셨을 것 같고요 자 그다음에 어렌지 뒤에 있는 50:42 디스트라 요거 한번 좀 해보겠습니다 요거는 유일한 값들이 뭐뭐가 있는지 50:48 확인할 때 즉 유니크하게 값을 뽑아내기 위해서 쓰는 함수입니다 자 제가 먼저 해 50:54 보겠습니다 51:03 자 제가 지금 117 라인에 자 irs 51:09 데이터로부터 스페시스 아는 항목을 유니크하게 표현해서 보여 줘 51:14 봐라고 쓴 겁니다 그랬더니 스페시스 항목에서 관리하는 51:20 세토사 버지 컬라 비그 이카의 세 개의 항목들만 딱 명칭이 보여 되는 거죠 51:28 저희가 지금 방금 전에 뭐 셀렉트 필터 이런 거 했던 거 여기 앞에 다 묶어서 연습해 볼 수도 있어요 예를 51:35 든다면 이런 51:47 거죠 자 지금 제가 먼저 여기 지금 중간에 셀렉트를 삽입을 해 본 거예요 51:53 자 irs 데이터로부터요 항목만 먼저 갖고 와 갖고 온 다음에고 항목에 대해서 52:00 디스트 해 줘 이렇게 한 거예요 여기에 또 필요에 따라서 52:06 필터도 한번 넣어 52:22 볼까요 자 요번에는 필터도 셀렉트 뒤에 한번 붙여봤어요 52:33 자로부터 스페시스 갖고 와 그다음에 스페시스 갖고 왔는데 그 중에서 세토 52:40 선거만 또 한번 걸러 봐 그다음에 세토사 걸었으니까 스시를 52:46 디트 하게 되면 세토사 나오겠죠 근데 여기서 중요한게 있어요 보세요 52:57 제가 만약에 여기 지금 셀렉트 스페시스 man 했어요 그다음에 여기 53:04 필터에 예를 들어서 세팔 랭스 한번 보여 보여 드릴게요 53:30 자 지금 19라인 한번 봐주세요 그리고 밑에 빨간색으로 표현되는 거 나오시 거 보면 53:37 됩니다 자 제가 지금 19 라인의 명령을 때렸는데 여기 지금 세스가 53:43 없다라고 딱 메시지가 떴어요 자 53:48 보세요로부터 스페시스 셀렉트를 했잖아요 근데 53:55 거기에까지만 취한 거는 스 스페시스 밖에 없는 거예요 근데 거기에 필터를 54:02 해 가지고 세파 랭스가 7.0 다 큰 거만 찾아 줘라고 했어요요 행위 자체에서 만들어진 54:09 데이터는 스페시스요 항목만 있는 거예요 없는 항목을 찾아 줘라고 54:14 조건을 걸어 버리니까 에라가 나온 거거든요 자 제가 왜요 말씀을 54:19 드리냐면 여기 계신 선생님들 중에 안시 SQL 다르신 분들도 분명히 54:24 있으실 거예요 안시은이 표준이 있습니다 규칙이 54:29 있어요 셀렉트 프롬웨어 그룹바이 해빙 오더바이 절차를 가지고 처리를 해야 54:35 되는데 아래 사용하는 이은 논리적으로만 맞으면 54:43 돼요 자 여기 지금 필터를 54:48 필터를요 셀렉트 쪽으로면 논리적으로 의미가거든요 54:55 근셀 있어버리면 논리적으로 안 맞는 거예요 아에서 쓰는이 dpy라는이 55:02 SQ 논리적으로 흐름이 맞으면 얼마든지 데이터 가공을 하는게 좋다라는 거예요 그래서요 부분이 55:09 굉장히 장점입니다 그래서요 명령 문들을 꼭 아셔야 55:18 됩니다 자 그다음에 세 가지인데요 트윈이라 55:23 거하고로 언더바 넘버라 거하고 하고 가로열고 가로 고가 있어요 우선 55:30 비트부터 좀 해보겠습니다 인이라는 거는 우리 영어 문법에 비 a b 뭐 이러잖아요 55:37 그거하고 똑같은 거예요 비트윈이 들어감과 동시에 어디서부터 어디 사이에 있는 거만 55:44 찾기 위한 겁니다 그러면 비라는게 들어가면 어디 문장에 많이 들어갈 것 55:49 같으냐 필터라는 조건에 많이 들어가겠죠 어떤 거를 걸러서 뽑을 때 55:56 자 그때 쓰는게 비트인 있데 비트윈에 대한 것도 한번 한번 쳐보고 넘어가겠습니다 56:26 자 제가 지금 21 라인을 한번 쳤는데요 비트라 함수는 쓰는 법은 56:34 요렇습니다이 dyr이는이 안에서 쓸 수 있는 여러가지 조작 함수들은 규칙이 전부 56:42 명칭 다음에 가로 열고 가로 다고해요 규칙들이 그래서 필터도 56:48 그렇고 필하고 가로 열고 가로가 끝나잖아요 셀렉트고로 모든게 그래요 그고 에서는 56:57 데이터 연결자가 세라 거 말씀드렸고 자 비도 똑같습니다 비도 가로열고 57:05 가로 고로 하는데 얘는 첫 번째로서 괄로 열고 했을 때 첫 번째로 어떤 57:10 항목 그다음에 마 데이터값 프롬에 해당되는가 마에 57:18 해당되는 요렇게만 쓰면 지금제가 쓴이 57:25 2라인을으로면 랭스가 5.5 6.5 사이에 있는 거 요렇게 정의가 되는 57:30 겁니다 자 요때 그 조건에 만족되는 데이터만 보여줄게 비트인이라면 요거는 57:37 벡터 함수라고 얘기를 하는데요 저희가 수학에서 행 벡터 열 벡터 막 이런 용의를 57:44 씁니다 쭉 항목으로 쭉 있는 거 이게 이게 어떻게 보면 열 벡터 이게 57:49 수학으로 하면 자 요렇게 옆으로 한 줄 쫙 있는 거 네코드요 한 레코드를 행 벡터라고 용어를 씁니다 57:56 아에서는 행벡터 열벡터 구분 없이 그냥 벡터라는 용어를 써요 그래서이 58:02 세팔 스라는이 세 스라는이 벡터의 값들이 5.5 6.5에 해당되는 58:09 것들만 뽑아 줘라고 한 거예요게 지금 2라인의 58:17 명령입니다 자 그다음에로 언더바라는게 58:23 있는데요요 함수는 굉장히 좀 기능이 이 굉장히 파워풀합니다 58:28 데이터베이스 쓰는 명령문을 가지고 요거를 표현하기가 굉장히 어렵거든요 58:34 근데 아래는 요거 쉽게 할 수 있는 명령문이 여기 있습니다 뭔지 한번 볼게요 59:16 아자 제가 지금 59:35 우선 23 라인에 지금 명령을 실행을 했습니다 자 23 라인에 아까 저희 59:41 뮤트라는 함수가 있다라고 얘기를 했어요 기존에 있는 데이터셋의 항목을 추가하는 겁니다 자 뮤티 했는데 저로 59:49 언더바 넘버라게 뭐냐면 원래 있는 데이터에 요렇게 순번으로 번호를 먹기는 거예요 59:57 데이터를 번호를 먹길 때 지금 현재 있는 구조 그대로 번호를 먹긴 거거든요요 1:00:03 전에요 뮤티 하고로 넘버를 붙이기 전에 어레인지 해가지고 데이터를 1:00:09 정렬할 수 있죠 정렬한 다음에로 넘버 붙이면 또 그걸 기준으로 만들어지겠죠 1:00:14 숫자들이 그런 식으로로 넘버는 번호를 붙이는 건데요 저 2라인을 좀 1:00:22 봐주세요 자 전체 데이터에 대해서 1 2 3 4 숫자 붙이는 는 쉬워요 1:00:28 근데 특정한 항목에 대해서 그룹을 정하고 그 항목에 있는 들마다 번호를 1:00:34 매기고 싶을 때가 있어요 그럴 때 쓰는게 이제 제가 24라인 간단하게 1:00:39 좀 해본 건데요 24라인 결과치가 어떤지 한번 보고 말씀을 1:00:50 드리겠습니다 자 한번 명령문을 한번 해석을 좀 해보고 할게요 1:00:56 자 irs 아는 데이터로부터 그룹을 잡는데 스페시스 가지고 그룹을 잡았어요 그러면 1:01:02 스페시스 세토사 버지 칼라 비니까 세 개입니다 자 세 개의 항목들 가지고 1:01:08 그룹을 할 건데요 스페시스 별로 숫자들을 부여해죠 1 2 3 4 1:01:13 순번을 부여해 줘 한 거예요 그런 다음에 필터를 1:01:20 했어요 숫자가 번호 부여한 것 중에 숫자가 4보다 적은 것만 보여줘 1:01:26 저희가 이런 기법 많이 쓰잖아요 상품별로 상위 3위까지 상품 종별로 1:01:34 3위 3위까지 상위 3위까지의 매출액이 얼마지 갖고 와봐 뭐 이런 게할 때 1:01:40 있잖아요 그다음에 뭐 학교로 따지만 각 단별로 3등까지 하는 애들 1:01:45 1등부터 3등까지 애들 이름만 뽑아와 뭐 이런 거 할 때 많잖아요 그럴 때 런 기법 써보면 되겠죠 뭐 성적 1:01:53 가지고 중간에 어렌지 해가지고 하면 될 거고요 요런 식으로 데이터를 조작하는 1:01:59 거예요 그래서 아까도 말씀드렸지만 비정형 데이터도 1:02:06 어찌됐든 문장으로 쫙 돼 있지만 이거를 문장으로 분석하는게 아니거든요 1:02:11 요거를 깔끔하 패디화일 정렬화 시키는 작업들 해 1:02:18 줘야 돼요 그런 다음에 분석이 들어가거든요 역시 정형 데이터가 1:02:24 비정의 데이터가 분석의 포인트는 깔끔하게 정리돼 있는 형태에서 분석이 시작이 됩니다 그 전처리 과정이 1:02:31 그것까지 가기 위한 전처리 과정에서 형태소 분석이라는 걸 하고 문장에 대해서 필요한 것들만 뽑아내는 작업들 1:02:37 하는 겁니다 자 어쨌든 요거는 잘 쓰셔야 되기 때문에 자 요걸 한 거고요 마지막으로 하고 가고 가로 1:02:45 닫고가 있는데 그거는 카운터입니다 카운트 저희가 특정한게 몇 건이 1:02:50 있는지 세보자 할 때 쓰는게 1:02:55 dpy 아라는 패키지 쓰는 카운터 함수입니다 자 그거를 한번 해보도록 1:03:01 하겠습니다 1:03:26 자 제가 26 라인에 자 irs 아는 데이터를 1:03:32 가지고 자 그룹 바이를 스페시스 했습니다 자 그룹 바이를 스시로 해서 1:03:38 그룹 바이에 있는 스페시스 있는 개별적인 항목들 별로 카운터를 한번 해 봐라고 한 거예요 그래서 카운터를 1:03:45 할 때는 N 하고 가고 가로다고 함수를 쓰면 카운터의 의미로 먹힌다 이렇게만 기억을 하시면 됩니다 1:03:56 예 일단은 한 장을 하는데 좀 시간을 투자를 많이 1:04:02 했는데요요 DPR yr이 가장 데이터를 조작의 핵심이기 때문에 요거는 일부러 하나씩 하나씩 다 해 1:04:08 본 겁니다 사시 이거 제대로 하려면 한 세네시간 잡아야 돼요 근데 정말 1:04:15 이거 기능 말고도 다른 기능들이 또 있습니다 있는데 우선요 정도만 일단 1:04:21 아시고 나중에 더 확장해서 보시는 분들은 뭐 네이버 블로그든 아니면 1:04:27 다음 이라든지 아니면 유튜브 이런데를 활용하셔서 또 함수들을 찾으시면 상당히 더 유용하게 쓰 수 1:04:33 있는게 있데 여기 지금 제가 정리해서 표현한 자료는 기본적으로 꼭 아셔야 되는 1:04:38 것만 먼저 표현을 한 거고요 자 그다음 페이지로 이제 좀 1:04:44 넘어가겠습니다 자 그다음 페이지는 이제는 시각화입니다 시각화 데이터를 분석을 하려면이 1:04:51 결과에 대해서 나중에 고를 한다거나 아니면은 뭐 1:04:57 커뮤니케이션을 하기 위해서 그래도 가장 중요한게 시각화 기법이 그든이 시각화 방법이 지금 선생님들이 1:05:04 갖고 계신 페이지 번호로 하면 40페이지 41페이지 이렇게 돼 1:05:10 있어요 근데 이것들을 개별적으로 다 한번 해봤으면 좋겠는데 그러려면 1:05:16 저희가 다 할 수가 없습니다 수업을 그래서 대신요 지금 40페이지 1:05:23 41페이지 있는 내용들이 앞부분에 하나씩 쫓아 하시면 그대로 다 나올 수 있게 있습니다이 1:05:30 교재에 그러니까 중요한 패키지에 대해서 시각화에 대해서 중요한 것들만 설명드리고 몇 가지만 실습을 해 1:05:37 보면서 시각화가 어떤 거라는 거를 보여 드리고 그 다음으로 1:05:43 넘어가서 저희가 비정형 데이터를 분석하기 위해서 꼭 알아야 할 정규식이 거하고 스트링 아이라는 1:05:50 패키지를 배워보도록 하겠습니다 자 우선 1:06:04 자 저희가 이용할 패키지는 지지플 2라는 패키지예요 1:06:11 아래는에는 물론 R뿐만 아니라 파이썬도 마찬가지고 파이썬에서 R 호출해서 쓰기도 하고 그다음에 뭐 1:06:19 파이썬에서 텐스 플로 블록이 하고 막 많은 라이브러리 충해 쓰는데 알도 굉장히 많은 라이브러리가 있어요 1:06:26 패키지들이 그중에 시각화하고 관련해서 좀 익히 많으신 분들이 쓰는 1:06:32 패키지가이지지 플러 2라는 패키지입니다 자 이거를 쓸 때 기본적으로 항상 항상 써야 되는 1:06:40 기본적인 신택스 문구가 있습니다 그게지지 플이라요 문구예요 자 요거 1:06:47 다음에 as요 문구가 꼭 항상 거의 들어가야 돼요요라는게 뭐냐면 영어로 제가 영어 1:06:54 발음 안 좋치 이해하시고 들어주세요 이게 어가 그게 약자입니다 미적인 1:07:00 이런 내입니다 그래서 그거의 약어로서 AS 이렇게 쓰고요요 AS 안에는 1:07:08 어떤 파라미터 어떤 값들을 설정할 수 있냐면 x 축에 들어갈 항목은 어떤 수고 y 축에 들어갈 항목은 어떤 1:07:15 변수인지 그다음에 필이나 컬러 이렇게 써가지고 색상은 뭐로 잡아줄 건지 1:07:24 그다음에 그림을 그리고 난 뒤에 거기에다가 텍스트로 글자를 좀 표현하고 싶을 때 레이블을 뭐를 쓸 1:07:31 건지 요런 것들을 좀 정의를 하는 부분이에요 그래서이 asi 에다는 1:07:36 요런 값들을 설정을 합니다 자 여기 보시면 GG 플러 가로 열고 항상 1:07:43 써야 됩니다 이때 시각 때는 그리고 괄로 열고 자 AS 이렇게 꼭 써야 1:07:49 돼요 저 그 대표적인 사례가요 밑에 있습니다 자 보실까요 라는 데이터로 붙어 퍼센트 1:07:57 거세 퍼센트 연결했어요 자 디지 플러 바로 열고 AS 이렇게 쓴 거예요 1:08:05 그다음에 세판 랭스 이렇게 쓴 겁니다 항목이에요 항목 항목 이렇게 하나만 아무것도 1:08:12 표현하라고 그냥 항목 하나만 썼어요 그럼 이건 x 축이 되겠죠 저희가 기본적으로 x이 이렇게 1:08:20 안 쓰는 이상 그냥 항목만 쓰면 x 축이 되는 거겠죠 자 일단 시각화 대한 것들 1:08:27 정말 필요한 것들만 꼭 아셔야 되는 거 몇 가지만 테스트를 해볼게요 첫 번째로 바프고 1:08:35 히스토그램 더바바 언더바 히스토그램 1:08:41 더바 얘는 세 가지는 막대 그래프를 그리는 함수입니다 자 저희가요 세 1:08:46 가지는 묶어서 한번 실습을 빨리 해볼게요 자 선 개의 차이를 아셔야 1:08:54 되니까 는 특정한 항목 x 축에 특정한 항목을 기준으로 1:09:00 카운터를서 카운터를 샌 다음에 그걸 막대 그래프로 표한 거예요 자 gom 1:09:07 히스토그램은 히스토그램은 바그래프 비슷하지만 축이 특정한 항목을 가지고 1:09:14 세는게 아니라 축의 범위가 있죠 계급 구간이라는 거 저희 학교 다닐 때 1:09:19 초등학교 때 때 많이 쓰죠 계국 구간이라는 걸 잡아가지고 그 계국 1:09:25 안에 몇 건이 존재하는지를 세 가지고 막대그래프를 표현한게 geo 먼더 1:09:31 히스토그램 있니다 자 gom 언더바 C요 오타입니다 geom 있니다 여기 여기 1:09:39 오타에요 geom 언더바의 요거는 바 그래프나 히스토리와 다르게 1:09:46 제가 X 축과 Y 축을 다 계산한 다음에 막대 그래프를 그리고 싶을 때 쓰는 1:09:52 거예요 자 세 가의 차이를 말씀드렸습니다 요거 세 가지를 1:09:57 한꺼번에이어서 바로 실습을 좀 해보고 빨리 넘어가도록 1:10:14 하겠습니다 자 gom DG 플로라는 거를 쓰려면 역시 얘도 설치가 돼 1:10:20 있어야 되고요 얘를 또 메모리에 올려 놓는 작업을 해야 됩니다 자 먼저 지금 선생님들 앉아 계시는 PC 아는 1:10:27 설치가 돼 있기 때문에 자 올리는 작업을 해야 되겠죠 라이브러리 해 1:10:34 가지고 GG plot 자 2라고 이렇게 쓰신 1:10:39 다음에 컨트롤 엔터를 누르시면 얘가 이제 실행이 된 겁니다 1:11:02 자 그리고 제가 39에 지금 한 주를 쳤습니다 자 제가 여기서 설명을 하나 1:11:08 더 드려야 될게 자 DPR yr 그래는 데이터의 연결자가 퍼센트의 1:11:15 퍼센트 있어요 근데지지 플러스에서는이 시각에서는 연결자가 연자를 연결할 1:11:22 때는 더하기로 연결합니다 자 그다음에 지금 좀 있다가 보시겠지만이 gom이라고 1:11:29 시작되는게 함수들이 그든 이것들이 계속 뒤에 붙을 수 있어요 이게 1:11:35 뭐냐면 투명 유리판이 그러니까 투명 판이 있다라고 할게요 유리판이 있으면 1:11:41 거기에 제가 X 축하고 Y 축을 하나 잡았어요 첫 번째 유리판에 두 번째 1:11:47 유리판에 거기에다가 점들을 찍었어요 자 세 번째 유리판에 선을 1:11:53 그렸어요 이렇게 지지 플러스라는이 시각화는 첫 번째 1:11:59 x 축가 y 선만 그린 거만 놓고요 두 번째는 점을 찍은 거를 바로 위에다 1:12:06 없는 겁니다 그니까 레이어를 계속 쌓는 거예요 층을이 패키지의 장점이 그런 거예요 1:12:14 시각화를 좀 다양하게 조작할 수 있는 겁니다 계층을 계속 싸우면 그 1:12:20 사인대로 제가 보여줘요 좀 이따 한번 몇가지 쌓인 것들을 한번 보시 될 1:12:26 거고요 자 지유지지 플러스에서는 연결자가 퍼센트 폭 퍼센트가 아니라 1:12:32 더하다 요거 꼭 기억하시고요 자 지금 바 그래프를 했더니 자 우측에 우측 1:12:38 하단에 지금 시각화가 나왔을 거고요 자 거기에 위에 보면 중간에 줌이라는 1:12:43 버튼이 있어요 자 이걸 누르면 이렇게 밖으로 크게 보이는 1:12:50 겁니다 자 우측 중간에 예 1:12:56 자 그다음에 히스토그램 1:13:10 볼게요 자 제가 지금 30나 썼던 걸 좀 복사를 해서 뒷부분에 뒷부분만 1:13:17 go 원 히스토그램 바꿨어요 그랬더니 시화도 돼 있지만 1:13:23 그래프도 나와 있지만 밑에 빨간색으로 뭔가 표시된게 1:13:28 있습니다 자 빈스이 30 이렇게 해가지고 표현돼 있죠 자 이게 뭔지 1:13:34 한번 볼까요 자 보세요 실체를 보시는게 오히려 1:13:39 효과적일 것 같아서 그냥 보여 드리려고 하는 1:13:45 거예요 자 제가 빈스라이팅 1:14:02 어떻게 변하지 보이시죠 즉 x 축의 계급 구간을 조정하는 1:14:08 거예요 빈스 30이라고 돼 있는 거는 아무것도 조작가 안 했을 때이 1:14:15 함수가 알아서 30개의 구간으로 나눈 거예요 근데 빈스이 3이라고 했더니 1:14:22 세 개의 구간으로 나눠준 겁니다 그러면 구간이라는 거를 이렇게으로만 나누느냐 1:14:29 그게 아니라 칸이 아니라 폭으로 나눌 수도 있거든요 그게 1:14:39 뭐냐면 자 빈하고 딱 치니까 위라고 하나 떠온게 있어요 여기에 1:14:48 제가 뭐 2라고 잡아볼게요 1:14:54 축 범위를 2로 잡아 달라 그 얘기예요 1:14:59 폭을 그러면 거기에 맞춰서 시각화가 또 표현되고요 1로 바꿔주면 1로 1:15:05 바꿔진 x 축의 대급 구간을 기준으로 해서 시각화가 바뀌는 1:15:13 겁니다 자 이게 히스토그램 있니다 g 원더와 bir 막대 1:15:20 그래프는 특정한 항목에 대해서 몇 건 있는지 체크해 가지고 막대 그래프인 거 1:15:25 히스토그램은 계급 구간을 잡아서 그 계급 구간 안에 있는게 몇 건 있는지 체크해서 하는 거고요 자 그다음에 1:15:32 다은 x 축과 y 축의 값들 제가 다 계산한 다음에 막대 그프 표현하는 1:15:37 겁니다 자 X 축과 Y 축을 계산하려면 제일 효율적인게 DPR 1:15:43 yr 패키지에 있는 SQL 문을 써야 되겠죠 그래서 지금 GO 먼더 co 1:15:49 예측의 활용 예시를 보면 DPR yr 명령을 쓰는 것들이이 있습니다 1:15:55 한번 제가 먼저 쳐 볼게요 1:16:30 예 제가 지금 39에 한번 쳐봤습니다 자 원래 지지플 2라는 1:16:36 거는 독립적으로 쓸 수 있는 명령문 들이에요 근데 dpy 지하고 같이 1:16:43 묶어서 이렇게 쓸 수가 있어요 그래서 지금 한 줄로 그냥 같이 표현한 1:16:49 겁니다 여기 지금 irs 데이터를 저는 금축 1:16:55 항목을 지금 구한 거예요 x 축은 스시스 y 축은 1:17:01 수예요 그래서 시스라 항목에 있는 세 개의 값들로 몇 건씩 있는지 한번 1:17:07 카운터를 세 줘라고 한 겁니다 그룹 바이가 들어가면 항상 선랑 같이 나온다 그랬죠 그래서 세 1:17:14 개 항목을 구했고 자 그 가지고 x 축에는 스페시스 1:17:19 항목에는 구한 수 n 개로 잡은 다음에 그래프를 그려 줘 해 가지고 1:17:26 쓴게 go 원더바입니다 그랬더니 렇게 시각화가 나온 1:17:33 거예요 자 그다음에 그다음에 요거만 그은 너무 1:17:39 중요해서 g 원더바 포인트입니다 산전동 window 1:17:45 너무너무 중요한 함수입니다 자 요거 먼저 해보겠습니다 자 요거 한 다음에 잠시 1:17:53 쉬다가 아 요거 한 다음에 go 원더바 박스 1:18:00 플이라 것까지만 하고 잠시 쉬겠습니다 예 자 g 전도입니다 포인트 1:18:30 자 제가 세 가지 정도로 지금 유형을 좀 나눠서 보여 드릴 거예요 1:19:07 자 봐주시면 일단은 36 라인부터 제가 먼저 좀 실행을 하겠습니다 자 1:19:12 x 축에는 세팔 랭스 y 축에는 테팔 랭스에 그다음에 그거를 가지고 x 1:19:19 축가 y 축에 쌍을 값들을 만든 다음에 점을 찍어 줘라고 한 겁니다 1:19:24 자 그렇게 했더니 자 렇게 나왔어요 자 요번에는 1:19:32 지금요 지금 데이터들이 점으로 찍혀 있지만 얘네들은 분명히 irs 1:19:38 데이터셋 관점에서는 시스라는 거로 구분이 지금 섞여 있잖아요 자 그거를 1:19:45 표현하고 싶은 거예요 그래서 컬러라는 파라미터를 좀 썼습니다 그게 37 라인인데요 한번 1:19:52 봐주세요 36 하고 딱 명령만 하나가 더 들어간 겁니다 컬러스 해가지고 딱 1:19:59 주면 컬러라고 주면 색상이 요렇게 각각에 대해서 빨간색 초록색 1:20:07 이런 식으로 구분 표현이 됐어요 자 여기에 제가 하나 더 집어 1:20:13 넣었어요 자 38 라인하고 39 라인이 같이 묶여 있는 겁니다 티티 언더바 엘리스 해 1:20:21 가지고요 명력을 한도 더 준 거예요 자 38라인 39라 돌렸을 때 1:20:26 어떻게 되는지 보세요 자 요렇게 1:20:33 됐어요 제가 지금 39 라인 요거로 실행시킨 이유가 색상 구분 잘했는지 1:20:40 보려고 이렇게 원 그렸을까요요 원이 의미를 해석을 1:20:45 하셔야 돼요 보세요 스페시스 항목은 지금 세 개로 1:20:52 구본이 돼 있어요 자 근데 세팔 랭스는 거하고 페팔 랭스는 두 개의 1:20:57 관측 데이터들이에요 근데 세토라이 데이터는 나머지 버지 컬러하고 비그하 1:21:04 완전히 다른 속성에 떨어져 있다는 거예요 군집 분석이라는 분석이 통계분석이 있습니다 물론 뭐 신년기도 1:21:12 있고요 군집으로 데이터들을 분류를 해서 묶어 놔요 집단을 만들어 놓는데 1:21:17 기준이 뭘까요 자기 군집에 있는 데이터들은 가까이 있어야 되고 집단과 1:21:23 집단에는 리 떨어져 있어야 군집이 제대로 잘 분석이 된 거예요 그런 관점에서 보면 얘 세토 사라는 거는 1:21:30 제하고 벌대로 확 떨어져 있으니까 얘는 명확하게 어떤 특성이 쟤네 다르다라고 보면 되는 거죠 자 1:21:36 그다음에 얘하고 버 버지 니하고 비그 니카는 분명히 다른 거 같지만 여기 1:21:42 교집합 영역이 있어요 그럼요 교집합 영역을 떨어뜨려 놔야 되잖아요 어떻게 1:21:47 해야 할까요 뭐 예를 들어 데이터값을 변형을 해야 되겠죠 로그를 씌운지 루트를 씌운 다든지 한다든지 원래 1:21:55 값에 대해서 그래서 데이터 전이라는 거를 한 겁니다 특징을 이렇게 파악을 1:22:01 해보고 특징이 파악이 됐는데 이게 명확하게 안 분이 된다 구분이 안 된다 그러면 데이터 모디파이 작업을 1:22:08 해 가지고 집단 간에는 데이터들이 압축돼 있고 집단과 집단 사이는 멀리 1:22:13 떨어져 있는 구조로 데이터를 표현을 바꿔야죠 그래야지 데이터를 향후에 1:22:18 다시 새로운 데이터가 들어왔을 때이 데이터가 어느 군집에 맞는지를 분류하는 기법이 제대로 맞춰 1:22:23 들어가겠죠 요렇게 혼선이 있으면 분하게 힘들어지겠죠 정확도가 떨어지게 되는 1:22:30 겁니다 자 산정도 관점에서 지금 세 가지 그림을 그렸는데 요거 설명드리려고 세 가지 한 1:22:36 거예요 예 잠깐만 쉬다가 박스 플러 할게요 예 여기까지가 1:22:42 우선 그래프의 정도까지 한 거고요 나머지 시각화 1:22:49 그래프는 진짜 자 이렇게 해보셔도 되기 때문에 어 중요한 자, 원더 박스 1:22:56 플로 시간만 잠시 왔다가 이어 1:23:02 하겠습니다. 네 한 10분에서 15분 15분 정도 쉴 거니깐요 편안하게 휴식 1:23:08 좀 취해 주십시오

1364 2019.10.01