데이터 시대에 문과생으로 일하고 공부하기!
안녕하세요. 서울시 빅데이터캠퍼스 입니다.
2019 서울시 빅데이터캠퍼스 공모전의 사전설명회와 더불어 오픈강의(특강)을 지난 2019년 9월 21일 진행하였습니다.
빅데이터캠퍼스 소개/이용방법과 공모전의 전체 진행일정 및 심사기준, 공모전 참가자분들의 궁금증을 해소하는 시간
을 현장에서 진행하였으며, 경남대학교 양 승훈 교수님께서 '공부와 일과놀이의 경계가 허물어지는, 데이터 시대에
(문과생으로)일하고 공부하기!' 주제로 사전설명회에 참여주신 많은 분들께 빅데이터가 어떻게 활용되며, 지난 공모전
당선작이 이후 서울시와 협력 분석되어, 실제 시민들에게 활용되고 있는 사례에 관하여 특강을 진행하여 주셨습니다.
2019 하반기 서울시 빅데이터캠퍼스 공모전에 많은 참여와 관심을 주신 참가자 분들께 진심으로 감사드리며,
추후 하반기 2019 서울시 빅데이터캠퍼스 공모전도 많은 관심과 참여 바랍니다.
감사합니다.
[데이터 시대에 문과생으로 일하고 공부하기! 강의교안 다운로드]
(스크립트)
0:00 [음악]
0:08 설명에 강연을 시작하도록 하겠습니다 강연에는 빅데이터시대 일하고 공부하기는 주제로 경남대학교 사회학과
0:15 양승훈 교수님께서 진행해 주시겠습니다 그럼 양수훈 교수님을 큰박수로 보시도록
0:25 하겠습니다네 반갑습니다 저 경남대학 사회학과의 양 고 하고요 오늘 뭐
0:32 제목은 이렇게 됐는데 제 물어볼게요 여기 20개 출시
0:39 있어요 어 예 그러면 그렇구나 나머지는 다 문가예
0:45 문과가 한 60 70% 되는 거 같고 나머지 되 거 같은데 예 제목을 저
0:51 잘못 뽑아 저는 여기에 그 문계 학생들이 혹은 경 학생들이 좀 많을
0:57 거라고 생각하고 그런 제목을 했는데 뭐 일반적인 얘기도 좀 하고 여러 가지
1:04 제가 어 경험했던 것들 학생들하고 경험한 것들 공유를 하는 시간을 하겠습니다
1:12 그래서 아까 제목 말씀 신 것처럼 공부와 일구와 놀이의 경계가 허물어진다 뭐 이런 얘기 했는데 이게
1:18 좋은 얘기일 수 나쁜 얘기일 수도 있잖아요 좀 놀아야 되는데 이제 누는 것도 뭔가 집약적 할 것 같고 덕질도
1:25 어비체 별로 좋은 일 아니라고 하 어 별로 좋은 일 아니라고 하는데 뭔가
1:32 근데 그게 빅데이터 어 시대 혹은 이제 데이터를 뭔가 분석하는 사람들한테는 그게
1:38 필요한 일이기도 해요 사실은 그래서 어쨌든 그게 왜 그런데 그 또 어떻게 해야 되는지를 좀 공유를
1:46 하겠습니다 그래서 뭐 예 과학책은 처음입니다 사실은 근데 데이터 과학에
1:53 대해서 좀 요즘에 많은 관심이 생겼고 한 3년 된 거 같아요 그니까 뭐 빅데이터 이런 얘기는 그 전에도
2:00 있었고 빅데이터 얘기는 무슨 얘기하고 같이 많이 나왔을까요 기억하세요 요즘에도 많이 나오지만 어떤 단어고
2:06 같이 많이 쓰나요 빅데이터라는 말을 예 예 맞아요 4차 산업 혁명
2:12 얘기 4차 산업 혁명은 뭔가요 근데 여러분 알고 계시나요 어떤 내용이
2:20 중요한가요 예 제가 그냥 다 말을 해야 될 거 같데 그러니까 자차 산업 혁명 하면은 키워드는 뭐냐면 데이터
2:27 기반의 어떤 인프라들을 그고 기존에 제조업이란 물류지 이런 것들을 확신할
2:33 수 있다는 아이디어예요 기본적으로는 데이터가 많은데 이걸 갖고 우리가 it 회사에서만 쓴다면 4차 산업
2:39 혁명 이런 말은 쓰지 않을 건데이 데이터를 갖고 기존에 우리가 갖고 있었던 영역들 뭐 지금 여기 서울
2:46 시니까 행정도 있겠지만 주로는 이제 산업 영역에서 산업 영역이라고 하면 주로 이제 제조업과 분류 이런 데들
2:53 예전 같으면 뭔가 컴퓨터를 통제하는 거보다 사람의 수련이나 아니면은 뭔가
2:58 계획들을 세워가고 기계를 돌리고 이런 것들이었는데이 4차산업 중요한 말
3:03 CPS 이런 단어 있거든요 CPS 보지 아세요 예 사이버 피지컬 시스템이에요
3:09 그러니까 그 가상적인 물리 시스템을 만들어 가지고 그걸 다 이제 물리적인
3:14 것들을 데이터에 갖고 통제한다는 의미가 있거든요 그니까 그런 종류로 이제 빅데이터 흐름들이 이제 많이
3:20 커졌고 그게 우리가 기존에 기존의 기존 방식대로 이제 쓰던 것들을 좀
3:26 이제 바꿔 가면서 활용할 수 있게 되는 체제로 서 4차 산업 혁명이란 말이 나오는데 그 4차 산업
3:33 혁명이라는 단어에 뭐 그 말이 뭐 중요한 말이야 이렇게 생각할 수도 있지만 어쨌든 이제 그 말을 갖고
3:40 우리가 정책이나 기업의 운용을 하게 되는데 거기 기반이 되는 기반이
3:46 무엇이냐 물어보면 이제 그게 빅데이터 이런 말이 됐고 그런 추세 속에서 지금 이제 데이터 분석이나 데이터
3:52 과학이나 이런 단어들이 이제 되게 많이 유명해지고 있고 많이 입에서 회자가 되는 거죠 여기 혹시 R이라는
4:00 프로그램 써보 사람 있어요 예 많이 있네요 쓰면 갖고 뭐 합니까 어떤 거
4:08 해요 알 갖고 해본 일이 무엇
4:14 무엇이죠을 그냥 켜 보기만 했어요 그 아닐 거예요 알고 가장 많이 하는
4:20 그러면 딱 켜면은 뭔가 패키지를 불러다가 쓰는 거일 텐데 어떤 패키지 러지
4:28 기억나요 플도 있고 아니면 다 묶어 놓은 타이디버스 이런 패키지 이제 받으면 그 안에지 플랫도 있고
4:34 디플라이 알도 있고 뭐 타이디 알도 있고 이래 가지 하죠 근데 그런 패키지를 지금 근데 여러분들 열심히
4:40 쓰게 된게 사실은 2 3년이 안 된 일이고 사실 이게 뭐 다들 할 거
4:46 같지만 아직 그렇게 많이 하지 않고 있는 상황이다 이런 얘기가 있고요 아직 뭐 그래서 처음이 사람도 있고
4:53 여기 오신 분들이 그래서 좀 어느 정도 감을 갖고 좀 해 보는 것이 도움이 될 만한 시기다 이런 생각을
5:00 좀 들어요 예 그래서 처음이어도 상관이 없을 것 같고 익숙해 익숙하면
5:05 뭐 익숙한 대로 좀 들어보는 도움이 될 거 같습니다 예 그래서 뭐 여기 문과생이
5:11 어차피 많으니까 예 다 아는 말이죠 송합니다 안고 인구론도 뭐 이제 한 2 3년 된 다른거 말인 거 같아요데
5:18 좀지나 한적 놀고 예 저도 되게 저 제가 있 저 경남대 학교인데
5:24 경남대학교 어디인지 혹시 아세요 마산이 예 마산 예 마산 예 마산에
5:30 있어요 지금 창원 시죠 정확하게는 창원시에 마산 합부 마산 회부가 있는데 예전에 이제 마산이 되게 큰
5:36 도는데 어 망했습니다 도시는 굉장히 망했고 제 마산 인구가 70만에
5:41 했다가 지금 40만 정도예요 그러면은 거의 절반이 지금 이제 없어진 거예요
5:47 예전에 6대도시 정도 됐었거든요 그리고 거기에 있는 경남대학교 학생들도 굉장히 지금 취업이라는 거에
5:54 대한 걱정은 뭐 훨씬 많은 상태죠 근데 제가 오늘 를 얘 그 중에서도
6:00 그래도 사회학과 오면은 자 여러분 사회학과 오면 먹고 살기 좋은 겁니까
6:05 아닙니까 여러분 생각하이 사회학과 예 사회학과
6:11 나오면은 어떤 직업을 가냐고 물어보면 뭐라고 대답이 가장 나와 많이
6:17 나올까요 예 아무거나 한다합니다 타학과 나면 아무거나 하는 그
6:22 학과라고 알려져 있거든요 근데 이제 그 친구들도 조금 여러가지 경험들을 통해서 지금 진로를 좀 찾진 경우도
6:30 있고 뭐 어기 친구들보다 고등학교 때는 공부을 잘 못했거든요 근데도 뭐 여러 가지 기 좀 그런 얘기들 계속
6:38 해 보겠습니다 그래서 뭐이 문과 나와가 하여튼 취업은 좀 어렵습니다 어 저
6:45 뭐죠 어 며칠 전에 OECD ES 나온 어떤 보고서를 좀 봤는데 예
6:51 계속 과부족인원 과부족인원 뭐냐면 역시나 니어 대통의 자리들은 계속
6:58 이제 다 부족 하다 이런 얘기가 나와요 근데 이제 그러면 공대를 나와야 되는데 공대에 나오지 않고 할
7:04 수 있는 엔지니어링 기술이 뭘까 하면은 데이터 분석은 약간 들어가는 거 같아요 근데 그걸 제외하고
7:09 일반적인 물과 기술들에 대해서는 우리 뭐 사라지는 지원 뭐 말도 나오고 있지만 해당이 되는 부분이죠 그래서
7:16 어쨌든 좀 무시무시하게 좀 느껴지는 것도 사실입니다 어쨌든 여기에는 그걸
7:22 좀 나기 위해서 분들이 계시고요 뭐 인공지능도 이제 굉장히
7:28 알파고 이는 2016년에 벌어졌으니 이제 3년이 좀 넘게 지난 일이죠
7:34 몇대 몇으로 졌나요 때 2세들이 4대 1요 4대 1이었을 거야 아마 한번
7:40 어떻게 이겼죠 기보를 원래 파격이 있는 파격은 기보를 깨고 하는 건데
7:46 한번 그렇게 이제 이세돌이서 이제 이겼던 경험이 있는데 어쨌든 완패했습니다 그리고 나서 나중에
7:53 커제도 알파고 붙였다고 완전 다 잘랐죠 다 5대 졌나요 뭐 그랬을 겁니다 어 이 지능의 수준이란 거
8:01 컴퓨터는 자 여러분 컴퓨터가 알 알고 있는 그 기록들은 뭘까요 컴퓨터가 판단할 수
8:09 있는 거는 숫자인데요 두 숫자밖에 판단을 못합니다 뭔가요 0하 1이죠 그러니까 전원이
8:17 켜졌다 꺼졌다이 버튼만 갖고 한 거을 우리가 이진 변수라고 말을 하는데
8:22 이진법으로 밖에 처리를 못해요 근데 이제 학습을 시킨다고 합니다 요즘에 기계 학습이라 머신러닝이란 많이
8:30 나왔고 뭐 그거와 좀 다른 약간 관계라고 해야 될까요 사이즈에서 이제 많이 커진 것이 딥러닝 같은 건데
8:37 이제 그러한 방식으로 컴퓨터가 0하고 1밖에 기억을 못하는 컴퓨터가 이제 많이 기술이 좋아지면서 학생 능력이
8:45 좋아지면서 패턴들을 패턴인지를 하게 된게 사실은 하나의 혁명적인 거거든요
8:50 그리고 패턴인지를 하기 위해서 많은 양의 데이터가 필요한데 예 그것들을 처리할 수 있는 용장이 생겼고요 아
8:57 요즘에 그 비디오 카드가 비싼 거 알아요 비디오 카드 가격이 비싸진 거
9:03 알아요 여러분 비디오 카드를 따로 살 일이 없으니까 그렇게 하는데 비디오 카드 가격이 비싸 두 가지 이유
9:09 때문에요 첫 번째는이 빅데이터 처리 때문에 이제 데이터 처리를 할 때
9:14 예전에는 그냥이 숫자로 된 단순한 데이터를 처리했다면 지금은 훨씬 더 이제 복잡한 데이터 그냥 쉽게
9:20 말하자면 복잡한 데이터를 처리하기 때문에 그거를 비디오 카드의 메모리를 활용하는 경우가 많아져서 그랬고요 두
9:26 번째는 또 뭐가 있냐면 비트코인 때문이었습니다 비트코인을 거래할 때마다이 문제를 풀어야지 거래가
9:33 승인이 되거든요 그걸 우리가 블록체인이라고 하는데 블록체인 승인할 때 풀어야 되는 문제들이 다 그래피컬
9:39 한 문제들입니다 그래서 그래피컬 한 문제를 풀다 보니까 풀어야 되다 보니까 이제 그래픽 카드의 메모리를
9:45 많이 먹다 보니까 많이 올라가거든요 그러니까이 두 가지에서 요점은 뭐냐면 뭔가이 빅데이터를 통해서 예전에
9:51 처리하지 않았던 다른 종류의 차원들을 이제 많이 처리할 수 있겠다 이런
9:56 이제 요점이 있습니다 그러면서 인간의 창의성이라는 것들 것들도 이제 어느 정도 도전을
10:03 지금 받게 된 상황이고요 예 그래고 직업이 사라진다 뭐 이런 직업들 사라진다고 하는데
10:09 여러분 동의하십니까 안 사라질 수도 있죠
10:14 근데 이제 여기에 나 나오는 직업들의 공통점은 뭐냐면 뭔가 예를 들고
10:19 의사의 처방 같은 거는 그 문재인을 했을 때 나오는 것들을 데이터로 다
10:25 처리할 수 있으면 거기서 답을 주는 건 약의 약을 섞는 거는 약을 처방하는 건 이제 어느 정도 그
10:32 경우의 수 안에 있거든요 그러면은 이제 예를 들어 의사가 하는 일도 컴퓨터가 좀 대신할 수도 있겠다 뭐
10:37 이런 중에 생각들이 나와서 의사 조서 다 이런 건데 어쨌든 좀 뭐 그런 이제 상황 속에 있고 보통 이런 이제
10:44 직업에 대한 전 몇 년도 정도로 하냐면 2030년 2050년 이렇게 하는 거 같아요 30년 되면 몇
10:50 가지가 어렵고 50년 되면 몇 가지가 어렵다 이렇게 하는데 어쨌든 이런 얘기들이 나오고 있는
10:56 상황이죠 그래서 저는 학과에서 주로 말하다 보니까네 이러 사회나 자리
11:03 과라고도 좋고 본인의 정들을 넣도 그 사회학에서 제일 중요한 사회학자가 막스 거거든요 그래서 뭐 이런에 자
11:11 기가 합니다 근데 이제 그 빅데이터 빅 데이터인데 뭐 다 아실 거예요
11:18 사이즈가 크면 빅데이터 맞습니다 그다음에 그 처리하는 속도가 빨라도
11:24 속도가 빠른 것도 이제 빅데이터의 시대 이렇게 말할 때 중요한 거예요 그다음에 버라이어티 자 버라이어티가
11:31 중요한데 여러분 데이터 하면 어떻게 생긴지 아세요 데이터셋 하면 어떻게 생겼어요 여러분 보통 알고 있는
11:38 데이터 업는 것입니까 몰라요 단 이거 써도
11:46 되죠네 여러분 엑셀 키가 어떻게 생겼어요 엑셀에 딱 키면 처음에 뜨는게
11:54 뭔가요 하지 않았어요
11:59 맞죠 그러면은 여기에는 보통 뭐가 써 있냐면 어떤 이름이 써 있어요 뭐
12:05 그냥 이렇게 해봅시다 뭐 성명 그다음에 뭐 성적표라고 해
12:11 볼까요 아 주셔네니까 뭐 영어 이렇게 써 있고
12:17 그다음에 여기는 삼 뭐 이렇게 좀 돼 있고요 여기에는
12:26 뭐 이렇게니까 치고 여기 정
12:33 8 이렇게 써 있다고 치면은 데이터가 크다는게 어떤 말일까요 데이터가
12:39 크다고 다양하다 좀 다르거든요 크다는
12:44 어떤일까요 이게 많은 거예요 그러니까 우리가 여기 군대를 갖다 예비 있을
12:51 텐데이 방향을 우리가 뭐라고 그러면 생 방향이라고 해요 5와 열을 맞추다 할 때 그 5가 색이거든요이 방향 열
12:59 방향이라고 하는데 열은 이렇게 생겼겠죠 그러면 빅데이터에 데이터가 많다는 거는 행이
13:06 많은 걸까 열이 많은 걸까요 행이 많은 겁니다 행이 행이 차곡차곡 쌓이는
13:12 겁니다 행이 차곡차곡 쌓이는 거고요 그러면 다양하다 복잡하다 이럴 때는 뭐가
13:18 많타는니까요 열이 많타는 거예요 그거를 우리 여기 사과 방법론 같은 거들은 학생들이 있을텐데 그 얘기
13:24 뭐냐면 변수의 개수가 많아진다는 얘기 또 하나는 다양해진다 얘기는 이런 데이터 말고 그냥 글자나
13:32 이미지나 뭐 이미지나 아니면 뭐 비디오나 뭐 이런 이제 데이터의
13:38 종류가 많아진다는 얘기고요 그 그것들을 다 처리하는게 이제 우리가 빅데이터를 처리한다 이렇게 말할 수
13:44 있을 거예요 근데 다만 이제 데이터를 처리할 때 기본적인 양식은 이거를 우리가 이런 방식으로 행과 열리 있는
13:51 데이터를 정형 데이터라고 하는데요 이런 데이터들로 만들어야 됩니다 아까 비디오도 이런 데이터로 만들게 되
13:57 있고요 음악 프 이렇게 될 수 있고요 사진도 될 수 있 그런 방식으로
14:04 하면서 이제 게이가 생각해야 되는 겁니다 예 그래서 어 거라 스피도
14:10 있죠 이게 데이터를 알 수가 없다 예전 같으면 다 저렇게 깍두기 안에 들어가는 뭔가 표 안에 들어가는
14:16 데이터라고 했지만 아까 말씀드린대로 어 알 수가 없는 방식의 것들 다 자기들이 데이터라고 선언하는 상황이
14:23 보게 되는 거예요 빅데이터라는 말은 그러니까 조금 실용적으로 접근하자면 아까 말씀 는 표를 그려 놓고 여기서
14:31 어떤 것들이 쌓이고 있는지네 그거를 좀 생각하면 그 뭐 요즘에 이제
14:37 빅데이터에서 이제 빅데이터라는 말이 사라지지 않을 건데 그 이유는 이제 뭐 5G 같은 경우도 있는 거죠 5G
14:45 같은 경우는 속도 자체가 엄청나게 빨라지고 스토리지가 처리하는 속도가 빨라지기 위해서는 양이 늘어나는 거
14:52 그런 것들을 아까 이제 4차 산업형 얘기했지만 로봇에도 적용하고 설비 관리에도 적용하고 뭐 예 그렇죠 이런
15:00 방식으로 할 수 있고 또 하나의 게임은 뭐냐면 아 하나가 또 있는게 뭐냐면 여러분들 게임 많이 하잖아요
15:06 뭐 롤를 할 수도 있고 뭐 뭐 할 수도 있는데 게임을 할 때도 예전에는
15:11 여러분들 뭐가 중요했나 그니까이 폰의 성능이 중요했어요
15:16 폰이나 컴퓨터의 성능이 중요했거든요 근데 지금은 뭐냐면 3D 자체를 이제
15:21 5D 시대라고 하는 건 3D 자체를 서버에서 구현할 수가 있어요 그 정도의 속도 처리가 가능한 거예요
15:28 예전에는 비디오 카드가 좋아야 되고 컴퓨터에 있는 스펙이 어느 좋아 가지고 게임을 사면 항상 뭐 사양이
15:33 있잖아요 최소 사양에 뭐 뭐 뭐 CPU 몇 개가 달려 있고 CPU
15:39 칩이 몇 개가 달려 커트 코이 뭐 뭐 이런 식으로 듀얼 코이 이런게 몇 개의 속도에 그게 달려 있고 이게
15:45 중요한데 이제는 그거를 각각의 단말기 집에 있는 컴퓨터 pcn 노트북이나
15:51 폰이 아니고 이거를 이제 서버에서 구별할 수 있게 되는 시대 있기 때문에 또 그걸 처리하는 것들은
15:56 굉장히 이제 더 중요해 지이 거 그러나
16:01 뭐 그 빅데이터를 처리한다 이렇게 말했을 때 어 뭔가이 막연 함만 갖고
16:07 생각할 필요가 없고 어떤 다른 종류의 능력들이 있는 걸로도 의미는 있을 겁니다 여기서 좀 요해 보자면 여전히
16:15 그 그 뭐죠 인문사회 계열 오늘 주로 임사의 계열 제가 하기 했으니까 그
16:22 복잡한 문제를 풀거나 지사를 하거나 창의성이 있거나 그다음에 임사 관리를 잘하거나 아니 협 을 잘하거나
16:29 감정적인 지능이거나 뭐 그다음 판단을 잘하는 이런 능력들은 여전히 그 데이터를 처리하면 직업적
16:37 전망이 있 중요하다고 이제 볼 수 있거든요
16:46 예 그래서 그런 능력이 있으면 그러면 빅데이터는 이렇게 다가오고 있고
16:52 빅데이터의 시대는 다가오고 있고 그다음에 이제 뭔가 인문사회 지금까지
16:59 엔지니어 혹은 뭐 의이 이런게 아니더라도 다른 분야의 뭔가 기초적인
17:05 능력 소들이 있을 때 뭔가 할 수 있다고 제가 말씀을드리고 있는데 빅데이터를 가지고 할 수 있다 이런
17:12 얘기 하고 있는 건데 뭐 사례 하나를 좀 보여드리려고 해요 그니까 저희 그
17:17 경남대학교 사회학에서는 빅데이터 퍼스 언제부터 저희가 뭐라고 있냐면 그 현장실
17:25 협약을 맺기 시작했어요 2018년 여름부터 이제 분이 시작했거든요 2018년 이제
17:33 여름에 왔고 겨울에 왔고 이것 여름에 와서 지금 새학기 세 번의 방학 동안
17:38 했었는데 예 그걸 통해서 이제 취업을 했어요 거기 처음 왔던 이제 기수가
17:44 이제 취업을 이제 어디에 들어갔냐 이제 창원시에 있는 창원시에 있는
17:50 빅데이터 센터 연구원으로 취업을 했거든요 이제 그고 친구 사례를 조금 보여주면서 얘기 풀어볼까
17:57 합니다네 그래서 뭐 예이 친구 고자입니다 예 수학을 아예 안
18:03 집어놓고 대학에 왔습니다네 예 수능을 볼 때 수학을 아예 안 집어놓고 계약에 왔고요
18:09 자였고고 있었던 거는 제가 처음 만났이 친구가 지금 2살이에요 그니까 학원이고 이번에 졸업했네
18:17 졸업했는데 예 스포하고 갖고 있었던 거 딱 하나 있는데 군대에서 선임이이
18:23 문제집을 하나 보 가지고 어쩌다 풀었는데 그게 뭐였냐면 사회조사 석사는 자격증 지 사회조사 분석사
18:30 갖고 계신 분 가요 혹시 아 중명 사회조사
18:35 분석사 사실은 사회학과의 유일한 자격 사회학과 자격이 있는데 그거 하나 있
18:42 근데 주로 내용은 뭐냐면 조사 설계하는 거 설문 조사를 어떻게 만들 것인지 이런 내용이 하나가 있고 두
18:48 번째는 통계를 처리하는 거예요 통계를 이제 어떻게 분석할 것인가 이런 거였는데 그냥 군대에서 예 보는 거고
18:54 그 사회조사 석사는 커트라인이 60 입니다 60점을 넣으면 합격이 되고
19:00 과락이 40점이 그러니까는 뭐냐면 그 통계를 과락이 안나게 해갖고 잘 맞춰
19:07 가지고 60점을 넘겨서 이제 가격을 따 갖고 이제 복학을 한 거예요 군대를 갔다 오자마자 3학년 1학
19:13 었는데 그래서 뭐 그런 친구가 있었는데 예 이거를 선인 따라서 이제
19:18 따 왔고요 그리고 나서 이제 학교에 와가지고 제 수업을 듣고서 이제
19:26 데이터 분석 전문가라는 자격 adsp는 단증이 있는데요 그 그거를
19:31 좀 땄습니다 학교에서 저희는 자격증 따면 백만 원씩 주는니다 하주 자격 자 자 뭐야
19:38 자격증을 잘 안다기 때문에 그리고 이제 저한테 수업을 좀 드연 학생이죠 데이터 동아리도이 친구은 만들었고요
19:45 그다음에 뭐 이제 그때부터 이제 17년에이 데이터 분석 기법 원투가
19:51 있는데요 원은의 프로그래밍 법을 이제 한번 배우는 겁니다 그래서 아까 누가
19:57 아는 학생들이 있는데 뭐 타이디버스 패키지를 활용해 가지고 기본적인 정형 데이터라고 하는 아까 뭐 표 안에
20:04 들어가 있는 것들을 이제 처리하는 거를 배우고 자 데이터가 있으면 두 가지를 크게 보면 할 수가 있습니다
20:10 뭘 할 수 있을까요 보통 하는 일은 두 가지예요 데이터가 있으면 뭘 할
20:15 수 있냐면 첫 번째는 분석을 할 수가 있죠 분석에서 어떤 결과 의사 결정이
20:21 필요한 그 이제 데이터 기반 의사 결정을 하기 위한 그 분석을 제공할
20:26 수가 있고요 또 하나는 분석 을 만들고 이제 그 의사 결정에 보조하는 수단으로서 시각화를 할 수가 있어요
20:33 여러분이 그니까 대학교 다니는 내내 할 수 있는 데이터 분석이라고 하면 크게 보면 일종에 분석 결과를 만들
20:40 수 있게 만드는 거 그다음에 시각화를 하는 걸 거예요 그래서 저는 그런
20:45 과목 속에서 그런 거를 한기는 배우고 두 번째 기는 이제 제원 2라고 해
20:50 놓잖아요에서 뭐라냐 공공 데이터들을 직접 가지고 좀 분석하는 거를 한다
20:56 공공데이터 하면 서울시는 인공 데이터가 굉장히 잘돼 있습니다 여기 입주하지 않아도 풀려 있는 데이터가
21:03 되게 많이 있고요 지금 웹이 접속이 안 돼서 그런데 그렇게도 많이 접속할 수가 있고 입주하셔서 또 접속할 수
21:10 있는게 굉장히 많아요 그래서 뭐 할 수 있는데 어쨌든 수업에서는 이제
21:16 통계청이 뭐 국가 통계 포탈이나 아니면 기상청이 이런 데는 굉장히 여러 가지 데이터가 있습니다 자 그
21:21 빅데이터 보면서 학생들 시 제일 많이 하는 주제 뭐지 아세요 혹시 다비에 어느 학교 가도 다 하는 주제가 있
21:28 니다 처음에 이제 그래프를 그릴 줄 알게 해주고 숫자를 볼 줄 알게 해주면 하는 그래서 뭔지 아세요 다
21:36 미세먼지니다 미세먼지 미세먼지를 무엇이 미세먼지를 만드는가 그 이제
21:42 저희 아주 기초적인 통계 기법으로 상관관계 분석 이런게 있어요 상관관계 분석을 하고 나면 상관 계수가 나오고
21:48 결정 계수도 만들 수 있고 회기 분석이라는 것도 할 수가 있는데 그러면은 미세먼지를 PM 10이라고
21:54 해요 그 미세먼지와 가장 상관이 많은 그 대기 중에 요소는 뭘까요 그냥도
22:01 알지 않을까 계절 거 예 계절 거어 아 뭐 그런 것도 있습니다 근데
22:07 그거는 숫자로 다 이제 팩터를 잡기가 간단하지 않고요 가장 많이 나오는 건 초미세 먼지입니다 그 말이 안 되죠
22:13 약간 예 미세먼지고 당연히 미세먼지가 많으니까 소 미세먼지를 많겠죠 근데 이제 그 단계에서 이제 좀 뭐라고
22:19 하면 어떤 거를 답을 찾아 황산을 찾아네요 그건 좀 일리가 있어요 황산하 그는 좀 연관이 있거든요
22:26 이산화 항 이런 것들하고 이제 연관 있는데 그런 거 찾아오는게 이제 처음 이제 간단한 데이터서 이런 거부터
22:32 시작해 가지고 좀 이제 다른 작업들을 이제 공공 데이터들을 시키 시키게
22:37 됐고 그러다 보니까 이제 뭔가이 친구들이 이제 공모전도 해야 되겠고 물론 제가 표시를 해고 펌프를
22:43 넣었습니다 그래서 좀 이런저런 이제 작업들을 좀 시작하게
22:49 됐어요 최근에 한 걸 보 어 이거 말고 더 옛날 다 거
23:01 아 두 개를 보여 드릴게요 이거는 여기 와서 한 거예요 여기 와서 한
23:07 거고요이 김지성이 아는 친구에 제가 신상을 제 털려고 기하 자기 이름을 잘 꺼네요 그 예 그래서 뭐 아까
23:16 그런 그 뭐죠 빅데이터 캠퍼스 처음 와가지고 그 친구들이 했던 거 민원 데이터를 썼는데 그거는 지금 자료가
23:23 보기가 안 돼 있고 이거는 작년에 한 거예요 작년에 작년이 아니고 겨울방 결과 했던 건데 이제 이런 분석들을
23:30 해 왔더라고요 이게 서울시 자료가 걸 겁니다 여러분 여기 흡연자가 좀 있을
23:36 겁니다 흡연자가 한 2 30% 되겠죠 2 30% 정도니까 그 될 건데
23:42 서울에 흡연 시설 많이 있나요 흡연 잘 없죠
23:47 그래서이 중에 한면이 친구는 굉장히 이제 김지성 도시랑 크리스찬이 술도
23:53 안 하고 담배도 안 합니다이 친구는 그런 거 없습니다 예 술 담배다 많이 하고
23:59 둘이 있으면 이제 냄새난다고 짜증난 내다가 이제 너는이 흡연 구역도 없고 아무데서나
24:05 막 담배 필려고 하니까 둘이 서울에 와 있다가 이제 둘이 주제를 한 거거든요 그래서 사회적 갈등 순화를
24:12 위한 이제 흡연 실설 최적 입지 선정이라는 프로젝트를 했고 저는 이제
24:18 서울하고 경남을 왔다 갔다 하니까 이제메일로 보고 카톡이나메일로게 그런 거였는데 어
24:25 이런 거죠이 중요한 건 데이터 어떤 데이터를 뭐했냐면 이제 방법에서 좀
24:31 소개를 할게요 어떤 데이터 선지를 좀 주어
24:36 보세요 뭐 이런 겁니다 뭐 이제 예 간접 수변에 대한 싫어하는 사람 너무
24:42 많고 수변에 대해서 죄인취급 하지 말라는 사람들도 많고 규제는 계속 강화지도 있어 이거를 뭔가 데이터를
24:49 갖고 할 수 있으면은 이제 아까 이제 흡연 구역을 최적 입질을 선정하는게 최종 목표예요 어디다 흡연 구역을
24:56 하면 지나가는 사람도 불만이 없고 그 간접 안하고 흡연하는 사람도 가까운
25:01 제에 가냥 이거를 하려고 하는데 이제 데이터를 본 거거든요 서울에 전체 등록된 실 후전
25:07 시설은 여섯 예 내밖에 없다고 합니다 주제는 계속 강화되 강남구 같은 데는
25:13 주제가 좀 심하다 그래서 뭐 이렇게 되다 보니까 최적 입지를 찾는 거예요데 이제
25:19 이거에서 이제 분석을 어떤 데이터까지 써봤냐이 친구는 KT 유동인구 데이터가 있어요 예 그 옛날에 198
25:27 4라는 소설 있는데요 거기 뭐 빅데이터이 워칭 유라는 말이 있습니다 빅데이터가 쳐다보는데 실제로 여러분들
25:33 지금 분이 다 알 수 있는 거 아세요 여러분들이 어디 있는지 KT SKT
25:38 LG 2플러스는 다 알고 있거든요 왜냐면은 이제이 좌표가 계속 찍혀요 좌표가 찍히기 때문에 여러분들 네이버
25:45 맵이나 카카오 맵을 치고 혹은 내비게이션 앱을 국 운전자 걸어다닐
25:50 수 있는 거거든요 그러니까 그 잡들 계속 모아 가지고 아까 말한 것처럼 행 방향으로 계속 깎고 있는 거예요
25:56 시간제로 예 그럼 그래서 그런 데이터가 이제 공공 데이터 구축이 돼 있습니다 이거는 사적 그니까 회사에서
26:03 활용하기에는 자기 회사 말고 다른데 막 팔 수 있는 종류의 데이터는 아니에요 그렇기 때문에 여기에만
26:08 있고요 이제 거기서 밀도 분석을 한 겁니다 어느 지역에 사람들이 어느 시간대 많이 몰려 있는 그런 데이터를
26:16 해서 유동인구를 좀 파악을 하고 그다음에 이제 비 흡연자들에게 자료를 같이 국민 건강
26:23 통계 데이터를 활용해 가지고 흡연 인구까지 이제 진출에 매
26:29 높은 수요 흡연 시설에 높은 수요가 있다는 거는 이제 굉장히 사람이 많이 다니는데 아무데서나 담배를 피기 좋은
26:35 곳이라고 전날 보죠 그런 정의들이 이제 분석 프로젝트에서 중요하고요 그래서 흡연 유동 인구를
26:43 좀 파악하고 비변 유동인구를 파악해서 비변 유동 인구들에게 공영 어고 그
26:49 지역은 클린존을 클린존을 만들고 흡연 유동인구가 있을 때는 그쪽에는 이제
26:54 흡연 역을 만들어 주면 되겠죠 예 그래서 뭐 뭐 밀도 분석이라 법들을
26:59 사용하는 이제 핵사곤이라고 하는데 여기다가 색깔을 넣어 가지고이 지역은 이제 밀도가 기다 이렇게 확인이 되고
27:06 거 자 그리고 이제 문과라 말했는데 이런 식을 이렇게 구하기가 어려울 수도 있어요 근데 이런 식을 어디서
27:13 자유 만들까요 예 다 있습니다 검색 예 그
27:19 고건 복지부 중에서 이제 기준들이 있거든요 그런 기준들을 갖고 이제 지표들을 가져오는
27:26 겁니다 그해서 이제 gis 걸 활용합니다 아까 첫 번째로 본
27:31 데이터는 그 유동인 고요 gis 뭐냐면 그 모든 지역마다 좌표가
27:37 있어요 동네마다 예를 들면 서울시 뭐 동대문구 뭐 이문동 동대문구 이문동
27:42 뭐 이러면 이문동에 있는 그 위치들에 대한 좌표가 다 있거든요 그거를 처리할 수 있는 툴들이 다 있습니다
27:49 이제 그것들이 다 있고요 그걸 우리가 지인 정보대 시스템에 있는 데이터를 활용하는 건데 R 같은 경우는 아을
27:56 쓰는 학생들이 있다면 자라는 이제 프로그램을 같이 연동해서 화면에
28:01 구현할 수가 있어요 그렇게 어렵지 않 배우는데 하루 하루 그나 말보다 쉬워요
28:07 자의에 그래서 뭐 그렇게 분석을 하다 보면 서울시 도로를 그걸 갖고 그릴
28:13 수 있고요 그다음에 건물 데이터도 이렇게 그려보게 되고 서제 문구를 일단 샘플로 해본 겁니다 그랬다가
28:19 아까 말한 그 밀도 분석을 하다 보니 유동인구가 많이 보인 보이죠 예시도
28:24 밑에 있는 여기 여기 뭐 좀 많이 보이는 거 같고 지역에서 조금 넘어가면 홈 되거든요 일로 가면 홈
28:30 되고 일로 가면은 서강 됩니다 그니까 이쪽에 인구가 많이 늘어 있죠 그래서 인구를 많이 하고
28:37 그다음에 중요한 거는 어디가 금융 구역이나 보호구역이 되야 됩니까 그러면 유치원이나 학교 시설 등도 그
28:44 좌표를 얻을 수 있어요 그 데이터를 찾아다가 이제 여기다 입혀 가지고이 지역을 보호해야 한다 그래서 초록색
28:52 모노라 이런 식으로 한거 지하철 역도 마찬가지 버스 역 이렇게 다 치우고
28:57 나면은 치우고 놨고 그다음에는 이제 흡연 인구를 이제 파악해 가지고 흡연 유동
29:03 인들도 이제 파악을 했고요이 시설들을 찾을 수 있는 위치가 이런 나 출이
29:09 되는 거죠 이건 전부 다 피자하고 아이라는 프로그램을 통해서 한 거니다 그래서 이렇게 하다 보면 이제
29:16 부별로 어디에다가 흡연 구역을 만들면 될지에 대해서 이렇게 매핑을 했던
29:22 사례 그래서 유동인구 공석을 하고 흡연인구 한 다음에 흡연 시사의 현황을 깔고 마지막에 이제 필요 흡연
29:29 시설 위치를 좀 만드는게 이제이 작업들이었다 여기 있는 숫자들이
29:36 있 그래서 실제로 이걸 갖고 지금 뭐 하고 있는 창원시에서 이걸로 되게 흡영 구역을 만들고 있어요 창원시에
29:42 이걸 저희이 학생이이 겨울에 한 거를 봄에 대출을 했고 실제로 창원
29:48 시에서는 이거갖고 후영 그역을 만드는 중 왜냐면 이제 효과가 극대화될 수
29:53 있는 건 흡연자의 밀도가 높은데 흡연 구역이 없는 곳일 거 아니요 그런 거를 할 수 있게 된 거고요
30:02 기대가죠 근데 이제 여기에는 이런게 있 시시고 교통 시설에 대한 좌표도
30:08 다 데이터 출이 돼 데이터 서시 여기 빅데이터 캠퍼스에 파견을 오셔서
30:13 하시면 될 거예요 다 자유 구할 수 있고요 KT 유동인 데이터 뭐 L 6플러스 skt2 그 지자체에 따라는
30:21 다르긴 한데 제공이 지금 많이 되 그래서 이런 것들을 했고요 그래서 뭐 여러분들이 배워야 되는 거 어떤
30:28 기술을 배우느냐 R이라는 기술 아이라는 프로그램이 언어를 좀 다르지 않 되고 qjs 알면은 이제 통이 두
30:36 가지로 대부분에서 버가 되는 영네 예 뭐 찍을 예 찍으셔도 텐데
30:45 다시 할까요 잘 나왔나요 이렇게 됐고 그다음에 바로이
30:51 친구들이 하나 이제 아까 저 정도 프로젝트를 하고 나니까 이번에는 머신러닝을 좀 해보겠다고 했거든요
30:57 머신러닝 까지 그러면 간 시간이 얼마냐 머신러닝을 갖고 어떤 분석을 하는 데까지 얼마 걸렸냐 그러면 데이
31:04 아까 사회조사 분석사 자격증 하나 달랑 들고서 통계학 다 어놓고 군대다 왔고 그 상황에서 2년째 이게
31:10 2년째에 결과 그래서 중도탈락 대학생을 이제
31:16 예측 분석이라는 걸 한 겁니다이 예측 분석을 하기 위해서 필요한 건 뭐 중직 분석이라는게 있어
31:22 클러스터링이란게 있는데 그 방법을 쓴 건데요 아 그리고 아까 말한 취업을
31:27 한 분 있니다 그래서 해보자면 예 전국의
31:34 중고 탈락 대학학생 비율이라게 있고 굉장히 작지 않죠 그래서 대학들은
31:40 요즘에 충원율과 취업률 입학률을 굉장히 록을 내고 있는데요 뭐 그러다
31:45 보니까 여러 가지 문제가 있죠 뭐 문제에 대해서는 뭐 더 지적하지 않아도 될 겁니다
31:51 그러다 보니까 이제이 친구들은 해 본 거예요 중도 탈락자를 좀 막을 수 있는 방법이 없을까 굉장히 쉬운
31:56 거잖아요 그 주제 자체는 학교에서 뭐 동기나 후배나 혹은 신입생이 들어와
32:01 갖고 가시 에다가 갑자기 뭐 반수를 하겠다 나갈 수도 있고 갑자기 뭐 꿈을 잃어 가지고 대학생활을 안 만다
32:07 뭐 이렇게 만들 수도 있거든요 그거를 조금 데이터를 갖 잡아보자는게 이제 기본적인 생각이고 그러기 위해서
32:13 이거는 학 학교예요 학교에서 학적 정보 데이터를 좀 받아 냈어요 학적 정보 데이터는 인적 데이터라 중요하긴
32:20 한데 이름을 다돼 무기명 처리해 가지고 이렇게 기호를 바꿔가지고 주더라고요 그래가지고 그거를 전처리는
32:28 일단 전처리 얘기 좀 할 건데 그렇게 해서 이걸 인테그레이션이라고 하는데 데이터 결합을 좀 하고 그다음에 상담
32:35 데이터랑 이거게 없 거예요 두 가지 여기에 들어가지 제로면 학적 데이터는 뭐 이름 뭐 주소 뭐 나오 출신학교
32:42 뭐 학점 뭐 그다음에 과목별 성격도 다 있고요 뭐 이런 데이터랑 뭘 엮어
32:48 창문 데이터를 엮어 가지고 이제 데이터를 통합한 거예요 그러는 그중에서 어떤 것들이 좀 위기 팅을
32:54 만들 수 있느냐가 이친구들을 하려고 했던 작업이고요 예 뭐 구트 스트래핑이 기법을 설명
33:00 안 하겠습니다대 어쨌든 전에 머신러닝 기법을 활용해 가지고 예측모델 한걸
33:06 한 거죠 그래서이 두 가지를 결합한 거예 정형이 하면 아까 말씀드린 저 표 형태로 구현되는 거 비정형
33:13 데이터라고 하면 표로 구현되지 않는 다양한 도의 데이터 특히 우리가 이제 많이 쓰게 되는 거는 여러분들이
33:18 대학교 다니면서 많이 쓰게 될 것들은 텍스트 텍스트 뭐 그런 거 많이 보지
33:23 않았어요 워드 클라우드 같 이게 이제 워드 클라우드 때문에 주진 않네요 색깔은 이게 안 들어가고 그 글자의
33:30 빈도만큼 글자가 퍼지고 색깔이 들어가고 이런거든 뭐 그런 이제 기정형 데이터 활용을 많이 하기 위에
33:37 두 가지 영국이 프로젝트였어요 이렇게 해서 패턴화를 뭔가 시키는게 점입니다
33:43 예 턴을 CNN이라는 기법을 좀 패키지 명령하사 실제로 쓰는
33:50 관점 분석을 이제 했고요 중부 탈락한 학생들 이제 기계 공학부에 선 64
33:57 중에 132명이 했더라고요 이게 지방 대에서는 공대 탈락자가 많 공대에서
34:03 중도에 관두는 학생들이 많아요 문과는 비나 다니는데 군대는 뭐 기술이
34:09 필요하잖아요 기술이라고 하면 뭐 수리적인 등는 필요하고 일반 이제
34:14 물리나 뭐 일반 화학이나 이런 것들도 배워야 되고 공학 자체가 숙제도 많고 그러다 보니까 이제 많이 그만두는
34:20 경우가 많아서 어쨌든 공대 데이터를 이제 갖고 하는 건데 여기 인력에는 아까 학적 정도하고 상담내역을 어
34:26 가지고 데 이게 과연 영향을 미치느냐 그 한 거고요 먼저 비정형 데이터를 갖고 해가지고 어떤 경향성 하나
34:33 뽑아내고 거기서 형태소 분석이라는게 있는데 뭐 그런 거 있잖아요 명사
34:38 지사 형사 뭐 이런 것들 그런 것들 이제 뽑아 가지고 이제 어떤 단어들이
34:44 특징적으로 등장하는가 그만둔 학생들하고 안 그만둔 학생들의 차이를 좀 보고 그만둔 학생들에게 많이
34:51 나왔던 단어들에 대해도 찾아보 거서가이 기법을 다 설명할 수 없을거
34:57 같 그렇게고 이제 하면은 뭐냐면 이렇게 구름이 나와요 나중에 최종적으로 집
35:03 분석이라 걸 하면 컴포넌트 2는 이제 그만두지 않은 학생들이 어떤 련의
35:08 경향이 나온다는 거를 시각적으로 구현할 수가 있고요 컴 아 코디 1은
35:14 이게 그쪽에 이제 빨갛게 이렇게가 박스가 돼 있는 쪽은 그쪽은 이제 그만 학생들 중도 살라 전공 구저
35:22 분이라고 할 수 있는데 그럼 가장 큰 코팅이 뭐였나 보면은 전공 시득 학점
35:28 자체가 0에 가깝다 뭐 이런 식으로 있 결론이 나 것 뭐 이런 종류도
35:34 있네요 그다음에 뭐 다른서 다 고요이 프로젝트가 한 달
35:40 한 달 정도 걸리라고 한 달 정도를 매일 같이 둘이고 아까 말 세 명이
35:45 했는데 세 번째 학생을 아예 할 줄 몰랐는데 시작부터 해가지고 한는 친고 두 명은 이제 원래 좀 아과 그다음에
35:53 머실 이런 책을 좀 친 예 그렇게 돼 갖고 이제 뭐 이거 활용해 가지고
35:58 학교에서 또 이거를 좀 활용할 계획이에요 그래서이 작업을 했던 사람 중에 첫 번째 학생은 아마 뭐 그
36:06 경남대학교 교육 신원이 있는데 취 더 존재 되면 가고 아니면은 이제 단 이거부터 와서 연구중 하라고 연거
36:14 계획 해요 예 뭐 이런 종류 이제 프로젝트들을 실제로 하게
36:21 되더라고요게 되었고 뭐 성취라는 건 이런 프로젝트들이 본인 치였어 그래서
36:29 2017년에 처음에 왔을 때는 아까 말씀 제가 미세먼지 얘기를 왜 했냐면 그 2017년에 이친구 빅데이터
36:35 캠퍼스란 저희랑 협약이 안 돼 있을 때 친구는 어디 갔냐면 서울 사회혁신 리서치 랩이라는 데가지 불광동에
36:42 있어요 거기가 가지고 과제를 하라고 그랬더니 뭘 투사 했냐면 아까 미세먼지 같은 걸 세운 거예요 모냐면
36:48 오래 아 서울에 온도 추위를 하더라고요 그래갖고 여름에
36:53 덥다 여름에 더운데 뭐고 그 데이터를 갖고 무슨 해법을
36:59 낼래 여름에 거 서울이 그랬더니 뭐 양사를 써야 된다고 이상한 결
37:05 처 그 그랬는데 이게 한 이런 과들을 한 세 개네 개 정도 되니까 좀 물이
37:12 올라오더라고요 그니까 저는 좀 많이 걱정이 많았어요 저는 산업공학을
37:17 개인적으로 산업공학을 배운 사람한테 사사 받듯 회사에서 배운 사람 그
37:22 그런 경우가 아니고 그냥 본인들이 이런 그 뭐 계나 이런
37:28 머신러닝이나 이런 기법들을 과연 문과 학생들이 할 수 있을까에 대한 걱정이 저는 굉장히 많았던 사람이고 여전히
37:35 그 걱정이 있는데 어느 정도는 구현할 수 있게 많이 돼 있고요 그 이유는 뭐냐면
37:41 계하기 쉬워졌고 수학이 쉬워지는게 아니고요 그게 아니고 그것들을 중간에서 좀 쉽게 풀이할 수 있는
37:48 도구들이 많이 생겼고 내가 수학 공식을 모르더라도 구현할 수 있는
37:53 해법들이이 패키지라는 이제 라이브러리 혹 키지 라고 부르는 것들이 이제
37:58 많이 축적이 돼 있고 그 모르면 구글링 하면 해결할 수준에서 우리가
38:04 궁금한 것 정도에 대한 기법들은 다 있더라고요 예 그게 아마 좀 가능하게
38:09 만들고 있는 거 아닐까 또 하나의 이슈는 뭐였냐면 영화였습니다 예 데이터 분석을 하기 위해서 영어가 더
38:16 사실 수학보다 어려운 거였거든요 왜냐면은 하도 이거를 분석을 하는 사람들이 별로 없었기 때문에 대부분의
38:23 지식이 구글에 올라올 때 영어로 올라와 있었기 때문에 영어를 못하면 이 발생하는 문제들이 해결이 잘 안
38:30 됐어요 근데 지금은 이제 한글로도 많이 충분히 측정이 된 상황이라고
38:36 좀 예 그래서 뭐 이런 프로젝트 이제 쳐 여기까 내가 서울 온도 낮출게
38:43 여름에 더워요래 근데 온도를 낮추겠다 낮추 싫다하고 양산을 씌우는 걸로
38:48 했고요 그다음에 뭐 뭐 이렇게 하다 보니까 버스 미론 프로젝트가 아마 텍스트 마이닝 프로젝트였어요 그게
38:55 어떤 단어들을 가장 미원에 많이 올라오는가 그래서 창원씨 같은 경우 버스에 가장 큰 문제는 뭐냐면 예 그
39:02 산길 비탈길 이런 데서 880km 받는다는 거거든요 그리고 이제 내려주는 곳과 이제 내려주지 않는
39:08 곳이 정해져 있지 않아요 그 태워주는 곳과 내리는 곳이 정해져 있지 않아요 그러니까 그냥 배를 누른다고 이렇게
39:14 정의 치 해주지 않아요 그래서 뭐 그런 거에 대한 인원들을 좀 추출을 했었고 그런 작업은 여러분들 지금부터
39:21 시작하셔도 해두 한 그니까 방법을 안나고 전제하면 한 처음까지 5일에서
39:27 10일이 정도는 할 수 있는 아마 쉬운 프로젝 거요 그래 갖고 민원의 요점은 남법 전이었고 과속이 있는데
39:34 해법에 대해서 시민들한테 물어보면 다 똑같아서 준공영제를 서울에 구입하고
39:40 있는데 그게 창원 안 되기 되 기사들이 이제 쫓기듯이 이제 많이 태워야 되기 때문에 나보자 한다
39:45 보니까 결론을 그 데이터를 갖고 좀 찾아낼 수가 있었고요 뭐 그러다 보니까 이제 기량이 많이
39:51 올라가더라고요 그래 여기 와갖고 이런 데이터 분석할 때까지도 이제 어 예
39:57 좀 그랬는데 이제 아까 말한 탈 방 프로젝트도 있고 아까
40:03 제가 보여드린 뭐 그 흡연 구역에 대한 거 빼 놨네요 그런 프로젝트들
40:08 하다 보니까 이제 올라오는 거죠 그러니까 요점 뭐냐면 수업이나 어떤
40:13 정규 과보다 더 중요했던 거는 공모전들 실제로 끌고 가면서 굉장히
40:18 많은 기량이 올라왔다 그리고 이게 뭐 다 그 세 시장들이 좀 있는 거죠
40:26 아직도 데이터 분석가에 대한 수요보다 공급이 부족한 상황이긴 하거든요 그러니까 비슷한 일을 하던 사람들이
40:32 다 자기가 분석가 하는 상황이기 때문에 실제로 분석과의 영향 자체를 갖고 있다 이렇게 말할 안한 사람이
40:39 없어요 그 말은 거꾸로 말하면 어느 정도 이상의 기량이 되는 사람에 대한 수요는 여전히에 다 이렇게 말어이
40:47 친구를 보면서 그걸 느끼는 거예요 예 그 친구다 예 그렇습니다
40:57 뭐 이런 거 이제 이런게 이제 텍스트 마이닝이 하는 거고요 워드 클라우드랑 기법이죠 다 아실 아실 수도 있고
41:03 처음 보는 수도 있고이 글자를 긁어오는 거를 우리가 크롤링이 하는데 그거는 아리나 파이썬이 아는 이제 그
41:10 프로그래밍 언어에서 뭐 셀레늄 이런 풀을 활용해서
41:16 가져옵니다데 어 그런 거 배우면 그이 정도는 하는 거는 이거는 그냥 당일로도 할 수 있는 분석이라고 볼
41:22 수 있고 빈도를 세는게 제일 쉬워요 빈도를 세는게 쉽니까 단어의 빈도를 갖고 이렇게 만드 많이 나오는가 중앙에
41:30 크게 나오게 하 뭐 이런 우 할 수 있다 뭐 통계분석 그다음에 뭐 추론
41:37 통계 그런게 있어요 거 빅데이터 하면 통계 잘라야 되냐 이런 말이 있고
41:43 통계하여 우리 통계 자격증 아까 사회조사 분석사 두 세 명 있었는데
41:48 사회조사 분석사 중요한게 뭐 기술 통계 추론 통계 뭐 이런 거라고 알고
41:54 있거든요 기술 통계 뭐를 구한다 주 값을 구한다 뭐 뭐 그다음에 뭐
41:59 분산에 대해서 변이에 대해서 구하기 위해서는 뭐 이제 분산을 알고 표준 편차를 알고 뭐 그렇게 하다 보면 또
42:05 이제 피 검정도 해야 되고 무순 검정도 해야 되고 뭐 이제 분산 분석도 해야 되고 뭐 이렇게 가야 되는데 그런 분석이 한편에서 데이터
42:13 분석의 기법이 많는데요 근데 그 그 전통적인 통계학만이 그건 아니고요
42:19 요즘에는 이제 머신 러닝이 훨씬 더 많이 실질적으로 쓰이는 거고 통계학과 머신러닝의 사이이 요약한 점은
42:26 그거예요 통계 전통적인 통계는 표본을 갖고 전체 집단을 노출하는 거였다면
42:32 머신러닝 그게 아니고 쏟아지는 데이터를 배소로 쏟다 붙다 보면 이거에서 나오는 흐름을 갖고
42:38 무엇인가를 분석할 수 있다는게 기본적으로 머신러닝의 방법이 거고요 그런 부분에 있어서 그러면 그렇게
42:45 쏟아지는 데이터를 처리하는게 쉽냐 정통적인 통계가 쉽냐 이러면 사실은 머신러닝이 더 쉬워요 불법적으로 근데
42:52 그 안에 있는 알고리즘을 이해한다 이러면 물치가 아파지는 거고 여기서 알고리즘 공부까지
42:58 하실 기회는 그렇게 많지 않을거 대학교 할 때까지 프로젝트를 하는데
43:03 그 알고리즘에 완전히 수리적으로 이해할 필요는 없을 거예요 그 그 정도 수준에서 하면 되고요
43:09 근데 아 뒤에 있나 뭐 일단 그렇습니다 그고 뭐 이런 것도 뭐
43:14 어느 요일에 마타나 이런게 좀 쉽게 해볼 만한 것 예 지하철은 금요일날 많 그리고 뭐 미세먼지도 뭐 할 수
43:23 있 제가 이번에 여름에 저희과 학생들을 세 보냈더니 역시나 그
43:28 친구들이 미세먼 이거 이거를 한 두 달 동안 그리고 갔습니다가 금방 할 수 있는 거고요
43:35 그 이생원 이런 시 초 이생원 아까 말 원클라우드 이런 거
43:42 만드는데 드는 드는 지금 여기 26 줄인데 26 줄 정도의 코드를 내가
43:47 제가 여기 25기 전에 만들었 뭐 이렇게 련에 하는 작업들을 하면은
43:53 만들 수가 있습니다 그래서 이런 거 게 나왔고요
43:58 뭐 코딩 예 뭐 이거는 네트워크 분석 코딩 하는 건데요 네트워크 분석 코딩은 좀 길어요 그래서 뭐 줄스
44:06 하는 50초 그정도 들었던 거 같은데 네트워크 분석은 단어간의 연결성을 좀
44:12 보는 이런 것들 말고도 뭐 다른 매 어 맞네 이런 것도 요즘에 최근 많이 하는 거고요 실제로 구연 하는데 집줄
44:20 그리고 지식으로 치면 이것도 한 뭐 일주일 정도는 배워야 하는 기법 좀네
44:25 그런 거라 볼 수가 있습니다 이런 런 감정 분석 이런 거 출실 제를
44:31 해는데 그렇게 오래가 있는 건 아닙니다 그래서 어떤 나가 긍정적으로 어떤게 부정적으로 이런 것 파악하는
44:37 걸 이제 감정 분석이라고 하고요 이런 것도 할 수가 있죠 그러면 이제 이런 것을 이제
44:44 분석 좋다 이거예요 그 결과가 나오면 뭔가 그래픽도 있고 좋은데 얼마나 걸려서 좀 배워야 할 것인가 이게
44:50 이제 마지막 남는 지인 거 같아요 세 가지 영향입니다 예 네 그
44:57 데이터 분석을 하기 위해서 해야 되는 거는 세 가진데 뭐 이건 아주 흔한
45:02 얘기예요 그 한쪽에서 프로그래밍 뭐 해킹 스킬이라고 했지만 해킹 해커가 될 수준에 그 정도는 아닌 거 같고
45:08 뭐 프로그램 코드를 이해할 수 있고 디버깅을 간단한 것들을 본인들이 할 수 있을만큼 하는 거 그리고 뭐 수학
45:16 통계를 하는데 아까 제가 말씀드린 것지만 되게 높은 수준의 수리 통계는 부딪칠 때 하면 됩니다 부딪칠 일은
45:22 잘 없습니다 그러니까 부딪히기 전까지 알고 있는 걸로 하고 하면 조금씩 키워가면니다 그리고 자기 사실 근데
45:30 더 중요한 건이 문제 설정 아까 일반적인 기술이라고 했잖아요 제 한참
45:41 해서 예이 일반적인이 문제해결 능력들이 사실 더 중요하고 뭔가이
45:48 비판적 사고라고 하는 거는 자기가 알고 있는 어떤 영역에 대해서이 판에 대한 이해도와 이거에 대한 비판적인
45:54 능력이 있거든요 근데이 데이터 하라고 하면은 전부 다 뭐만 하냐면 코딩책
46:00 하나 딱 사가지고 이제 계속 봐서 따라 하고요 그다음에 이제 갑자기 썩
46:06 공부하겠다고 뭐 이렇게 인간 많 크 요즘에 공짜로 그거 듣고 있는데 그거보다 더
46:13 중요한 거는 어떤이 문제를 정의할 수 능력이 정의할 수 있는 능력이 더 중요할 때가 많아요 그게 자기분 발심
46:21 성이라고 하고 여기는 뭐라고 했는데 도메인 리즈라고 하는 경우도
46:28 많아요 그러니까 도메인 알리지는 자기가 알고는 1년에 딱 지식 그게
46:34 좀 더 중요한 순간이 있습니다 그래뭐 저희는 이런 거를
46:39 가고 뭐이 다 같이 배우는 효과가 있어서 이렇게 하고 있고 뭐 예 그
46:46 하나 말씀드리고 싶은거 요즘에 다이 아리나 파이썬을 배울 수 있는 과목은 언학 교나 다 있는 거 같아요 한 두
46:52 과목 정도 들으면 아리나 파이썬 자체를 데이터 분석이 필요한 거를 할 수가 있고 또 하나는 확률 통계론이나
46:59 사회 통계 이런 수업들을 아리나 파이썬으로 하는 경우가 많아졌어요 그냥 그런 거 들으면 되는데 그 앞에
47:05 제가 방법 놈이 실수도 제가 강의를 하고 있는데 좀 어 그 인식론적인 관점에 질문이 좀 필요해요 그러니까
47:12 내가 뭐가 궁금하면 이걸 어떻게 문제로 생각하고 가설을 정하고 이걸 어떻게 풀지 이거에 대한 연습을 조금
47:18 여러분들이 해 보시면 되 중요하다는 생각이 그 실제로 실전은 프로젝트를
47:24 많이 하는 것이 기술과 지식 많지 모르 그 뭐 실용적인 얘기만
47:31 해보겠습니다 요즘에 논쟁이 심해요 그 다 한동안 아을 배웠어요요 3년 동안
47:36 트렌드는 아이었어요 아을 열심히 배워 배운다는데 예 파이썬이 예 치고
47:43 올라오고 있고 요즘에 파이썬도 사실 다 구현하고 있어요을 쓰는 이유가 뭐냐 그럼 주지 플라 때문이라고 하는
47:49 사람들이 많았거든요 주지 플라센 그래프를 그려주는 패키지예요 근데 요즘에 파썬은 어떻게 그릴 수 있냐면
47:55 그냥 일반적인 그 그래프를 그리면 주지 플러스로 모양을 바꿔 줍니다 뭐
48:01 그런게 있기 때문에 이제 파이를 배우는 경우도 있고요 그 그겁니다은 그냥 통계 패키지 혹은 엑셀을 잘
48:07 쓰던 사람들한테는 아이 배우기가 편하고요 파이썬은 개발자들 아고 같이
48:13 일하고 내가 회사가서도 분석을 많이 하고 싶다 그렇게 할 경우에 파이썬이 범용적으로 많이 사용할 수 나오는
48:19 거예 이렇게 하면 되고요 순서는 뭐 기초 통계 배우는 것도
48:24 중요한데 3번에 뭐 타이디버스 넘파이 판다스 사이키 그 왼쪽에 타이디버스
48:30 아래에서 쓰는 가장 기본적인 패키지에요 그리고 우측에 있는 넘파이 판다스 사이키는 판 그 파이썬에서
48:38 쓰는 데이터서 패키지 이거든요 기본적인 근데 그이 얘기를 왜
48:44 여기다가 써냐 무엇을 할 거지데 여러분들이 데이터 분석 빅데이터 분석을 배우면 분석을 계속 할 거
48:50 같잖아요 근데 실제로 분석을 100 정도가 있으면 시간을 몇 정도 드릴까요 분석하는데
48:57 그것만 얘기해보면 얘기가 좀 끝날 것 같아요 10% 정고 분석하는데 10%
49:04 정고 쓰고요 문제정의 한데 10% 쓰고 그럼 80% 나오거 80% 예 전철이 한데 씁 내가 내가 원하는
49:13 형태로 만들어진 데이터는 세상에 없어요 그러니까 예 그거를 내가 원하는 대로 만드는데 80% 시간을
49:19 써야 되니다 노가다죠 다시 말하자면 노가 자데 그래서 기법 알고리즘 막
49:25 생각하기에 바빠서 데이터를 직접 만지는 건 잘 모르데 사실은 데이터 만지는 거 훨씬 더 중요한니다
49:32 데이터를 많이 만져 보는게 굉장히 중요 뭐 전공 지식 아까가 말지만
49:38 굉장히 중요해 그리고 배울 때는 많아요 뭐 여기 와서 배울거 많이 얘기할 필요는
49:44 없는 거 같지만 뭐 무크가 굉장히 많고요 무크 스 영어가 조금 돼요
49:49 코세라 코세라 에덱스 유다시티 있고 그 외에도 뭐 MIT 그래도 지금
49:54 계속 포스를 풀어놔 가지고 데이터 분석 관련 수학 관련 프로그램들은 굉장히 많이 돼 있어요 그리고이 칼
50:01 아카데미 이런 것도 있는데 이쪽에 있는게 칼 아카데미 든요 칼 아카데미 같은 경우는 특징이 이제 초등학교
50:07 1학년 수학부터 대학교 졸업 학부 졸업 수준까지 수학이 같이 들어가 있고요 이걸 보면서 문과 출신인데 다
50:13 클리어한 사람들도을 제어 그 그리고 네이버가 계속 번역하고 있습니다 네이버에서 번역하고 있고 이제 번역
50:20 프로젝트 많이 완 런 거 많이 쓰시는니다 그 많이
50:26 외우시면요 책도 이제는 굉장히 많이 올라와 있습니다 책 추천은 단 궁금하 개인적으로 물어보 그리고 뭐 요즘에는
50:33 그 아까 말한 코세라 이런데 유료예요 한한 광자데 5만 원 정도 들거든요 근데 지금 구글에서 계속 지원합니다
50:39 지금 스터디 보인가 진데 가는 구글에서 코세라 강의 주는 거는 지금 공짜로 지원해 주는 경우가 막 스도
50:46 나와요 그래서 그 구글 스터디 때을 좀 열심히 활용하시면 그 스터디 보면
50:53 괜찮을 거라는 생각이 좀 들
51:01 같 그 뭐 오픈스타일 오픈소스 스타일로 공부한다는 거 웹에 워낙
51:06 많은 정보가 있기 때문에 이것들을 좀 익숙하게 할 수 있는게 중요하다는 얘기고 해커 스타일로 일한다는 거는
51:12 뭔가가 그런게 있어요 존이라는게 있어요 존이라는 말이 있 손으로 그냥
51:18 해본다는 거예요 제가 학교에서 수업할 때 무슨 얘기 하냐면 피아노 레슨이라고 생각하려고 하는 경우가
51:23 있어요 저는 이렇게 수도 못하 은 괜찮은데 타자가 느리면 내 집에 다시
51:29 보내는 경우도 있습니다 2타를 가지고 와 2 벡터보다 늦으면 수업을 따라올 수가 없다네 그런 얘기 하거든요
51:36 그러니까 따라하고 많이 베기고 또 그 프로젝트를 조금 변주해서 해보는게
51:42 굉장히 이제 실제 빅데이터 수학이라는게 중요한 거 같고요 다른데 당연히 하 그리고 뭐 링크디 이런데
51:49 있잖아요 그럼 이제 온라인 뭐 이력서 업데이트하는 좀 좋은 거 같습니다 그래서 결국에는게 도 이렇게 만드는
51:57 습관을 좀 드리면 확실히 빨리 되는 거 같긴 해요 저는 제가 갖고 있는 모든 책을 1700번 정도였어요이
52:04 당시에 그 다 이걸 입력하고 안았는데 뭐 지금도 입력하고 있어요 뭐 이렇게
52:11 뭔가 그까 자기가 갖고 있는 데이터를 만드는 것도 좀 관을 드리는 거는 좀 중요한 거 아닌가 그리고 뭐 사회
52:18 학자로서 제가 얘기하자면 이제는 저게 없습니다 그러니까 직업 직장 평생 직장은 없어진지
52:25 10년이 너무 20 10년 된 거 같고요 평생 직업이란 관점에서 아직 서바이브 가능한데 평생 직장이라
52:31 말이가 안되고 언제든지 갈아탈 수 있는 사람이라면 요는 그냥 계속 뭔가 학습
52:38 학습에 대해서 스트레스 받지 않고 지속적으로 자기 지식을 쨌든 쌓고 발전시키는 거에 좀 핵심이 있는 거
52:45 같아요 그래서 그런 부분 좀 생각하는게 데이터 빅데이터 관련된을 정해 중요하다는
52:52 실 뭐 데이터 분석 한다는 면은 이런 말인데요이 네이트 실버는 한번
52:59 유명해도 딱 한번 망했어요 예 오바마가 당선될 걸 예측했다 떴고 트럼프가 되는 바람 망했어요 자기는
53:06 예 hrc 된다고 했거든요 근데이 사람이 한 말 제일 중요한 하나는이
53:11 데이터 분석은 뭐냐면 소음 속에 너무 많은 데이터가 세상에 널려 있고이 중에 신호를 잡아낸거다 예 어 이게
53:19 무엇이 소음이 신호인지를 좀 하는게 중요하겠죠 이런 거겠죠 데이터 원리를
53:25 찾는 거 많은고 어볼
53:32 사이트 그러 여기까지
53:38 [박수] [음악]
|