데이터 사이언스와의 첫 만남
처음으로 '데이터 사이언스(Data Science)' 라는 단어를 들은 건 지금으로부터 3년 전, 학부 2학년 때이다. 2016년 3월에는 '구글 딥마인드(Google DeepMind)' 에서 만든 인공지능 '알파고(AlphaGo)' 가 이세돌 9단을 4대1로 이겨 대한민국이 술렁이고 있었다. 산업공학을 전공하여 '프로그래밍', '데이터베이스', '응용통계', '인공지능', '데이터마이닝' 수업을 들었고, 자연스럽게 데이터 사이언스를 접하게 되었다.
데이터 사이언스 관련 수업들을 들으면서 느껴지는 감정은 '이거 좀 흥미로운데?' 였다. 그리고 제대로 배워보고 싶어졌다. 학교 공부 이외에도 스터디, 프로젝트, 경진대회, 정부지원교육, 기업인턴 등 다양한 활동을 하였다. 1년 정도 제대로 해보니 데이터 사이언스의 전체적인 흐름을 알게 되었다. 하지만, 공부를 하면 할수록 내 실력이 턱 없이 부족하다는 것이 느껴졌다. 모든 학문이 마찬가지겠지만... 수학, 통계학, 머신러닝, 프로그래밍 등등 공부해야할 것이 너무 많았다. 깊게 공부하자니 하나만 하다가 끝날 것 같고, 넓고 얇게 하자니 근본 없이 공부하는 것 같고...
고민이 생겼다..
"데이터 사이언스, 내가 해도 괜찮을까?"
데이터 사이언스를 알게 되고 본격적으로 공부를 해본 사람이라면 누구나 가져봤을만한 의문일 것이다. '知彼知己(지피지기) 百戰不殆(백전불태)', 적을 알고 나를 알면 백 번을 싸워도 위태롭지 않다고 했다! '전투(학업)'를 이어나가기 전에 '적(데이터 사이언스)'과 '나(필자 또는 당신)'에 대해 심사숙고해보는 시간을 가져보자.
< 목 차 >
Part I. 그것이 알고싶다: 데이터 사이언스
Part II. 내가 진짜 하고 싶은 일이 뭘까?
Part I. 그것이 알고싶다: 데이터 사이언스
[1] 데이터 사이언스란 무엇인가?
"데이터 과학(Data Science)이란, 데이터 마이닝(Data Mining)과 유사하게
정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데
과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다."
위키피디아에 검색해보면 위와 같은 문구가 나온다. 데이터 마이닝을 아는 사람은 쉽게 이해할 수 있을 것이다. 데이터 마이닝이란, 광부가 금을 캐듯이 데이터 속에서 유의미한 정보를 뽑아내는 것이다. 데이터 사이언스와 데이터 마이닝이 크게 차이가 없어보인다. 데이터 마이닝 기법은 데이터 사이언스에 적용될 수 있는 하나의 방법론이라고 볼 수 있지 않을까?
데이터 사이언스를 구글에 검색하면 가장 많이 나오는 이미지가 위와 같은 벤다이어그램이다. '데이터 사이언스 벤다이어그램(The Data Science Venn Diagram, 2010)' 을 최초로 만든 사람은 '드류 콘웨이(Drew Conway)' 이다. 그림을 해석하자면 다음과 같다.
- 수학/통계학+도메인지식 = 전통적인 연구 (Traditional Research)
- 컴퓨터과학+도메인지식 = 소프트웨어 개발 (Software Development)
- 수학/통계학+컴퓨터과학 = 기계학습 (Machine Learning)
- 수학/통계학+컴퓨터과학+도메인지식 = 데이터 과학 (Data Science)
컴퓨터과학 전공자들이 수학/통계학을 배워서 데이터 사이언스를 할 수도 있고, 수학/통계학 전공자들이 컴퓨터과학을 배워서 데이터 사이언스를 할 수도 있다. 물론, 이외의 모든 전공자들(또는 도메인 지식을 가진 자)이 수학/통계학과 컴퓨터과학을 배워서 데이터 사이언스를 할 수도 있다. '조쉬 윌스(Josh Wills)' 라는 분이 트위터에 남긴 글이 흥미롭다.
데이터 사이언티스트 (명사):
Data Scientist (n.):
'통계학을 잘하는 개발자' 또는 '개발을 잘하는 통계학자'
Person who is better at statistics than any software engineer and better at software engineering than any statistician.
[2] 데이터 사이언스를 하기 위해 필요한 것
데이터 사이언스를 하려면 어떤 스킬들이 필요할까? 데이터 사이언스를 하기 위해 세부적으로 공부해야할 것들에 대해 알아보았다. 아래의 그림은 IBM Watson CTO였던 '스와미 챈드라세카란(Swami Chandrasekaran)'이 만든 '데이터 사이언스 커리큘럼 지도(Curriculum via Metromap, 2013)' 이다. 글씨가 작아서 잘 보이지 않는다면 이곳에서 확인하자.
개인적으로, 데이터 사이언스에 필요한 것들을 그림 하나에 잘 정리했다고 생각한다. 물론, 이 그림에 나와 있는 모든 것들을 알아야 데이터 사이언스를 할 수 있는 것은 아니다. 필수적인 것들도 있고, 굳이 알아야할 필요는 없지만 알면 좋은 것들도 있다. 총 10개의 카테고리와 몇몇 세부사항은 다음과 같다.
Fundamentals (기초) |
Linear Algebra(선형대수), Database(데이터베이스) ... |
Statistics (통계) |
Random Variables(확률 변수), Bayes Theorem(베이즈 이론) ... |
Programming (프로그래밍) |
R 또는 Python을 이용한 데이터 읽기, 조작하기 ... |
Machine Learning (기계학습) |
Supervised/Unsupervised Leraning(지도/비지도 학습) ... |
Text Mining/NLP (텍스트 마이닝) |
Vocabulary Mapping(단어 맵핑), Corpus(말뭉치) ... |
Data Visualization (데이터 시각화) |
Histogram(히스토그램), Boxplot(박스플롯), Scatter Plot(산점도) ... |
Big Data (빅데이터) |
MapReduce(맵리듀스), HDFS(하둡 분산 파일시스템) ... |
Data Ingestion (데이터 수집) |
Data Inergration/Transformation (데이터 통합/변환) ... |
Data Munging (데이터 전처리) |
Dimensionality Reduction(차원 축소), Normalization(정규화) ... |
Toolbox (도구) |
Spark(스파크), Cassandra(카산드라), MongoDB(몽고DB), D3.js, ggplot2 ... |
[3] 데이터 사이언스로 할 수 있는 것
데이터 사이언스가 어떤 프로세스를 거쳐서 이루어지고, 무엇을 할 수 있을까? 데이터 사이언스를 어떤 관점에서 바라보냐에 따라 프로세스가 약간씩 다를 수 있지만 아래의 그림이 넓은 의미에서 잘 표현된 것 같다.
- ASK an Interesting question (질문하기)
- GET the data (데이터 수집하기)
- EXPLORE the data (데이터 탐색하기)
- MODEL the data (모델링하기)
- COMMUNICATE and VISUALIZE the results (활용하기)
다섯 개의 단계가 단방향이 아니라 양방향이고, 끝이 새로운 시작이 될 수 있기 때문에 단계가 없다고 봐도 무방하다. 필요에 의해서 단계를 계속해서 왔다갔다하면서 데이터로부터 지식과 인사이트를 도출하는 것이다. 그림 우측에 작은 글씨로 써져있는 부분들도 읽어보면 더 깊은 이해가 가능하다. 이러한 데이터 사이언스 프로세스를 거쳐서 무엇을 할 수 있을까? 다음은 대표적인 데이터 사이언스 프로젝트들이다.
- 꽃의 너비와 길이 정보로 종류를 맞출 수 있을까? >> Iris Species: Classify iris plants into three species
- 타이타닉호 침몰 사고에서 나는 살아남을 수 있었을까? >> Titanic: Machine Learning from Disaster
- 은행 대출은 누구에게 해줘야할까? Loan Prediction: Whether a Person is Eligible to get the Loan or not
- 마트에서 물건을 어떻게 배치하면 잘 팔릴까? Diaper-beer syndrome (Market Basket Analysis)
- 주변 환경에 따라 집 값은 어떻게 변할까? >> Boston Housing Price (Regression Predictive Modeling)
위의 예시에 사용된 데이터셋들은 매우 유명한 것들이다. 데이터 사이언스 공부를 좀 했다면 이미 본 것들도 있을 것이다. 이외에도 암이나 심장질환과 같은 병을 예측한다던지, 비정상적인 거래를 알아낸다던지, 영화나 음악을 추천해준다던지 등등 데이터만 있다면 무궁무진하게 활용할 수 있다.
Part II. 내가 진짜 하고 싶은 일이 뭘까?
[1] 내가 꿈꾸는 나의 미래
중고등학생 시절, 내가 줄곧 적어내는 장래희망은 'IT기업 CEO'였다. IT 관련해서 근무하시던 아버지의 영향을 많아 IT 기술이나 제품에 관심이 많았으며, '스티브 잡스(Steve Jobs)'의 '아이폰 공개 키노트(2007)' 를 보고 혁신적인 제품 또는 서비스를 만들어 사람들 앞에서 발표하고 싶은 꿈을 가지게 되었다. 그 꿈을 이루기 위해 산업공학과로 진학하였으며, 현재도 최종적으로 꿈꾸는 커리어는 'Founder & CEO (설립자 겸 최고경영자)'이다.
"21세기 통섭형 인재는 대한민국에서 나올 것입니다.
한국인은 비빔밥이라는 최고의 융합 음식을 개발했고,
밥을 먹을 때조차 최고의 반찬 조합을 생각하기 때문입니다."
- 최재천 이화여대 석좌교수 -
2012년, 서울대학교 자연과학 공개강연에서 들은 최재천 교수님의 강연 '귀뚜라미의 소통과 지식의 통섭' 은 내 가슴을 뛰게 했다. 여러 분야에 업적을 남긴 아리스토텔레스, 레오나르도 다빈치, 연암 박지원, 다산 정약용 같은 학자는 현재 인류가 쌓아온 지식이 너무나도 방대하기 때문에 다시는 나타나지 않을 것이라고 단언하셨다. 이제는 전문성을 필요로 해서 '한 우물만을 파라'라는 말이 있지만, 우물을 깊게 파기 위해서는 넓게 파기 시작해야 한다. 하지만, 혼자서는 평생 동안 표면조차 제대로 긁지 못하는게 현실이라고 하셨다. 혼자서 불가능하기 때문에 필요한 것이 최재천 교수님께서 강조하시는 '통섭'이다.
통섭을 위해서는 다른 사람들과 함께 해야 하는데 여기서 '소통'이 필요하다. 소통은 잘 안되는게 정상이고, 어렵고 위험하다. 하지만 반드시 필요하기 때문에 소통을 위해서 엄청난 노력을 해야한다고 하셨다. 생물학을 전공하신 교수님께서 들어주신 첫 번째 예시는 귀뚜라미의 소통이었다. 수컷 귀뚜라미는 번식을 목적으로 암컷과 소통하기 위해 10시간 동안 울어댄다고 하셨다. 두 번째 예시로, DNA 연구에서 뛰어난 성과를 낸 세 명의 학자 제임스 왓슨, 프랜시스 크릭, 모리스 윌킨스 중에서, 유일하게 책을 써서 대중과 소통한 제임스 왓슨만이 현대인에게 기억되고 있다고 하시면서 소통의 중요성을 강조하셨다.
마지막으로, 다양한 분야의 학자들이 모여 학문을 논하는 현대판 '집현전'을 꿈꾸며 이 자리에서 인문학과 자연과학을 넘나드는 인재가 나왔으면 좋겠다고 말씀하시면서 강연을 마무리하셨다. 그 날, 융합형 인재가 되기 위해 노력해야겠다고 결심했다. 스티브 잡스가 융합에 대해 언급한 적이 있다. '인문학과 기술의 교차점에 애플이 있다'고 표현을 많이 하는데, 정확하게는 아래와 같이 말했다.
"기술만으로 충분하지 않다."
It is in Apple's DNA that technology alone is not enough.
"우리의 가슴을 뛰게 하는 것은 교양, 인문학과 결합한 기술이다."
It's technolgy married with liberal arts, married with the humanities, that yields us the result that makes our heart sing.
많은 사람들이 애플 제품을 사랑하는 이유는 기술력도 뛰어나지만 그 속에 담긴 철학이나 디자인 등 인문학적인 요소가 가슴을 뛰게 하기 때문이다. 기술과 인문학의 '융합'은 우리의 가슴을 뛰게 한다. 스티브 잡스는 'makes our heart sing' 이라고 표현했다. 가슴을 뛰게 만드는 것은 놀라운 일이다. 표면적으로는 인문학과 결합한 기술이 우리의 가슴을 뛰게 만들지만 그 속에 다른 무언가 느껴졌다. 스티브 잡스는 세상 사람들의 가슴을 뛰게 만들기 위해 하루하루 준비했을 것이다. 준비하는 동안 본인의 가슴이 뛰었을 것이고, 그 열정이 그대로 전달되어 감동을 주는 것이 아닐까?
되돌아보면 어릴 적부터 다른 사람의 가슴을 뛰게 만들 때 내 가슴도 뛰었다. 초등학생 때 발표를 위해 처음으로 PPT를 만들던 때가 기억이 난다. 어떻게 하면 내용을 잘 전달할 수 있을까 고민하며 사진 하나하나 신중하게 고르고 멘트를 준비했다. 작지만 나의 창조물에 사람들이 반응하고 더 나아가 감탄하는 경험은 매우 짜릿했다. 현재도 가장 좋아하는 일은 나만의 작품을 만드는 것, 그리고 그것을 사람들과 공유하는 것이다. 작품의 유형은 다양했고 시간이 지남에 따라 조금씩 변하는 것 같다. 독후감, 그림, UCC영상, 보고서, PPT, 블로그 글 등등.. 대학원생인 된 지금은 논문이라는 작품을 만들어낼 것이고, 그 이후에는 제품이나 서비스를 만들고 있을 것 같다. 더 먼 미래에는 책도 쓰고 싶고, 영화도 제작하고 싶고, 강연도 하고 싶다. 이 모든 게 큰 의미에서 다른 사람의 가슴을 뛰게 만들 수 있는 작품이라고 생각한다.
내가 꿈꾸는 나의 미래를 요약하자면 다음과 같다.
- 소통과 통섭을 중요시하는 융합형 인재 되기
- 다른 사람의 가슴을 뛰게 만드는 작품 만들기
- 나의 가치관을 담은 기업 또는 단체 설립하기
[2] 갑분데? (갑자기 분위기 데이터사이언스)
내 꿈은 구체적이진 않지만 방향이 정해져있다. 위에서 언급한 세 가지 꿈을 한 마디로 요약하자면, '소통과 통섭을 통해 다른 이들의 가슴을 뛰게 하는 작품을 만드는 기업 or 단체 설립' 이다. 꿈을 실현시키기 위해서 '작품의 주제'에 대해 명확히 할 필요가 있다. IT라는 주제는 너무 광범위하다.
2015년에 알리바바 그룹 회장 마윈이 "세상은 IT(Internet Technology)의 시대에서 DT(Data Technology)의 시대로 가고 있다"고 말했다. 현재, 데이터 사이언스 기술은 우리 주변에서 흔히 볼 수 있다. 4대 글로벌 IT 기업 'FANG(Facebook, Amazon, Netfilx, Google)'에서 제공하는 서비스는 대부분 머신러닝 기술이 적용되어 있으며, 이에 사람들이 열광하고 있다. Glassdoor사에서 발표한 'The 50 Best Jobs in America for 2019' 에서 미국의 유망 직종 1위는 Data Scientist이다. 대학에는 데이터 사이언스 전공이 생겼고, 기업에서는 데이터 사이언티스트를 모셔 가고 있다.
이런 세상의 흐름을 어떻게 받아들여야 할까? Harvard Business Review에서 '21세기 가장 섹시한 직업은 데이터 사이언티스트' 라고 했다. 섹시한 직업은 무슨 의미일까? 본문에서는 수요는 많지만 구하기 어려워서 섹시하다고 표현하였다. 내가 생각하는 데이터 사이언티스의 섹시함, 그리고 내 꿈과의 연결고리는 다음과 같다.
'일반적인 의미'의 섹시함 | '데이터 사이언티스트'의 섹시함 | '내 꿈'과의 연결고리 |
아무나 섹시하지 않음 | 아무나 될 수 없음 (혼자서 할 수 없음) | 소통과 통섭을 중요시하는 융합형 인재 |
이성의 가슴을 뛰게 함 (몸이 섹시하다) | 다른 사람의 가슴을 뛰게 함 |
다른 사람의 가슴을 뛰게 만드는 나만의 작품 만들기 |
남들과 다른 생각을 함 (뇌가 섹시하다) | 기발하고 창의적인 결과물을 내놓음 |
데이터 사이언스는 다학제적(multidisciplinary) 학문이다. 수학, 통계학, 컴퓨터과학이 기초가 되며, 사회학, 경영학, 경제학, 산업공학, 생물학, 의학 등 다양한 분야에 응용되고 있다. 데이터 사이언스 자체가 융합적인 학문이라서, 데이터 사이언스 프로젝트를 처음부터 끝까지 혼자서 하기는 어렵다. 커뮤니케이션 및 협업 능력이 필요하고 다양한 배경의 지식들이 어우러져야 좋은 결과를 낼 수 있다. 데이터 사이언티스트는 최재천 교수님이 말씀하셨던 '융합형 인재' 의 좋은 예라고 생각한다.
요즘 데이터 사이언스가 핫하니까, 데이터 사이언티스트가 돈도 많이 벌고 유망하니까, 무작정 남들 따라 데이터 사이언스를 하는 것은 굉장히 위험하다. 데이터 사이언스는 목적을 이루기 위한 도구이다. 스스로에게 아래 질문을 던져볼 필요가 있다.
'데이터 사이언스를 통해 이루고자 하는 바가 무엇인가?'
나는 데이터 사이언스를 통해 내 '꿈'을 이루고 싶다. 나의 꿈은 내 가슴이 뛰는 일을 하는 것과, 다른 사람의 가슴을 뛰게 하는 일을 하는 것이다. 스티브 잡스의 말을 빌려 한마디로 말하면, 'Make our heart sing!' 이다. 데이터 사이언스를 공부하고, 데이터 사이언스로 나만의 작품을 만들어낼 때 내 가슴이 뛰었다. 또한, 데이터 사이언스는 그동안 해결할 수 없었던 문제를 해결하고, 세상에 없던 새로운 경험을 선사하여 사람들의 가슴을 뛰게 한다. You & I, 우리 모두의 가슴을 뛰게 한다면, 데이터 사이언스를 '작품'의 주제로 정하기 충분하지 아니한가? 너로 정했다!
[3] 데이터 아트, 그리고 데이터 아티스트
2002년 메이저리그에서 가장 가난했던 구단인 ‘오클랜드 애슬레틱스’ 의 구단장은 데이터 과학 기반의 구단 운영으로 미국 프로야구 역사상 유일한 기록인 20연승을 거두었다. 이 이야기를 처음 접하는 사람을 위해 아래에 12분짜리 영상을 준비했다.
영상을 보니 가슴이 뛰는가? 이렇게 데이터 과학은 엄청난 힘을 가지고 있다. 이 구단의 이야기는 ‘머니볼: 불공정한 게임을 승리로 이끄는 과학 (Moneyball: The Art of Winning an Unfair Game)' 이라는 책으로 쓰여졌고 영화로도 만들어졌다. 책의 부제를 눈여겨 보자. 불공정한 게임을 이기는 것은 정말 매력적이지만 매우 어려운 일이다. 그걸 가능하게 하는 것이 Art라고 표현하고 있다. 예술적이구만.. 'Art'의 진정한 의미는 무엇일까?
오늘날 '예술' 또는 '미술'을 의미하는 art의 어원은 라틴어 'ars(아르스)' 이고, ars는 'techne(테크네)' 에서 유래했다. '기술'을 의미하는 technique과, '예술'을 의미하는 art의 어원이 같은 것이다. art는 넓은 의미에서 '기술'이고, 좁은 의미에서 '예술'이다. 예술은 '미적 작품을 형성시키는 인간의 창조 활동'이다. 요즘 데이터 사이언스로 만들어낸 결과물들은 놀라움의 연속이다. 데이터를 이용해 작품을 만들어내는 일도 '예술'이라고 볼 수 있지 않을까? 다음은 필자가 새롭게 정의한 아주 예술적인 단어들이다.
- 데이터 아트 (Data Art) - 데이터 사이언스를 통해 나만의 '작품'을 만들어내는 것
- 데이터 아티스트 (Data Artist) - 다른 사람의 가슴을 뛰게 하는 (또는 섹시한) 데이터 사이언티스트
사실 '데이터 아트'나 '데이터 사이언스'나 같은 말이다. '데이터 아티스트'는 다른 데이터 사이언티스트와 구분되기 위한 나만의 '브랜드(Brand)'이다. 1년 전부터 데이터 사이언스 관련 발표나 행사를 참석할 때마다 나를 이렇게 소개했다.
"안녕하세요, 데이터 아티스트 김지후입니다."
데이터 아티스트라는 말 속에는 '다른 사람의 가슴을 뛰게 하는 나만의 작품을 만들어보자' 라는 내 꿈이 들어있다. 이렇게 나를 소개할 때마다 내 꿈에 대해 스스로 환기시키고, 다른 사람들의 기억 속에 내가 좀 더 오래 남도록 하는 효과가 있다. 이 한마디가 내 가슴을 미세하게 뛰게 하며, 이 말을 듣는 사람도 가슴이 미세하게 뛸지도 모른다. 마치 어벤져스에서 "아이엠 아이언맨" 이라고 말하면 관객들이 전율을 느끼듯이..
마치며...
이 글은 '데이터 사이언스를 내가 해도 괜찮을까?' 에 대한 고민의 흔적이며, 같은 고민을 하고 있는 사람들에게 조금이나마 도움이 될 수 있었으면 하는 바람으로 포스팅했습니다. 데이터 사이언스에 대해 궁금했던 사람 또는 데이터 사이언스에 관심이 많은 사람들에게 공감이 되는 글이 되었으면 합니다. 긴 글 읽어주셔서 감사합니다!
'데이터 사이언스를 통해 이루고 싶은 일' 또는
'데이터 사이언티스트의 꿈을 가지게 된 계기' 를
댓글로 공유해주세요!