본문 바로가기
Big Data

왜 데이터 과학(Science)인가?

by csk 2015. 3. 30.

최근에 명함을 만들면서 고민에 빠졌더랬습니다. 하는일을 뭐라고 적을까 하면서요.  :)


제가 물망에 올렸었기도 하고, 또 최근 빅데이터 분석 관련 직업으로 꼽을만한 대표적인 명칭(job name)은 크게 세 가지 정도 인 것 같습니다. 그건 바로,  데이터 엔지니어(Data engineer), 데이터 분석가(Data Analyst), 데이터 과학자(Data Scientist) 입니다.. 뭐 찾아보시면 이 세가지 직업에 대한 설명과 연관성을 글로나 다이어그램으로 풀어놓은걸 많이 찾으실 수 있을 테지만, 저는 저 나름대로의 쉬운 설명으로 한번 적어볼께요. 

(음 앞의 두가지는 빅데이터 엔지니어, 빅데이터 분석가로 특별히 명시하는 경우가 많은데, 데이터 과학자는 주로 빅데이터를 다루지만 빅데이터 과학자로는 부르지는 않는 경향이 있네요. 아마도 데이터 엔지니어나, 데이터 분석가는 이미 있던 직무이다보니 구분해 줄 필요가 있었지만, 데이터 과학은 빅데이터에서 비로소 등장했기 때문에 그럴 필요가 없었던 듯 합니다.)


데이터 엔지니어(Data Engineer)는 음... 기술적인 부분에 집중된 역할입니다. 엔지니어링(engineering)이라는게 원래 최적의 공정(process)를 만드는 학문이거든요. 그렇다보니 이걸 가능하게 하는 기술(technology)에 집중하구요. 프로세스를 수립하고 최적의 상태를 유지 및 관리하는 쪽에 중점을 둡니다. 

그러니까 하둡이나 스파크 같은 빅데이터를 위한 병렬처리 프레임워크나 hive, scoop 등 주변기능을 제공하는 관련 소프트웨어 및 하드웨어 제품들에 대한 지식이 필요하구요. 이런 도구들을 이용해서, 데이터를 쌓고 추출하고 정련하기 위한 절차를 만들고 또 자동화 하는것을 주 업무로 하지요. 최근에 수요가 꽤 많아져서 구인 하는 경우를 더러 봅니다. 덩달아 하둡을 공부하는 분들도 많아졌구요. 하지만 사람을 구하는것은 아직도 어려운것이, 병렬처리가 정말 쉬워지긴 했지만 그래도 이런 환경을 구성하고 장애없이 운영하는것은 여전히 어려운 일인것 같습니다.  


사족으로, 공학이라고 하면 대표적인 곳 중의 하나가, 미국의 카네기 멜론대에 있는 소프트웨어 공학 연구소(SEI : Software Engineering Institute)입니다. 여기서 그 유명한 소프트웨어 성숙도 모델 (CMMI : Capability Maturigy Model - Integrated)을 만들었죠.  공학적 접근의 최고봉은 절차(process)의 체계화 니까요. 공학에 대한 개념을 잡으시라고 참고로 말씀드렸어요.


데이터 분석가(Data Analyst)는 상대적으로 기술보다는 비즈니스에 집중해 있습니다. 데이터를 업무와 연계해서 보면서, 왜 데이터가 이렇게 쌓여 있는지를 끊임없이 파헤치는 사람이죠. 우리가 예상했던 대로 비즈니스가 잘 흘러가고 있는지, 다르게 흘러가고 있다면 어느 부분에서 왜 그렇게 바뀌고 있는지를 분석하는 것이 주 업무 입니다.  

데이터 엔지니어가 데이터를 감싸고 있는 기술 환경에 관심이 있다면 데이터 분석가는 데이터 자체에 관심이 있어서 이것을 분석하는 사람입니다.


지금까지는 두 종류의 사람으로 빅데이터든 일반적인 데이터든 처리하고 분석할 수 있다고 생각해왔고, 그래서 직업도 이 두가지 였던것 같습니다. 그런데 최근에 데이터 과학자라는 말이 새롭게 등장한거죠. 



데이터 과학자(Data Scientist)는 앞의 두 직업 중에서는 데이터 분석가에 더 가깝지만, 과학의 측면이 추가되고 강조된다 보시면 됩니다. 그럼 과학적인 측면이란 무얼까요? 


여러분들 중고등학교에서 배운 과학을 생각해보세요. 예를들어 멘델의 유전법칙을 배울때, 우리는 멘델이 열성과 우성이라는 형질의 구분이 있고 이것이 유전되면서 열성이 더 많이 발현될 것이라는 가설을 세우고, 이를 입증하기 위해서 열심히 콩을 키우는 실험을 했다는걸 배운 기억이 있습니다. 네! 과학이란 그런거죠. 자연을 관찰하면서 가설을 세웁니다. 이걸 입증하기 위해 실험을 하구요, 실험 결과가 성공적이라면 자연 현상을 설명하는 법칙을 하나 만들게 되는 겁니다. 


빅데이터도 똑같은 흐름을 거치기 때문에 과학이라는 단어를 사용하게 되었습니다. 우리 쇼핑몰의 고객은 자주 방문할 수록 돈을 많이 쓴다 라는 가설을 세운다면, 이걸 빅데이터를 분석해서 검증해보고 이걸 확인하는 거죠.  좀 더 나아간다면, 우리 쇼핑몰의 고객 중 본인이 산적이 있는 카테고리의 할인쿠폰을 보내면 평소 보다 구매비율이 50% 증가할 것이다 라고 가설을 세우고 실험을 해볼 수 있습니다. 쿠폰을 보내는 그룹 안보내는 그룹 이렇게 나누어서요. 이게 과학에서 많이 들어본 실험군과 대조군이죠. 그리고 각 그룹의 구매비율 추이 변화를 따라가보면서 의미있는 차이가 나타나는지 보는거죠. 이러한 절차가 과학의 틀과 동일하기 때문에 데이터 과학이라는 말을 사용하게 되었다고 생각합니다. 


오늘은 왜 데이터 과학!이라고 할까 하는 물음에 대해 저 나름대로 고민한 답을 적어봤습니다. 


참... 그래서 제 명함에는 뭐라고 썼냐구요? 오래오래 고민만 하다가 아직은 과학자 수준의 발견은 어렵다 싶어서, 기존에 해온 작업과도 얼추 연관되어 있는 데이터 분석가(Data Analyst)로 적었습니다. 앞으로 더 열심히 공부해서 데이터 과학자(Data Scientist)라고 당당히 써보려고 합니다.  :)