본문 바로가기

Big Data12

왜 데이터 과학(Science)인가? 최근에 명함을 만들면서 고민에 빠졌더랬습니다. 하는일을 뭐라고 적을까 하면서요. :) 제가 물망에 올렸었기도 하고, 또 최근 빅데이터 분석 관련 직업으로 꼽을만한 대표적인 명칭(job name)은 크게 세 가지 정도 인 것 같습니다. 그건 바로, 데이터 엔지니어(Data engineer), 데이터 분석가(Data Analyst), 데이터 과학자(Data Scientist) 입니다.. 뭐 찾아보시면 이 세가지 직업에 대한 설명과 연관성을 글로나 다이어그램으로 풀어놓은걸 많이 찾으실 수 있을 테지만, 저는 저 나름대로의 쉬운 설명으로 한번 적어볼께요. (음 앞의 두가지는 빅데이터 엔지니어, 빅데이터 분석가로 특별히 명시하는 경우가 많은데, 데이터 과학자는 주로 빅데이터를 다루지만 빅데이터 과학자로는 부르지는.. 2015. 3. 30.
빅데이터를 가지고 무엇을 보나요? 이번주에는 로그 형태의 빅데이터로 주로 어떤 분석을 하고, 그렇다면 그 로그는 어떻게 설계하는게 좋은지 생각해 봤습니다. 로그형태의 빅데이터 라는게 제가 주로 경험하는 한정된 예제이긴 한데, 데이터 모델링 주제이래로 계속 다루고 있는 '인터넷 쇼핑몰' 예시에 맞기도 하고, 어느정도는 일반적이라고 생각이 돼서, 한 번 정리해보려고 해요. :) 빅데이터로 분석할때에는 쇼핑몰에서 일어나는 의미있는 모든 이벤트에 대해서 로그를 남기고 이에 대해서 분석을 하게 됩니다. 로그 예제는 앞의 글에서도 다루었듯이 이런 형태라고 가정 할께요. 사용일자:사용자아이디:행동유형:관련금액-----------------------------------------20150305 0930:chulsoo:addToCart:0201503.. 2015. 3. 13.
맵/리듀스 (Map/Reduce) 이해하기 빅데이터를 접하기 시작하면서 자주듣게 되는 용어가 있습니다. 맵/리듀스 라는 용어인데요, MR이라고도 많이 쓰구요, 빅데이터 처리에는 늘 맵리듀스 개념이 들어가죠. 그럼, 빅데이터 처리의 기본이되는 맵리듀스란 무엇인지 자세히 알아볼께요. 일단 맵(Map) 이라는 것은 지도? 아니구요, :) 데이터를 담아두는 자료 구조 중의 하나입니다. 맵은 키와 밸류라는 두개의 값을 쌍으로 가지고 있는 형태입니다. 수학시간에 좌표를 표시할때 순서쌍이라고 하죠, (x,y) 이렇게 하던 바로 그 개념입니다. 여기서 x가 키이고, y가 밸류 즉 값인거죠. 그리고 함수 f(x) => y 도 생각나시죠? x를 알면 y를 알 수 있는 구조로 관리 됩니다. 리듀스(Reduce)는 이 맵을 정리해 나가는(줄여나가는) 방법이라고 할 수.. 2015. 3. 6.
빅데이터란 무엇인가? 정말 오랜만에 글을 씁니다. 제가 이 블로그를 돌보지 않는 동안에도 방문자가 꾸준이 늘었더라구요. 무언가 검색해서 제 글을 읽어주신 모든 분들께 정말 감사드립니다. 그리고, 조금이나마 도움이 되었다면 좋겠다는 맘이 굴뚝같네요. 그런데, 단 한 분 정도만 글을 남겨주셔서 느낌이 어떠셨는지 알 수가 없다는 아쉬움이....쿨럭.........:-)------------------------------------------------------------------------------------------------------ 요사이는 빅데이터 관련 일을 하고 있습니다. 개인적으로 또 한번의 새로운 도전이죠. 왜그렇게 힘들게 사냐는 친구들도 물론 있지만, :) 그래도 맘이 끌리는대로 움직여 봅니다. 빅데이터!.. 2015. 2. 21.