본문 바로가기

전체 글74

지도위에 데이터 표현하기 - 구글 퓨전 테이블 이용 안녕하세요. 정말 오랜만에 글을 올리네요. :) 오늘은 최근에 배운 구글 퓨전 테이블을 이용해서 데이터를 지도 위에 시각화 하는 방법을 알려드릴까 해요. 예전같으면 엄두도 못낼 일인데, 정말 세상이 좋아져서! 누구나 클릭 몇번으로 할 수 있더라구요. 오늘 제가 해보려는건, 대한민국 지도를 시도별로 나누어서 각 영역의 사용자 수를 색깔로 구분해서 보여주는 겁니다. 이걸 해보려면 두 가지 데이터가 필요한데요. 지도위에 시군구를 구분하는 영역에 대한 정보를 기록한 파일과, 해당 영역에 대한 사용자 수를 담은 데이터 파일 입니다. 첫번째 파일은 여러가지 형식이 있는것 같은데요. 저는 최근에 받은 교육에서 시군구별 위치가 표시된 kml파일을 하나 얻었기 때문에 이걸 쓸거에요. 이게 아무데나 올라와있고 그런 자료는.. 2015. 6. 8.
zeppelin notebook 만들기 요즘 제가 쓰고있는 환경은 Spark + Zeppelin 입니다. 간단히 설명드리자면 Spark는 Hadoop의 모든 처리를 memory에서 수행하는 방식으로 높은 성능을 제공하는 빅데이터 처리 프레임워크 이구요, Zeppelin은 Spark와 잘 연동되면서 SQL을 처리할 수 있는 인터페이스를 제공하는 도구 입니다. 둘 다 오픈소스구요, Zeppelin은 SQL, scala, python, java 등도 처리할 수 있는데다가 iPython notebook과 같이 interpreter(한 줄씩 입력하고 실행해 볼 수 있는) 환경을 제공합니다. 그래서 데이터 분석가가 한 환경내에서 데이터를 추출하고 처리해서 분석할 수 있게 해주죠. zeppelin 노트북을 만드는 방법을 간략히 설명 해보았습니다. 자료 참.. 2015. 5. 4.
왜 데이터 과학(Science)인가? 최근에 명함을 만들면서 고민에 빠졌더랬습니다. 하는일을 뭐라고 적을까 하면서요. :) 제가 물망에 올렸었기도 하고, 또 최근 빅데이터 분석 관련 직업으로 꼽을만한 대표적인 명칭(job name)은 크게 세 가지 정도 인 것 같습니다. 그건 바로, 데이터 엔지니어(Data engineer), 데이터 분석가(Data Analyst), 데이터 과학자(Data Scientist) 입니다.. 뭐 찾아보시면 이 세가지 직업에 대한 설명과 연관성을 글로나 다이어그램으로 풀어놓은걸 많이 찾으실 수 있을 테지만, 저는 저 나름대로의 쉬운 설명으로 한번 적어볼께요. (음 앞의 두가지는 빅데이터 엔지니어, 빅데이터 분석가로 특별히 명시하는 경우가 많은데, 데이터 과학자는 주로 빅데이터를 다루지만 빅데이터 과학자로는 부르지는.. 2015. 3. 30.
빅데이터를 가지고 무엇을 보나요? 이번주에는 로그 형태의 빅데이터로 주로 어떤 분석을 하고, 그렇다면 그 로그는 어떻게 설계하는게 좋은지 생각해 봤습니다. 로그형태의 빅데이터 라는게 제가 주로 경험하는 한정된 예제이긴 한데, 데이터 모델링 주제이래로 계속 다루고 있는 '인터넷 쇼핑몰' 예시에 맞기도 하고, 어느정도는 일반적이라고 생각이 돼서, 한 번 정리해보려고 해요. :) 빅데이터로 분석할때에는 쇼핑몰에서 일어나는 의미있는 모든 이벤트에 대해서 로그를 남기고 이에 대해서 분석을 하게 됩니다. 로그 예제는 앞의 글에서도 다루었듯이 이런 형태라고 가정 할께요. 사용일자:사용자아이디:행동유형:관련금액-----------------------------------------20150305 0930:chulsoo:addToCart:0201503.. 2015. 3. 13.