본문 바로가기

Big Data5

몇 번째 이벤트에 반응했는지 확인하는 Scala 코드 예제 오늘은 Spark + Zeppelin 상에서 돌아가는 scala 코드 예제를 좀 보여드리려고 합니다. 이걸 보시면 map reduce의 개념과 로그 데이터 처리를 어떤 식으로 하는지에 대한 대략의 감을 잡으실 수 있을것 같아서요.코드가 어렵지 않습니다. 포기하지 말고 읽어보세요. :) 아래와 같이 유저별 이벤트 시간과 반응여부 데이터를 가지고 있을때, 각각의 유저별로 몇번째 이벤트에서 처음 반응(O)을 했는지 알아보려고 합니다. val test_rdd = sc.makeRDD(List( ("user1","2016-07-01 03:03:00","X") ,("user1","2016-07-01 15:15:00","O") ,("user1","2016-07-01 16:16:00","X") ,("user1","201.. 2017. 2. 12.
지도위에 데이터 표현하기 - 구글 퓨전 테이블 이용 안녕하세요. 정말 오랜만에 글을 올리네요. :) 오늘은 최근에 배운 구글 퓨전 테이블을 이용해서 데이터를 지도 위에 시각화 하는 방법을 알려드릴까 해요. 예전같으면 엄두도 못낼 일인데, 정말 세상이 좋아져서! 누구나 클릭 몇번으로 할 수 있더라구요. 오늘 제가 해보려는건, 대한민국 지도를 시도별로 나누어서 각 영역의 사용자 수를 색깔로 구분해서 보여주는 겁니다. 이걸 해보려면 두 가지 데이터가 필요한데요. 지도위에 시군구를 구분하는 영역에 대한 정보를 기록한 파일과, 해당 영역에 대한 사용자 수를 담은 데이터 파일 입니다. 첫번째 파일은 여러가지 형식이 있는것 같은데요. 저는 최근에 받은 교육에서 시군구별 위치가 표시된 kml파일을 하나 얻었기 때문에 이걸 쓸거에요. 이게 아무데나 올라와있고 그런 자료는.. 2015. 6. 8.
왜 데이터 과학(Science)인가? 최근에 명함을 만들면서 고민에 빠졌더랬습니다. 하는일을 뭐라고 적을까 하면서요. :) 제가 물망에 올렸었기도 하고, 또 최근 빅데이터 분석 관련 직업으로 꼽을만한 대표적인 명칭(job name)은 크게 세 가지 정도 인 것 같습니다. 그건 바로, 데이터 엔지니어(Data engineer), 데이터 분석가(Data Analyst), 데이터 과학자(Data Scientist) 입니다.. 뭐 찾아보시면 이 세가지 직업에 대한 설명과 연관성을 글로나 다이어그램으로 풀어놓은걸 많이 찾으실 수 있을 테지만, 저는 저 나름대로의 쉬운 설명으로 한번 적어볼께요. (음 앞의 두가지는 빅데이터 엔지니어, 빅데이터 분석가로 특별히 명시하는 경우가 많은데, 데이터 과학자는 주로 빅데이터를 다루지만 빅데이터 과학자로는 부르지는.. 2015. 3. 30.
맵/리듀스 (Map/Reduce) 이해하기 빅데이터를 접하기 시작하면서 자주듣게 되는 용어가 있습니다. 맵/리듀스 라는 용어인데요, MR이라고도 많이 쓰구요, 빅데이터 처리에는 늘 맵리듀스 개념이 들어가죠. 그럼, 빅데이터 처리의 기본이되는 맵리듀스란 무엇인지 자세히 알아볼께요. 일단 맵(Map) 이라는 것은 지도? 아니구요, :) 데이터를 담아두는 자료 구조 중의 하나입니다. 맵은 키와 밸류라는 두개의 값을 쌍으로 가지고 있는 형태입니다. 수학시간에 좌표를 표시할때 순서쌍이라고 하죠, (x,y) 이렇게 하던 바로 그 개념입니다. 여기서 x가 키이고, y가 밸류 즉 값인거죠. 그리고 함수 f(x) => y 도 생각나시죠? x를 알면 y를 알 수 있는 구조로 관리 됩니다. 리듀스(Reduce)는 이 맵을 정리해 나가는(줄여나가는) 방법이라고 할 수.. 2015. 3. 6.