본문 바로가기

map reduce2

몇 번째 이벤트에 반응했는지 확인하는 Scala 코드 예제 오늘은 Spark + Zeppelin 상에서 돌아가는 scala 코드 예제를 좀 보여드리려고 합니다. 이걸 보시면 map reduce의 개념과 로그 데이터 처리를 어떤 식으로 하는지에 대한 대략의 감을 잡으실 수 있을것 같아서요.코드가 어렵지 않습니다. 포기하지 말고 읽어보세요. :) 아래와 같이 유저별 이벤트 시간과 반응여부 데이터를 가지고 있을때, 각각의 유저별로 몇번째 이벤트에서 처음 반응(O)을 했는지 알아보려고 합니다. val test_rdd = sc.makeRDD(List( ("user1","2016-07-01 03:03:00","X") ,("user1","2016-07-01 15:15:00","O") ,("user1","2016-07-01 16:16:00","X") ,("user1","201.. 2017. 2. 12.
맵/리듀스 (Map/Reduce) 이해하기 빅데이터를 접하기 시작하면서 자주듣게 되는 용어가 있습니다. 맵/리듀스 라는 용어인데요, MR이라고도 많이 쓰구요, 빅데이터 처리에는 늘 맵리듀스 개념이 들어가죠. 그럼, 빅데이터 처리의 기본이되는 맵리듀스란 무엇인지 자세히 알아볼께요. 일단 맵(Map) 이라는 것은 지도? 아니구요, :) 데이터를 담아두는 자료 구조 중의 하나입니다. 맵은 키와 밸류라는 두개의 값을 쌍으로 가지고 있는 형태입니다. 수학시간에 좌표를 표시할때 순서쌍이라고 하죠, (x,y) 이렇게 하던 바로 그 개념입니다. 여기서 x가 키이고, y가 밸류 즉 값인거죠. 그리고 함수 f(x) => y 도 생각나시죠? x를 알면 y를 알 수 있는 구조로 관리 됩니다. 리듀스(Reduce)는 이 맵을 정리해 나가는(줄여나가는) 방법이라고 할 수.. 2015. 3. 6.