본문 바로가기

Big Data12

몇 번째 이벤트에 반응했는지 확인하는 Scala 코드 예제 오늘은 Spark + Zeppelin 상에서 돌아가는 scala 코드 예제를 좀 보여드리려고 합니다. 이걸 보시면 map reduce의 개념과 로그 데이터 처리를 어떤 식으로 하는지에 대한 대략의 감을 잡으실 수 있을것 같아서요.코드가 어렵지 않습니다. 포기하지 말고 읽어보세요. :) 아래와 같이 유저별 이벤트 시간과 반응여부 데이터를 가지고 있을때, 각각의 유저별로 몇번째 이벤트에서 처음 반응(O)을 했는지 알아보려고 합니다. val test_rdd = sc.makeRDD(List( ("user1","2016-07-01 03:03:00","X") ,("user1","2016-07-01 15:15:00","O") ,("user1","2016-07-01 16:16:00","X") ,("user1","201.. 2017. 2. 12.
Data를 추출할때 고려할 것 요사이 여러번 데이터 추출에 대한 교육을 할일이 있었습니다. Database도 설명하고 Big Data를 이해하기 위해 Log도 설명하고, 이걸 추출하는 기본 방법을 알려드리기 위해 SQL 이랑 간단한 프로그래밍도 설명했죠. 그런데 뭔가 허전하더라구요. 기법이나 기술을 안다고 잘 추출할 수 있을까 싶은.... 데이터를 제대로! 잘 추출하기 위해서는 생각해야 할 지점이 있고, 이런건 뭐랄까 자세나, 단계 같은 내용이 되더라구요. 그래서 이걸 정리해서 자료로 만들어서 설명을 했더랬습니다. 지나고 나니 제 생각에 이게 더 중요하고 구하기 어려운 자료겠구나 싶어 슬라이드 쉐어에도 올리게 되었네요.도움이 되시길 바랍니다. http://www.slideshare.net/SooKyungChoi/data-52877608 2015. 9. 20.
지도위에 데이터 표현하기 - 구글 퓨전 테이블 이용 안녕하세요. 정말 오랜만에 글을 올리네요. :) 오늘은 최근에 배운 구글 퓨전 테이블을 이용해서 데이터를 지도 위에 시각화 하는 방법을 알려드릴까 해요. 예전같으면 엄두도 못낼 일인데, 정말 세상이 좋아져서! 누구나 클릭 몇번으로 할 수 있더라구요. 오늘 제가 해보려는건, 대한민국 지도를 시도별로 나누어서 각 영역의 사용자 수를 색깔로 구분해서 보여주는 겁니다. 이걸 해보려면 두 가지 데이터가 필요한데요. 지도위에 시군구를 구분하는 영역에 대한 정보를 기록한 파일과, 해당 영역에 대한 사용자 수를 담은 데이터 파일 입니다. 첫번째 파일은 여러가지 형식이 있는것 같은데요. 저는 최근에 받은 교육에서 시군구별 위치가 표시된 kml파일을 하나 얻었기 때문에 이걸 쓸거에요. 이게 아무데나 올라와있고 그런 자료는.. 2015. 6. 8.
zeppelin notebook 만들기 요즘 제가 쓰고있는 환경은 Spark + Zeppelin 입니다. 간단히 설명드리자면 Spark는 Hadoop의 모든 처리를 memory에서 수행하는 방식으로 높은 성능을 제공하는 빅데이터 처리 프레임워크 이구요, Zeppelin은 Spark와 잘 연동되면서 SQL을 처리할 수 있는 인터페이스를 제공하는 도구 입니다. 둘 다 오픈소스구요, Zeppelin은 SQL, scala, python, java 등도 처리할 수 있는데다가 iPython notebook과 같이 interpreter(한 줄씩 입력하고 실행해 볼 수 있는) 환경을 제공합니다. 그래서 데이터 분석가가 한 환경내에서 데이터를 추출하고 처리해서 분석할 수 있게 해주죠. zeppelin 노트북을 만드는 방법을 간략히 설명 해보았습니다. 자료 참.. 2015. 5. 4.