본문 바로가기

빅데이터7

로그 설계시 고려사항 빅데이터의 본질인 로그를 새로 설계할일도 종종 생기는데요.이럴때 어떤 점을 고려하면 좋을지 정리해봤습니다. 참고하세요~ https://www.slideshare.net/SooKyungChoi/log-design 2018. 9. 14.
구인/구직의 기록 - 데이터 분석가@스타트업 2년 반 정도 스타트업에서 데이터 분석가로 일했다. 그동안 다른 사람을 채용하기 위한 인터뷰를 스무번쯤 했고, 최근 이직을 위해 내가 지원한 인터뷰도 열번 정도된다. 그 과정에서 알게된 점을 정리 해두고자 한다. (한글을 사랑하는 마음으로! 이제부터 인터뷰는 모두 면접이라고 쓰려고 함) 가장 먼저 얘기하고 싶은것은 면접은 일방적인 ‘선발’이 아니라, ‘탐색’의 자리라는 점이다. 그러니까 쫄 필요 전혀 없다! ^^; 빗대어보자면 시험이 아니고, 소개팅이나 맞선에 가까운 자리라는거다. 조금만 노력한다면 지원자도 면접과정에서 이 회사가 나랑 맞는지 아닌지를 꽤나 정확하게 알아챌 수 있다. 일단 회사에 가보면 느끼게 되는 첫인상이 있고, 말을 섞어보지 않아도 오가는 직원들의 표정과 말투에서 우리는 많은것을 알게.. 2017. 3. 6.
몇 번째 이벤트에 반응했는지 확인하는 Scala 코드 예제 오늘은 Spark + Zeppelin 상에서 돌아가는 scala 코드 예제를 좀 보여드리려고 합니다. 이걸 보시면 map reduce의 개념과 로그 데이터 처리를 어떤 식으로 하는지에 대한 대략의 감을 잡으실 수 있을것 같아서요.코드가 어렵지 않습니다. 포기하지 말고 읽어보세요. :) 아래와 같이 유저별 이벤트 시간과 반응여부 데이터를 가지고 있을때, 각각의 유저별로 몇번째 이벤트에서 처음 반응(O)을 했는지 알아보려고 합니다. val test_rdd = sc.makeRDD(List( ("user1","2016-07-01 03:03:00","X") ,("user1","2016-07-01 15:15:00","O") ,("user1","2016-07-01 16:16:00","X") ,("user1","201.. 2017. 2. 12.
지도위에 데이터 표현하기 - 구글 퓨전 테이블 이용 안녕하세요. 정말 오랜만에 글을 올리네요. :) 오늘은 최근에 배운 구글 퓨전 테이블을 이용해서 데이터를 지도 위에 시각화 하는 방법을 알려드릴까 해요. 예전같으면 엄두도 못낼 일인데, 정말 세상이 좋아져서! 누구나 클릭 몇번으로 할 수 있더라구요. 오늘 제가 해보려는건, 대한민국 지도를 시도별로 나누어서 각 영역의 사용자 수를 색깔로 구분해서 보여주는 겁니다. 이걸 해보려면 두 가지 데이터가 필요한데요. 지도위에 시군구를 구분하는 영역에 대한 정보를 기록한 파일과, 해당 영역에 대한 사용자 수를 담은 데이터 파일 입니다. 첫번째 파일은 여러가지 형식이 있는것 같은데요. 저는 최근에 받은 교육에서 시군구별 위치가 표시된 kml파일을 하나 얻었기 때문에 이걸 쓸거에요. 이게 아무데나 올라와있고 그런 자료는.. 2015. 6. 8.