안녕하세요. 정말 오랜만에 글을 올리네요. :)
오늘은 최근에 배운 구글 퓨전 테이블을 이용해서 데이터를 지도 위에 시각화 하는 방법을 알려드릴까 해요. 예전같으면 엄두도 못낼 일인데, 정말 세상이 좋아져서! 누구나 클릭 몇번으로 할 수 있더라구요.
오늘 제가 해보려는건, 대한민국 지도를 시도별로 나누어서 각 영역의 사용자 수를 색깔로 구분해서 보여주는 겁니다.
이걸 해보려면 두 가지 데이터가 필요한데요. 지도위에 시군구를 구분하는 영역에 대한 정보를 기록한 파일과, 해당 영역에 대한 사용자 수를 담은 데이터 파일 입니다.
첫번째 파일은 여러가지 형식이 있는것 같은데요. 저는 최근에 받은 교육에서 시군구별 위치가 표시된 kml파일을 하나 얻었기 때문에 이걸 쓸거에요. 이게 아무데나 올라와있고 그런 자료는 아니더라구요. 제가 사실 필요했던건 시군구가 아닌 시도별 영역이 표시된 파일이었는데, 구글링을 하다가 포기했습니다. 누구 구하시면 좀 알려주세요. :(
그리고 두번째 파일은 제가 가진 kml파일이 행정정보에서 많이쓰는 시군구코드(sgg_cd)를 포함하고 있길래, 그 코드를 카피하고, 거기에 사용자수를 random하게 발생 시킨 컬럼을 추가한 excel을 만들어서 사용했습니다.
그럼 영역정보 파일과, 영역별 사용자수 파일, 이 두 가지가 준비되었으니, 시작해보죠. :)
일단 구글에 계정이 있으셔야 하구요. 로그인 해서 구글 드라이브로 들어갑니다.
새로만들기를 눌러 구글 퓨전 테이블을 선택합니다.
메뉴가 없다면 새로만들기 > 더보기 > 연결할 앱 더보기 를 이용해서 구글 퓨전 테이블을 추가 하시면 됩니다.
그리고 로컬 PC 를 선택한 상태에서 저 작은 버튼 파일 업로드를 선택하시고 미리 만들어 둔 파일을 선택합니다. 그리고 next를 몇번 눌러주세요. 파일이 두 개 니까 이렇게 두 번 반복하시면 됩니다.
그리고 나면 구글 드라이브에 내가 올린 두개의 파일이 퓨전테이블 형태로 보입니다. 둘 중에 사용자 수 데이터가 있는 파일을 여시구요. 그 상태에서 File > Merge 메뉴를 선택하시면 됩니다.
그리고 위치정보가 들어있는 kml파일을 선택합니다. 그리고 나면 match를 위한 선택을 하라는 메뉴가 나오는데요. 이때 양쪽 테이블에서 연결 고리가 되는 정보인 시군구 코드(sgg_cd)를 선택해주시면 됩니다. 테이블을 조인 하는 것이나 엑셀에서 vlookup을 거는 것과 똑같은 개념입니다.
next를 몇 번 더 누르고 꽤! 기다리면 완료가 되고, 퓨전 테이블이 아래과 같이 보입니다.
그리고 세번째 탭인 Map of Geometry를 누릅니다. 그럼 동일한 색상으로 칠해진 대한민국 지도가 나오는데요. 이제 세부적인 설정을 해주면 됩니다.
첫번째는 색 구분을 어떻게 할 것인가 인데요. Polygons>Fill Color>Buckets 에서 설정합니다. 몇 단계로 구분할 것인지, 어느 컬럼의 값을 이용할 것인지 구간을 어느값에서 어느값까지 할것인지 색상은 무얼로 할지 등을 고를 수 있습니다.
물론 다른 선택도 가능합니다. 메뉴가 직관적이니 다른 탭도 열어보시면 될거에요.
그리고 이건 범례를 추가하는 내용입니다. 아무래도 이게 있어야 지도가 보기에 좋죠.
마지막으로 지도에서 해당 영역을 클릭할때 나오는 풍선 도움말의 내용을 골라줍니다. 너무 많은것은 의미없으니 필요한 정보만 체크해주면 되겠죠.
짜잔... !!!!
이제 지도가 나왔습니다. 데이터 자체가 여기저기 빠져 있어서 비어있는 부분이 있네요. 이런부분도 데이터가 없으면 이렇게 나오는구나 참고하시라고 일부러! 남겨둡니다. :)
오늘은 구글 퓨전 테이블을 이용해서 데이터를 지도위에 보여주는 방법을 소개해 드렸습니다.
구글 퓨전 테이블은 이보다 더 쉬울 순 없을 정도로 손쉽게 지도위에 데이터를 시각화 할 수 있다는 점과, share 버튼을 눌러 공유할 사람의 메일 주소만 입력하면 공유가 끝난다는 점이 정말 매력적으로 다가왔습니다.
저는 회사의 실제 사용자 데이터로도 따로 뽑아 보았는데요, 놀라웠습니다. 왜냐하면 사실 지역별 사용자 수 정보야 엑셀로도 그래프로도 많이들 보아 왔던 정보라서 크게 기대 안했었거든요. 그런데 지도위에 펼쳐놓고보니 새로운 통찰이 생기더라구요. 데이터 시각화가 정말 중요하구나 다시한번 느꼈습니다.
시각화의 방법은 날이갈수록 충분히! 쉬워지는것 같습니다. 그럼 우리는 데이터를 보고 뭔가 통찰을 얻어내는 일에 집중하면 되겠네요. :)
'Big Data' 카테고리의 다른 글
몇 번째 이벤트에 반응했는지 확인하는 Scala 코드 예제 (0) | 2017.02.12 |
---|---|
Data를 추출할때 고려할 것 (0) | 2015.09.20 |
zeppelin notebook 만들기 (0) | 2015.05.04 |
왜 데이터 과학(Science)인가? (2) | 2015.03.30 |
빅데이터를 가지고 무엇을 보나요? (0) | 2015.03.13 |