요즘 제가 쓰고있는 환경은 Spark + Zeppelin 입니다.
간단히 설명드리자면 Spark는 Hadoop의 모든 처리를 memory에서 수행하는 방식으로 높은 성능을 제공하는 빅데이터 처리 프레임워크 이구요, Zeppelin은 Spark와 잘 연동되면서 SQL을 처리할 수 있는 인터페이스를 제공하는 도구 입니다.
둘 다 오픈소스구요,
Zeppelin은 SQL, scala, python, java 등도 처리할 수 있는데다가 iPython notebook과 같이 interpreter(한 줄씩 입력하고 실행해 볼 수 있는) 환경을 제공합니다. 그래서 데이터 분석가가 한 환경내에서 데이터를 추출하고 처리해서 분석할 수 있게 해주죠.
zeppelin 노트북을 만드는 방법을 간략히 설명 해보았습니다. 자료 참고하세요. :)
http://www.slideshare.net/SooKyungChoi/zeppelin-notebookss
'Big Data' 카테고리의 다른 글
Data를 추출할때 고려할 것 (0) | 2015.09.20 |
---|---|
지도위에 데이터 표현하기 - 구글 퓨전 테이블 이용 (6) | 2015.06.08 |
왜 데이터 과학(Science)인가? (2) | 2015.03.30 |
빅데이터를 가지고 무엇을 보나요? (0) | 2015.03.13 |
맵/리듀스 (Map/Reduce) 이해하기 (19) | 2015.03.06 |