빅데이타 분석을 위한 스파크 사용법을 설명합니다.
flintrock 을 이용해 스파크 클러스터를 생성합니다.
스파크 클러스터에 pyspark 를 설치합니다.
AWS S3 에 데이타 파일을 올려서 데스트 데이타로 사용합니다.
Spark SQL 를 이용해 데이타를 분석할 수 있습니다.
Jupyter 를 이용해 스파크를 실행할 수 있습니다.
Hadoop 을 이용하여 노드간 파일을 공유할 수 있습니다.
yarn 을 이용해 클러스터를 컨트롤 할 수 있습니다.
Spark 튜닝 을 위한 파라미터를 확인해 봅니다.
위 내용을 한번에 정리 해 봅니다.