데이터처리/spark (11) 썸네일형 리스트형 [reference] spark - RDD programming Contents RDD Shared Variables RDD 모든 Spark 어플리케이션은 사용자의 main 함수를 실행하고 , 다양한 병렬 작업을 실행하는 driver 프로그램으로 구성된다. RDD 는 Spark 가 제공하는 추상환데 , 병렬 클러스터의 노드 전체에 걸쳐 분할된 collection of elements 다 RDD 는 하둡 파일이스템의 파일 또는 driver 프로그램 안에있는 Scala collection에서 시작하여 생성된다. User 는 병렬 작업 전체에 걸쳐 재사용 할 수 있도록 RDD를 메모리에 유지하도록 Spark에 요청할 수 있다. 또한 RDD는 노드 장애로부터 자동 복구된다. Shared Variables Spark 의 두번째 추상화 기능은 병렬 연산에 사용할 수 있는 Sha.. [reference] spark - programming quick start Contents spark 사용법 Spark-shell self-contained application Spark 사용법에 대해 알아보자 Spark-shell 을 이용한 방법과 어플리케이션을 이용한 방법을 알아보자 - 스파크 2.0 이전에는 스파크의 주 프로그래밍 인터페이스가 RDD 였다. 2.0 이후엔 RDD 는 데이터셋으로 데체 되었다 RDD 인터페이스도 여전히 지원되지만, 데이터셋을 사용하길 권장된다. 데이터 셋에 대한 자세한 내용은 나중에 알아보도록 하자 DataSet- https://spark.apache.org/docs/latest/sql-programming-guide.html Spark-Shell 스파크의 셸은 API를 배울 수 있는 간단한 방법과 데이터를 대화식으로 분석할 수 있는 강력한.. [reference] Spark - 개념 클러스터 모드 Contents 스파크? 클러스터 모드 클러스터 매니저 종류 응용프로그램 제출 모니터링 잡 스케쥴링 용어 설명 스파크? Apache Spark 는 빠르고 제네럴한 클러스터다 자바, 스칼라, 파이썬, R 등의 고급 API 들을 지원하는 최적화된 엔진을 제공한다고 한다. 스파크는 혼자서 또는 기존의 클러스터에서 실행 될 수 있는데 오늘은 스파크가 클러스터에서 어떻게 실행이 되는지 알아보도록 하자 -이 다음 내용에선 클러스터에서 응용 프로그램이 어떻게 실행되는지 알아볼 것 스파크는 클러스터에서 독립적인 프로세스 세트로 실행이 된다. 드라이버 프로그램의 스파크 콘텍스트 객체에 의해 조정된다. 구체적으로 보면, 스파크 콘텍스트는 여러 유형의 ClusterManager(spark standalone, Mesos, .. 이전 1 2 다음