본문 바로가기

데이터처리

(24)
[reference] 엘라스틱서치 - inrtoduction Contents 엘라스틱 서치 - 소개 Documents and indices 엘라스틱 서치 - 소개 Elastic search는 Elastic Stack의 핵심에 있는 분산 검색 및 분석 엔진이다. Logstash 및 Beats는 데이터를 수집, 집계 및 풍부하게 하고 Elasticsearch에 저장할 수 있도록 지원한다. 키바나를 사용하면 탐색, 시각화 및 공유하고 스택을 관리 및 모니터링할 수 있다. Elastic search는 인덱싱, 검색, 분석이 일어나는 곳이다. Elasticsearch는 모든 유형의 데이터에 대한 실시간 검색 및 분석을 제공한다. Elasticsearch는 정형 또는 비정형 텍스트, 숫자 데이터 또는 지리공간 데이터를 가지고 있든지 간에 빠른 검색을 지원하는 방식으로 효율적..
[Hadoop] Hadoop 기본 개념 Contents Apache Hadoop? - Apache Hadoop? 공홈에서 소개하는걸 보면 이렇게 나와있다. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver h..
[Trouble Shooting] spark- Java 버전 dependency [이미지를 다 날려버렸다...] java 8 버전에 spark-api 를 이용해서 spark-sql 으로 데이터 처리를 하려고 하는 중에 SparkSession 이 json 파일을 불러와서 Dataset 으로 넣어주고, 그 데이터를 show 하는 과정에서 에러가 발생했다. NoSuchFieldException 이 발생했는데 , 도무지 구글링을 해도 원인을 찾을 수가 없었다. 공홈에서도 관련 자료가 없어서 한참을 삽질 하던중에 디펜던시 문제가 아닐까 의심이 들었다. 의심이 들었던 이유는 자바 8에서는 spark-sql_2.11 에 2.1.0 버전에서 호환이 되었는데 그 이상 버전에서는 동작이 정상적으로 안되서 의심이 됐었다 이렇게 spark-sql 에는 commons-compiler 의 의존성을 가지고 있..
[reference] spark - RDD programming Contents RDD Shared Variables RDD 모든 Spark 어플리케이션은 사용자의 main 함수를 실행하고 , 다양한 병렬 작업을 실행하는 driver 프로그램으로 구성된다. RDD 는 Spark 가 제공하는 추상환데 , 병렬 클러스터의 노드 전체에 걸쳐 분할된 collection of elements 다 RDD 는 하둡 파일이스템의 파일 또는 driver 프로그램 안에있는 Scala collection에서 시작하여 생성된다. User 는 병렬 작업 전체에 걸쳐 재사용 할 수 있도록 RDD를 메모리에 유지하도록 Spark에 요청할 수 있다. 또한 RDD는 노드 장애로부터 자동 복구된다. Shared Variables Spark 의 두번째 추상화 기능은 병렬 연산에 사용할 수 있는 Sha..
[reference] spark - programming quick start Contents spark 사용법 Spark-shell self-contained application Spark 사용법에 대해 알아보자 Spark-shell 을 이용한 방법과 어플리케이션을 이용한 방법을 알아보자 - 스파크 2.0 이전에는 스파크의 주 프로그래밍 인터페이스가 RDD 였다. 2.0 이후엔 RDD 는 데이터셋으로 데체 되었다 RDD 인터페이스도 여전히 지원되지만, 데이터셋을 사용하길 권장된다. 데이터 셋에 대한 자세한 내용은 나중에 알아보도록 하자 DataSet- https://spark.apache.org/docs/latest/sql-programming-guide.html Spark-Shell 스파크의 셸은 API를 배울 수 있는 간단한 방법과 데이터를 대화식으로 분석할 수 있는 강력한..
[reference] Spark - 개념 클러스터 모드 Contents 스파크? 클러스터 모드 클러스터 매니저 종류 응용프로그램 제출 모니터링 잡 스케쥴링 용어 설명 스파크? Apache Spark 는 빠르고 제네럴한 클러스터다 자바, 스칼라, 파이썬, R 등의 고급 API 들을 지원하는 최적화된 엔진을 제공한다고 한다. 스파크는 혼자서 또는 기존의 클러스터에서 실행 될 수 있는데 오늘은 스파크가 클러스터에서 어떻게 실행이 되는지 알아보도록 하자 -이 다음 내용에선 클러스터에서 응용 프로그램이 어떻게 실행되는지 알아볼 것 스파크는 클러스터에서 독립적인 프로세스 세트로 실행이 된다. 드라이버 프로그램의 스파크 콘텍스트 객체에 의해 조정된다. 구체적으로 보면, 스파크 콘텍스트는 여러 유형의 ClusterManager(spark standalone, Mesos, ..
kafka - Quick Start 카프카 실습 따라해보기 Contents kafka quick start kafka quick start 먼저 카프카의 이론을 정리하기 전에 Apache Kafka 의 Quick Start 를 정리해보려고 한다. 카프카 공식 홈페이지에서 kafka 최신 버전을 다운로드 해준다. 카프카를 실행하기에 앞서 zookeeper 를 먼저 실행시켜 줘야한다. zookeeper 의 실행 방식은 https://naeti.tistory.com/52 를 참고해서 실행시킨다. Apache- Zookeeper 를 알아보자 Contents zookeeper 란? zookeeper 시작하기 zookeeper 란? ZooKeeper is a centralized service for maintaining configuration information, n..
Apache- Zookeeper 를 알아보자 Contents zookeeper 란? zookeeper 시작하기 zookeeper 란? ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. 공홈에서는 ZooKeeper는 구성 정보 유지, 이름 지정, 분산 동기화 제공 및 그룹 서비스 제공을 위한 중앙 집중식 서비스라는데, 잘 와닿지 않는다. zookeeper 는 분산 어플리케이션을 위한 고성능 조정 서비스 라고 한다. 일단은 , 분산 어플리케이션들의 단순한 집합으로 이해하자 Zookeeper 는 공유된 계층 네임스페이스를 통해서 ..