본문 바로가기

분류 전체보기

(212)

Spark - RDD 생성 방법과 동작 과정 Contents RDD 의 생성 방법 RDD의 동작 과정 Resilient Distributed Datasets (RDDs) Spark 는 병렬로 동작할 수 있는 , 결함이 생겨도 복구가 가능한 컬렉션인 RDD 의 개념을 중심으로 한다. RDD 를 생성하는 방법은 2가지가 있다. 1. driver 프로그램에서 기존 컬렉션을 병렬로 만들기 2. HDFS , HBase 같은 공유 파일 시스템에서 데이터셋을 참조 하기 - Parallelized Collections 1. 기존 컬렉션을 병렬로 만들기 기존 컬렉션을 RDD 로 만드는 방법은 JavaSparkContext의 parallelize 메소드를 이용해 생성한다. 컬렉션의 elements 는 병렬로 동작할 수 있는 분산 dataset 을 형성하기 위해 복사..

[보안 하둡] 하둡의 Secure Mode 를 알아보자 Contents Introduction Introduction 오늘은 하둡 보안 모드에서 authentication 설정을 어떻게 하는지 알아보쟈 하둡이 보안 모드로 설정 되었을때 각각의 하둡 서비스와 사용자들은 Kerberos 에 의해서 인증되어야 한다. 보안 모드에서 Hadoop 서비스를 구성하기 전에 Kerberos 와 DNS 에 대한 지식이 필요하다. - 뒤에서 또 알아보도록하자 하둡의 보안 기능은 Authentication Service Level Authorization Authentication for Web Consoles Dagta Confidentiallity 가 있다. Authentication End user Account Service Level Authentication 이 설정..

[elasticSearch] 엘라스틱서치 기본 개념 Contents 엘라스틱 서치 핵심 개념 엘라스틱 서치의 핵심 개념을 알아보자 엘라스틱서치와 같은 도큐먼트 지향 저장소는 데이터의 추상적 개념을 사용한다. 엘라스틱 서치의 핵심 추상화 개념은 인덱스 타입 도큐먼트 클러스터 노드 샤드 및 레플리카 매핑 및 타입 역색인 이 있다. 하나씩 알아보자 인덱스 인덱스는 엘라스틱서치에서 단일 타입의 도큐먼트를 저장하고 관리하는 컨테이너다. 인덱스에서는 단일 타입의 여러 도큐먼트를 가질 수 있다. 이해를 돕자면 , 인덱스는 RDB 에 데이터베이스 스키마와 유사하다고 보면 된다. 타입은 테이블 도큐먼트는 테이블의 레코드다. 하지만 , RDB 의 한 데이터베이스 스키마가 여러 테이블을 가지고 있는것과는 다르게 엘라스틱서치는 단일 인덱스는 단일 타입만을 가지고 있게 된다. ..

[reference] 엘라스틱서치 - inrtoduction Contents 엘라스틱 서치 - 소개 Documents and indices 엘라스틱 서치 - 소개 Elastic search는 Elastic Stack의 핵심에 있는 분산 검색 및 분석 엔진이다. Logstash 및 Beats는 데이터를 수집, 집계 및 풍부하게 하고 Elasticsearch에 저장할 수 있도록 지원한다. 키바나를 사용하면 탐색, 시각화 및 공유하고 스택을 관리 및 모니터링할 수 있다. Elastic search는 인덱싱, 검색, 분석이 일어나는 곳이다. Elasticsearch는 모든 유형의 데이터에 대한 실시간 검색 및 분석을 제공한다. Elasticsearch는 정형 또는 비정형 텍스트, 숫자 데이터 또는 지리공간 데이터를 가지고 있든지 간에 빠른 검색을 지원하는 방식으로 효율적..

[Hadoop] Hadoop 기본 개념 Contents Apache Hadoop? - Apache Hadoop? 공홈에서 소개하는걸 보면 이렇게 나와있다. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver h..

[Trouble Shooting] spark- Java 버전 dependency [이미지를 다 날려버렸다...] java 8 버전에 spark-api 를 이용해서 spark-sql 으로 데이터 처리를 하려고 하는 중에 SparkSession 이 json 파일을 불러와서 Dataset 으로 넣어주고, 그 데이터를 show 하는 과정에서 에러가 발생했다. NoSuchFieldException 이 발생했는데 , 도무지 구글링을 해도 원인을 찾을 수가 없었다. 공홈에서도 관련 자료가 없어서 한참을 삽질 하던중에 디펜던시 문제가 아닐까 의심이 들었다. 의심이 들었던 이유는 자바 8에서는 spark-sql_2.11 에 2.1.0 버전에서 호환이 되었는데 그 이상 버전에서는 동작이 정상적으로 안되서 의심이 됐었다 이렇게 spark-sql 에는 commons-compiler 의 의존성을 가지고 있..

[비트 연산] leetCode - 461. Hamming Distance 문제 설명: int 값 2개가 주어졌을때 두 값을 비트 단위로 변경 한 후 각 자리가 다른 자리의 갯수를 세는 문제 문제 풀이 : 먼저 비트 연산에 대해서 알아보자 & : 각 자리의 비트가 모두 1 인 경우 1 , 아닌 경우 0 | : 두 비트 중 1개라도 1이면 1 ^ : 두개가 서로 다르면 1, 아니면 0 a >> i : a 의 모든 비트를 오른쪽으로 i칸 밀고 맨 왼쪽을 0으로 채움 a > 로 i 만큼 이동시켜본 후 그 값을 & 1 로 해본다 & 1 을 했을때 그 자리값이 1일때나 1이 나오므로 각 자리가 다른 개수를 셀 수 있다. 풀이 코드 : https://github.com/kwonhyucknae/algorithm_study/blob/master/src/com/leetCode/problem/H..

[reference] spark - RDD programming Contents RDD Shared Variables RDD 모든 Spark 어플리케이션은 사용자의 main 함수를 실행하고 , 다양한 병렬 작업을 실행하는 driver 프로그램으로 구성된다. RDD 는 Spark 가 제공하는 추상환데 , 병렬 클러스터의 노드 전체에 걸쳐 분할된 collection of elements 다 RDD 는 하둡 파일이스템의 파일 또는 driver 프로그램 안에있는 Scala collection에서 시작하여 생성된다. User 는 병렬 작업 전체에 걸쳐 재사용 할 수 있도록 RDD를 메모리에 유지하도록 Spark에 요청할 수 있다. 또한 RDD는 노드 장애로부터 자동 복구된다. Shared Variables Spark 의 두번째 추상화 기능은 병렬 연산에 사용할 수 있는 Sha..

이전 1 ··· 19 20 21 22 23 24 25 ··· 27 다음

티스토리툴바