본문 바로가기

Big Data18

[Spark]Spark SQL Spark SQL은 구조화 된 데이터 처리를위한 Spark 모듈입니다 기본 Spark RDD API와 달리 Spark SQL에서 제공하는 인터페이스는 데이터의 구조와 수행중인 계산에 대한 자세한 정보를 Spark에 제공합니다. 내부적으로 Spark SQL은이 추가 정보를 사용하여 추가 최적화를 수행합니다. SQL 및 Dataset API를 포함하여 Spark SQL과 상호 작용하는 방법에는 여러 가지가 있습니다. 결과를 계산할 때 계산을 표현하는 데 사용하는 API / 언어와 상관없이 동일한 실행 엔진이 사용됩니다. 이러한 통일을 통해 개발자는 주어진 변환을 표현하는 가장 자연스러운 방법을 제공하는 다른 API를 쉽게 전환 할 수 있습니다. Spark SQL의 한 가지 용도는 SQL 쿼리를 실행하는 것입.. 2020. 6. 9.

[Spark] Java WordCount 예제를 통한 Spark 처리 흐름 파악 import java.util.Arrays; import java.util.Iterator; import org.apache.commons.lang3.ArrayUtils; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apach.. 2020. 6. 4.

[Spark]RDD(Resilient Distributed Dataset) 스파크가 제공하는 RDD는 일종의 "분산 데이터"에 대한 모델이라고 할 수 있다. RDD란 스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬 처리가 가능하고 장애가 발생할 경우에도 스스로 복구될 수 있는 내성(tolerance)를 가지고 있다 즉 RDD란 스파크에서 정의한 분산 데이터 모델인데 내부에는 단위 데이터를 포함하고 있고 저장할때는 여러 서버에 나누어 저장되며, 처리할 때는 각 서버에 저장된 데이터를 동시에 병렬로 처리 할 수 있다는 의미입니다. 또한 데이터를 여러 서버에 나누어 저장하고, 처리하는 과정에서 일부 서버 혹은 데이터에 문제가 발생하더라도 스스로 에러를 복구할 수 있는 능력을 가지고 있는 데이터 모델이라는 의미도 .. 2020. 6. 1.

[Spark]개요 하둡은 분산 환경의 병렬 처리 프레임워크로서 크게 보면 분산 파일시스템인 HDFS(Hadoop distributed file system)와 데이터 처리를 위한 맵리듀스 프레임워크로 구성돼 있습니다. 또한 2.0버전 이후부터는 CPU와 메모리 등 컴퓨팅 자원 관리를 전담하는 리소스 관리 시스템인 Yarn을 포함해 기존 맵리듀스 프로그래밍 모델을 Yarn 기반으로 구축할 수 있도록 지원하고 있습니다. 하둡은 여러 대의 서버를 이용해 하나의 클러스터를 구성하며, 이렇게 클러스터로 묶인 서버의 자원을 하나의 서버처럼 사용할 수 있는 클러스터 컴퓨팅 환경을 제공합니다. 기본적인 동작 방법은 분석할 데이터를 하둡 파일시스템인 HDFS에 저장해 두고 HDFS상에서 맵리듀스 프로그램을 이용해 데이터 처리를 수행하는 .. 2020. 6. 1.

이전 1 2 3 4 5 다음

티스토리툴바