Spark SQL은 구조화 된 데이터 처리를위한 Spark 모듈입니다
기본 Spark RDD API와 달리 Spark SQL에서 제공하는 인터페이스는 데이터의 구조와 수행중인 계산에 대한 자세한 정보를 Spark에 제공합니다.
내부적으로 Spark SQL은이 추가 정보를 사용하여 추가 최적화를 수행합니다.
SQL 및 Dataset API를 포함하여 Spark SQL과 상호 작용하는 방법에는 여러 가지가 있습니다.
결과를 계산할 때 계산을 표현하는 데 사용하는 API / 언어와 상관없이 동일한 실행 엔진이 사용됩니다.
이러한 통일을 통해 개발자는 주어진 변환을 표현하는 가장 자연스러운 방법을 제공하는 다른 API를 쉽게 전환 할 수 있습니다.
Spark SQL의 한 가지 용도는 SQL 쿼리를 실행하는 것입니다.
Spark SQL을 사용하여 기존 Hive 설치에서 데이터를 읽을 수도 있습니다.
이 기능을 구성하는 방법에 대한 자세한 내용은 하이브 테이블 섹션을 참조하십시오 .
. 다른 프로그래밍 언어에서 SQL을 실행하면 결과가 Dataset / DataFrame 으로 반환됩니다 .
명령 행 또는 JDBC / ODBC를 통해 SQL 인터페이스와 상호 작용할 수도 있습니다 .
Spark SQL and DataFrames - Spark 2.1.2 Documentation
Spark SQL, DataFrames and Datasets Guide Overview Spark SQL is a Spark module for structured data processing. Unlike the basic Spark RDD API, the interfaces provided by Spark SQL provide Spark with more information about the structure of both the data and
spark.apache.org
'Big Data > Spark' 카테고리의 다른 글
[Spark] Java WordCount 예제를 통한 Spark 처리 흐름 파악 (1) | 2020.06.04 |
---|---|
[Spark]RDD(Resilient Distributed Dataset) (0) | 2020.06.01 |
[Spark]개요 (0) | 2020.06.01 |
댓글