'RDD' 태그의 글 목록

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록RDD (2)

Hee'World

Spark RDD 문법

대화형 콘솔 - Spark는 기본적으로 Scala, Python, SQL, R 등 대화형 콘솔 명령 프롬프트를 제공하고 있다. sc 객체 - SparkContext라는 Spark에서 기존에 사용하였던 객체 sc SparkContext Spark UI Version v2.4.4 Master local[*] AppName PySparkShell sc 객체를 이용한 RDD 생성 rdd = sc.parallelize([1, 2, 3]) rdd.collect() [1, 2, 3] type(rdd) pyspark.rdd.RDD list_set = [('cat', 'dog'),(1, 2, 3)] rdd = sc.parallelize(list_set) rdd.collect() [('cat', 'dog'), (1, 2,..

BigData/Spark 2020. 4. 6. 23:42

Spark RDD

RDD는 스파크에서 가장 중요하고 핵심적인 기본 데이터 타입이라고 볼 수 있다. 스파크에서 처리되는 모든 데이터는 RDD를 기본으로 처리되고 실행된다. RDD는 Resilient Distributed Dataset라고 불리며, 불변(변하지않는)하고 분산되는 데이터집합이라고 볼 수 있다. 스파크에서 각각의 데이터는 클러스터 메모리에 분산되어 Partition 단위로 분산 저장된다. 또한, 리니지(Lineage)라는 RDD 생성 단계를 기록하여 연산 처리 중, 노드의 장애 또는 실패가 발생 시 데이터를 재구성하여 다시 연산 할 수 있도록 한다. RDD 연산에서는 Action연산과 Transformation연산이라는 2가지 연산이 존재한다. 먼저 Transformation 연산은 RDD의 불변성과도 연관이 있..

BigData/Spark 2020. 4. 4. 17:15

Prev 1 Next

목록RDD (2)

Hee'World

티스토리툴바