일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Federated Learning
- graph
- spark
- Graph Ecosystem
- 분산 병렬 처리
- Cypher
- r
- SparkML
- 연합학습
- 딥러닝
- RDD
- 빅데이터
- TigerGraph
- 인공지능
- TensorFlow
- GSQL
- SQL
- 그래프 데이터베이스
- 그래프 질의언어
- GraphX
- RStudio
- 그래프
- graph database
- Python
- Neo4j
- BigData
- GDB
- DeepLearning
- 그래프 에코시스템
- Graph Tech
- Today
- Total
목록RDD (2)
Hee'World

대화형 콘솔 - Spark는 기본적으로 Scala, Python, SQL, R 등 대화형 콘솔 명령 프롬프트를 제공하고 있다. sc 객체 - SparkContext라는 Spark에서 기존에 사용하였던 객체 sc SparkContext Spark UI Version v2.4.4 Master local[*] AppName PySparkShell sc 객체를 이용한 RDD 생성 rdd = sc.parallelize([1, 2, 3]) rdd.collect() [1, 2, 3] type(rdd) pyspark.rdd.RDD list_set = [('cat', 'dog'),(1, 2, 3)] rdd = sc.parallelize(list_set) rdd.collect() [('cat', 'dog'), (1, 2,..

RDD는 스파크에서 가장 중요하고 핵심적인 기본 데이터 타입이라고 볼 수 있다. 스파크에서 처리되는 모든 데이터는 RDD를 기본으로 처리되고 실행된다. RDD는 Resilient Distributed Dataset라고 불리며, 불변(변하지않는)하고 분산되는 데이터집합이라고 볼 수 있다. 스파크에서 각각의 데이터는 클러스터 메모리에 분산되어 Partition 단위로 분산 저장된다. 또한, 리니지(Lineage)라는 RDD 생성 단계를 기록하여 연산 처리 중, 노드의 장애 또는 실패가 발생 시 데이터를 재구성하여 다시 연산 할 수 있도록 한다. RDD 연산에서는 Action연산과 Transformation연산이라는 2가지 연산이 존재한다. 먼저 Transformation 연산은 RDD의 불변성과도 연관이 있..