일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- RStudio
- SparkML
- GSQL
- 그래프 에코시스템
- TensorFlow
- 딥러닝
- DeepLearning
- graph database
- GraphX
- Python
- RDD
- 그래프 질의언어
- 분산 병렬 처리
- Federated Learning
- GDB
- 빅데이터
- Graph Tech
- Neo4j
- 그래프 데이터베이스
- r
- BigData
- 그래프
- graph
- spark
- Cypher
- SQL
- 연합학습
- TigerGraph
- 인공지능
- Graph Ecosystem
- Today
- Total
목록BigData/Spark (18)
Hee'World
- Spark 이전, SQL on Hadoop으로 Hive가 사실상 표준 - DataFrame을 createOrReplaceTempView로 등록하여 SQL 사용 가능 - Grobal TempView • Spark Session 전역에서 사용 가능하도록 선언 • createOrReplaceTempView는 현재 SparkSession에서만 사용 가능 Spark SQL¶ Spark DataFrame을 Database Table처럼 사용 In [1]: import pandas as pd Pandas 데이터프레임 생성¶ In [5]: pandf = pd.read_csv("data/Uber-Jan-Feb-FOIL.csv", header=0) In [6]: pandf.head() Out[6]: dispatchin..
Titanic DataFrame 생성¶ In [1]: import pandas as pd In [15]: data1 = {'PassengerId':{0:1, 1:2, 2:3, 3:4, 4:5}, 'Name' : {0:'Owen', 1:'Florence', 2:'Laina', 3:'Lily', 4:"William"}, 'sex' : {0: 'male', 1: 'female', 2:'female', 3:'female', 4:'male'}, 'Survived': {0:0, 1:1, 2:1, 3:1, 4:0} } data2 = ..
Spark DataFrame¶ - select¶ In [3]: df = spark.read.json("data/2015-summary.json") In [6]: df.printSchema() root |-- DEST_COUNTRY_NAME: string (nullable = true) |-- ORIGIN_COUNTRY_NAME: string (nullable = true) |-- count: long (nullable = true) In [8]: df.select("DEST_COUNTRY_NAME").show() +--------------------+ | DEST_COUNTRY_NAME| +--------------------+ | United States| | United States| | Unite..
Spark에서 Row와 Column의 형태로 RDD를 표현하여 처리 할 수 있음 타입 - Python의 Pandas 패키지의 DataFrame과 R의 DataFrame과 동일한 개념 - Spark 2.x에서 Catalyst Optimizer의 도입으로 인해 Spark에서 지원하는 프로그래밍 타입 별 처리 성능이 동일하게 향상되었음 Spark DataFrame¶ spark.read.csv() spark.read.json() spark.read.format("csv") spark.read.format("json") file:// hdfs:// hbase:// s3:// In [1]: stock = spark.read.csv("data/appl_stock.csv", inferSchema=True, header..
대화형 콘솔 - Spark는 기본적으로 Scala, Python, SQL, R 등 대화형 콘솔 명령 프롬프트를 제공하고 있다. sc 객체 - SparkContext라는 Spark에서 기존에 사용하였던 객체 sc SparkContext Spark UI Version v2.4.4 Master local[*] AppName PySparkShell sc 객체를 이용한 RDD 생성 rdd = sc.parallelize([1, 2, 3]) rdd.collect() [1, 2, 3] type(rdd) pyspark.rdd.RDD list_set = [('cat', 'dog'),(1, 2, 3)] rdd = sc.parallelize(list_set) rdd.collect() [('cat', 'dog'), (1, 2,..
RDD는 스파크에서 가장 중요하고 핵심적인 기본 데이터 타입이라고 볼 수 있다. 스파크에서 처리되는 모든 데이터는 RDD를 기본으로 처리되고 실행된다. RDD는 Resilient Distributed Dataset라고 불리며, 불변(변하지않는)하고 분산되는 데이터집합이라고 볼 수 있다. 스파크에서 각각의 데이터는 클러스터 메모리에 분산되어 Partition 단위로 분산 저장된다. 또한, 리니지(Lineage)라는 RDD 생성 단계를 기록하여 연산 처리 중, 노드의 장애 또는 실패가 발생 시 데이터를 재구성하여 다시 연산 할 수 있도록 한다. RDD 연산에서는 Action연산과 Transformation연산이라는 2가지 연산이 존재한다. 먼저 Transformation 연산은 RDD의 불변성과도 연관이 있..
아파치 스파크(Apache Spark)는 아래 공식 홈페이지에 소개된 것처럼 대용량 데이터를 처리하기 위한 통합 분산 엔진이다. 기존 하둡(Hadoop)이라는 플랫폼을 대체 했다기 보다는 완벽히 조화를 이루었다고 보는게 맞을거 같다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 시작되었으며, 지금은 빅데이터 분야에서 가장 중요한 빅데이터 분산 처리 프레임워크이다. 또한, 아파치 스파크는 다양한 데이터 소스, 개발환경, 작업등을 통합 분석 할 수 있는 엔진으로 개발되고 발전하고 있으며, 최근에는 딥러닝(Deeplearning)과 파이썬(Python)의 Pandas패키지등 인공지능과 데이터분석에도 적극적으로 지원하고 있다. 기존 Disk 기반으로 처리되는 MapReduce의 처리 ..
Apache Spark 3.0.0 preview2 버전이 2019년 12월 23일에 릴리즈 되었다. 향후 버전의 기능을 미리 알아 볼 수 있으며, 곧 정식으로 Spark 3.0이 나올 것으로 기대된다. 몇가지 달라지거나 추가되는 기능에 대해서 알아봅시다. 언어 - Spark 3.0은 Python3를 공식 지원하고, Python 2.x 버전은 더이상 지원되지 않는다. Scala버전은 2.12로 향상되었으며, 또한 JDK 11을 지원하게 된다. SQL 최적화 - DDP(Dynamic Partition Pruning)을 도입하였으며, 논리 계획과 물리 계획에 모두 적용된다. 속도 향상 GPU 지원 - 기존의 Spark MLlib, Spark ML은 딥러닝에 대한 기능이나 알고리즘을 지원하지 않았다. Tenso..