'BigData' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록BigData (9)

Hee'World

Spark ML (Pyspark)

Spark ML은 Spark의 머신러닝 라이브러리 Regression/Classification/Clustering/collaborative filtering 등의 알고리즘을 제공하고 있으며, 아직까지는 딥러닝 기능은 제공되고 있지 않음 그 외에 다양한 Featurization과 Pipeline 등도 제공되며 Spark 2.x 버전은 두 개의 라이브러리로 제공되어 사용 할 수 있음 Spark ML에서 제공되는 하위 기능들에 대한 설명 - org.apache.spark.mllib • 스파크 저 수준 RDD API를 위한 인터페이스 제공 • 향후 Spark 3.0 에서는 RDD기반의 API는 제거 될 예정 - org.apache.spark.ml • 공식적으로 권장하고 있음 • DataFrame을 사용할 수 ..

BigData/Spark 2020. 4. 25. 18:48

Spark Streaming (PySpark)

- Spark Streaming은 실시간 데이터 스트림을 확장 가능하고 많은 처리량의 내결함성 스트림 처리를 지원하는 Spark의 핵심 API - 카프카, Flume, S3, HDFS, TCP 소켓과 같은 다양한 소스로부터 수집 할 수 있음 - 처리된 데이터를 파일 시스템, 데이터베이스 및 라이브 대시 보드로 - 실제로 Spark의 기계 학습 및 그래프 처리 알고리즘을 데이터 스트림에 적용 할 수 있음 Structured Streaming - 실제 Spark 2.x로 와서는 Structuured Streaming을 권장하고 있으며, 스트림 데이터를 Spark DataFrame의 하나의 행으로 계속 추가해서 처리한다고 보면 된다. - 이벤트 시간이라는 데이터 기록된 시간 필드를 기준으로 처리 - 워터마크라..

BigData/Spark 2020. 4. 21. 00:05

Spark DataFrame 03 (Pyspark)

Titanic DataFrame 생성¶ In [1]: import pandas as pd In [15]: data1 = {'PassengerId':{0:1, 1:2, 2:3, 3:4, 4:5}, 'Name' : {0:'Owen', 1:'Florence', 2:'Laina', 3:'Lily', 4:"William"}, 'sex' : {0: 'male', 1: 'female', 2:'female', 3:'female', 4:'male'}, 'Survived': {0:0, 1:1, 2:1, 3:1, 4:0} } data2 = ..

BigData/Spark 2020. 4. 11. 16:18

Spark DataFrame01 (Pyspark)

Spark에서 Row와 Column의 형태로 RDD를 표현하여 처리 할 수 있음 타입 - Python의 Pandas 패키지의 DataFrame과 R의 DataFrame과 동일한 개념 - Spark 2.x에서 Catalyst Optimizer의 도입으로 인해 Spark에서 지원하는 프로그래밍 타입 별 처리 성능이 동일하게 향상되었음 Spark DataFrame¶ spark.read.csv() spark.read.json() spark.read.format("csv") spark.read.format("json") file:// hdfs:// hbase:// s3:// In [1]: stock = spark.read.csv("data/appl_stock.csv", inferSchema=True, header..

BigData/Spark 2020. 4. 11. 16:10

Spark RDD 문법

대화형 콘솔 - Spark는 기본적으로 Scala, Python, SQL, R 등 대화형 콘솔 명령 프롬프트를 제공하고 있다. sc 객체 - SparkContext라는 Spark에서 기존에 사용하였던 객체 sc SparkContext Spark UI Version v2.4.4 Master local[*] AppName PySparkShell sc 객체를 이용한 RDD 생성 rdd = sc.parallelize([1, 2, 3]) rdd.collect() [1, 2, 3] type(rdd) pyspark.rdd.RDD list_set = [('cat', 'dog'),(1, 2, 3)] rdd = sc.parallelize(list_set) rdd.collect() [('cat', 'dog'), (1, 2,..

BigData/Spark 2020. 4. 6. 23:42

Spark RDD

RDD는 스파크에서 가장 중요하고 핵심적인 기본 데이터 타입이라고 볼 수 있다. 스파크에서 처리되는 모든 데이터는 RDD를 기본으로 처리되고 실행된다. RDD는 Resilient Distributed Dataset라고 불리며, 불변(변하지않는)하고 분산되는 데이터집합이라고 볼 수 있다. 스파크에서 각각의 데이터는 클러스터 메모리에 분산되어 Partition 단위로 분산 저장된다. 또한, 리니지(Lineage)라는 RDD 생성 단계를 기록하여 연산 처리 중, 노드의 장애 또는 실패가 발생 시 데이터를 재구성하여 다시 연산 할 수 있도록 한다. RDD 연산에서는 Action연산과 Transformation연산이라는 2가지 연산이 존재한다. 먼저 Transformation 연산은 RDD의 불변성과도 연관이 있..

BigData/Spark 2020. 4. 4. 17:15

Apache Spark란?

아파치 스파크(Apache Spark)는 아래 공식 홈페이지에 소개된 것처럼 대용량 데이터를 처리하기 위한 통합 분산 엔진이다. 기존 하둡(Hadoop)이라는 플랫폼을 대체 했다기 보다는 완벽히 조화를 이루었다고 보는게 맞을거 같다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 시작되었으며, 지금은 빅데이터 분야에서 가장 중요한 빅데이터 분산 처리 프레임워크이다. 또한, 아파치 스파크는 다양한 데이터 소스, 개발환경, 작업등을 통합 분석 할 수 있는 엔진으로 개발되고 발전하고 있으며, 최근에는 딥러닝(Deeplearning)과 파이썬(Python)의 Pandas패키지등 인공지능과 데이터분석에도 적극적으로 지원하고 있다. 기존 Disk 기반으로 처리되는 MapReduce의 처리 ..

BigData/Spark 2020. 4. 4. 16:23

Apache Spark 3.0

Apache Spark 3.0.0 preview2 버전이 2019년 12월 23일에 릴리즈 되었다. 향후 버전의 기능을 미리 알아 볼 수 있으며, 곧 정식으로 Spark 3.0이 나올 것으로 기대된다. 몇가지 달라지거나 추가되는 기능에 대해서 알아봅시다. 언어 - Spark 3.0은 Python3를 공식 지원하고, Python 2.x 버전은 더이상 지원되지 않는다. Scala버전은 2.12로 향상되었으며, 또한 JDK 11을 지원하게 된다. SQL 최적화 - DDP(Dynamic Partition Pruning)을 도입하였으며, 논리 계획과 물리 계획에 모두 적용된다. 속도 향상 GPU 지원 - 기존의 Spark MLlib, Spark ML은 딥러닝에 대한 기능이나 알고리즘을 지원하지 않았다. Tenso..

BigData/Spark 2020. 3. 6. 00:19

Prev 1 2 Next

목록BigData (9)

Hee'World

티스토리툴바