일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 딥러닝
- Python
- 연합학습
- SQL
- GDB
- spark
- RDD
- Neo4j
- 그래프
- 그래프 에코시스템
- graph database
- DeepLearning
- TigerGraph
- r
- 그래프 질의언어
- 분산 병렬 처리
- 인공지능
- 그래프 데이터베이스
- GraphX
- Federated Learning
- Graph Tech
- SparkML
- GSQL
- Cypher
- graph
- TensorFlow
- BigData
- 빅데이터
- Graph Ecosystem
- RStudio
- Today
- Total
목록spark (14)
Hee'World
Spark에서 Deeplearning을 사용하기 위한 타 라이브러리가 많이 존재하지만, 이번 포스팅에서는 Databricks에서 개발되고 있는 SparkDL이라는 라이브러리를 이용하여 딥러닝을 수행해봅니다. 현재 Spark 개발을 주도하고 있는 Databricks에서 지원하는 SparkDL은 딥러닝과 관련된 기능을 제공하고 있으며 주로 이미지 데이터에 대한 DL Pipeline과 Transfer Learning, Hyperparameter Tuning의 기능을 제공하고 있다. SparkDL 자체만을 가지고는 다양한 모델의 개발은 좀 한계가 있는 걸로 보이며, 지원하는 모델은 아래와 같다. InceptionV3 Xception ResNet50 VGG16 VGG19 현재 호환되는 버전은 아래와 같다. Spa..
Spark에서 H2O를 사용하는 방법 Spark는 Regression, Clustering, Classification 등 ML관련 라이브러리를 제공하지만 Deeplearning 등의 라이브러리는 제공되고 있지 않아 TensorflowOnSpark, BigDL, H2O, SparkDL과 같은 타 패키지와 함께 사용하여야 합니다. 본 포스팅에서는 H2O를 사용하는 방법을 설명합니다. H2O란? 오픈소스 머신러닝 플랫폼으로 다양한 머신러닝 모델과 딥러닝 등을 포함해 AutoML과 같은 최신 알고리즘도 제공하고 있다. 기존의 대형 분석 인프라와 Hadoop, Spark와 같은 분산 클러스터 환경과 S3, Azure 같은 클라우드 환경에서도 동작한다. 그리고 가장 대중적으로 사용되는 통계 프로그램인 R과 연결하..
SparkML을 이용하여 RandomForest를 수행하는 예제입니다. RandomForest? 랜덤 포레스트(영어: random forest)는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. 결정 트리 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. ko.wikipedia.org Spark ML In [1]: df = spark.read.csv("data/affairs.csv", inferSchema=True, header=True) In [2]: df.printSchema() root |-- rate_marriage: integer (nullable =..
Spark ML을 이용하여 Decision Tree를 수행하는 예제입니다. Decision Tree(의사결정나무) 결정 트리 학습법은 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로써 결정 트리를 사용한다. 이는 통계학과 데이터 마이닝, 기계 학습에서 사용하는 예측 모델링 방법 중 하나이다. 트리 모델 중 목표 변수가 유한한 수의 값을 가지는 것을 분류 트리라 한다. 이 트리 구조에서 잎(리프 노드)은 클래스 라벨을 나타내고 가지는 클래스 라벨과 관련있는 특징들의 논리곱을 나타낸다. 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가지는 것은 회귀 트리라 한다. 의사 결정 분석에서 결정 트리는 시각적이고 명시적인 방법으로 의사 결정 과정과 결정된 의사를 보여주는데 사용된다. 데이터..
Spark ML의 로지스틱 회귀를 수행하는 예제 로지스틱 회귀(영어: logistic regression)는 영국의 통계학자인 D. R. Cox가 1958년[1] 에 제안한 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법이다. 로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사하다. 하지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (..
Spark ML Regression 기상데이터를 Spark ML을 이용하여 선형회귀를 수행하는 예제 선형회귀란? 통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다. https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80 선형 회귀 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 독립변수 1개와 종속변수 1개를 가진 선형 회귀의 예 통계학에서, 선형 회귀(線型回..
Spark ML은 Spark의 머신러닝 라이브러리 Regression/Classification/Clustering/collaborative filtering 등의 알고리즘을 제공하고 있으며, 아직까지는 딥러닝 기능은 제공되고 있지 않음 그 외에 다양한 Featurization과 Pipeline 등도 제공되며 Spark 2.x 버전은 두 개의 라이브러리로 제공되어 사용 할 수 있음 Spark ML에서 제공되는 하위 기능들에 대한 설명 - org.apache.spark.mllib • 스파크 저 수준 RDD API를 위한 인터페이스 제공 • 향후 Spark 3.0 에서는 RDD기반의 API는 제거 될 예정 - org.apache.spark.ml • 공식적으로 권장하고 있음 • DataFrame을 사용할 수 ..
- Spark Streaming은 실시간 데이터 스트림을 확장 가능하고 많은 처리량의 내결함성 스트림 처리를 지원하는 Spark의 핵심 API - 카프카, Flume, S3, HDFS, TCP 소켓과 같은 다양한 소스로부터 수집 할 수 있음 - 처리된 데이터를 파일 시스템, 데이터베이스 및 라이브 대시 보드로 - 실제로 Spark의 기계 학습 및 그래프 처리 알고리즘을 데이터 스트림에 적용 할 수 있음 Structured Streaming - 실제 Spark 2.x로 와서는 Structuured Streaming을 권장하고 있으며, 스트림 데이터를 Spark DataFrame의 하나의 행으로 계속 추가해서 처리한다고 보면 된다. - 이벤트 시간이라는 데이터 기록된 시간 필드를 기준으로 처리 - 워터마크라..