Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- graph
- RDD
- BigData
- 연합학습
- 인공지능
- SQL
- RStudio
- 그래프 에코시스템
- r
- Graph Tech
- Python
- spark
- 그래프 질의언어
- DeepLearning
- GSQL
- Cypher
- 그래프 데이터베이스
- 분산 병렬 처리
- TensorFlow
- TigerGraph
- Graph Ecosystem
- 그래프
- Federated Learning
- GraphX
- graph database
- SparkML
- Neo4j
- 빅데이터
- GDB
- 딥러닝
Archives
- Today
- Total
Hee'World
Spark ML 02 (Pyspark) 본문
Spark ML Regression
기상데이터를 Spark ML을 이용하여 선형회귀를 수행하는 예제
선형회귀란?
통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다.
https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80
In [15]:
weatherDF = spark.read.csv("data/OBS_ASOS_DD_20200120112650.csv", inferSchema=True,header=True)
In [16]:
weatherDF.count()
Out[16]:
In [17]:
weatherDF.show(5)
In [18]:
weatherDF.summary().show()
In [19]:
weatherDF.printSchema()
In [20]:
weatherDF = weatherDF.drop("locName")
In [21]:
weatherDF.printSchema()
In [22]:
train, test = weatherDF.randomSplit([0.7, 0.3])
In [23]:
from pyspark.ml.feature import RFormula
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
In [24]:
weatherRF = RFormula().setFormula("avg ~.").setFeaturesCol("features") \
.setLabelCol("label").setHandleInvalid("skip")
In [25]:
trainRF = weatherRF.fit(train).transform(train)
testRF = weatherRF.fit(test).transform(test)
In [26]:
lr = LinearRegression()
lr_model = lr.fit(trainRF)
In [28]:
testFit = lr_model.transform(testRF)
In [29]:
testFit.show()
In [ ]:
In [ ]:
In [ ]:
In [ ]:
In [ ]:
'BigData > Spark' 카테고리의 다른 글
Spark ML 04(Pyspark) (0) | 2020.05.03 |
---|---|
Spark ML 03 (Pyspark) (0) | 2020.05.01 |
Spark ML (Pyspark) (0) | 2020.04.25 |
Spark Streaming (PySpark) (0) | 2020.04.21 |
Spark SQL (PySpark) (0) | 2020.04.15 |
Comments