BigData/Spark
Spark ML 02 (Pyspark)
Jonghee Jeon
2020. 4. 26. 15:59
Spark ML Regression
기상데이터를 Spark ML을 이용하여 선형회귀를 수행하는 예제
선형회귀란?
통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다.
https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80
선형 회귀 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 독립변수 1개와 종속변수 1개를 가진 선형 회귀의 예 통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다.[참고 1] 선형 회귀는 선형 예측 함수를 사용해 회귀식을
ko.wikipedia.org
In [15]:
weatherDF = spark.read.csv("data/OBS_ASOS_DD_20200120112650.csv", inferSchema=True,header=True)
In [16]:
weatherDF.count()
Out[16]:
In [17]:
weatherDF.show(5)
In [18]:
weatherDF.summary().show()
In [19]:
weatherDF.printSchema()
In [20]:
weatherDF = weatherDF.drop("locName")
In [21]:
weatherDF.printSchema()
In [22]:
train, test = weatherDF.randomSplit([0.7, 0.3])
In [23]:
from pyspark.ml.feature import RFormula
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
In [24]:
weatherRF = RFormula().setFormula("avg ~.").setFeaturesCol("features") \
.setLabelCol("label").setHandleInvalid("skip")
In [25]:
trainRF = weatherRF.fit(train).transform(train)
testRF = weatherRF.fit(test).transform(test)
In [26]:
lr = LinearRegression()
lr_model = lr.fit(trainRF)
In [28]:
testFit = lr_model.transform(testRF)
In [29]:
testFit.show()
In [ ]:
In [ ]:
In [ ]:
In [ ]:
In [ ]: