adDF = spark.read.csv("data/Advertising.csv", inferSchema=True, header=True)

adDF.show(5)

+-----+-----+---------+-----+
|   TV|Radio|Newspaper|Sales|
+-----+-----+---------+-----+
|230.1| 37.8|     69.2| 22.1|
| 44.5| 39.3|     45.1| 10.4|
| 17.2| 45.9|     69.3|  9.3|
|151.5| 41.3|     58.5| 18.5|
|180.8| 10.8|     58.4| 12.9|
+-----+-----+---------+-----+
only showing top 5 rows

adDF.count()

200

from pyspark.ml.feature import RFormula
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.linalg import Vectors

RFormula¶

adRF = RFormula().setFormula("Sales ~.").setFeaturesCol("features").setLabelCol("label")

adRF_fit = adRF.fit(adDF).transform(adDF)

Vectors¶

adV = adDF.rdd.map(lambda x: [Vectors.dense(x[0:3]), x[-1]]).toDF(['features', 'label'])

Model Build¶

lr = LinearRegression(featuresCol='features', labelCol='label')

lr_model = lr.fit(adV)

lr_model.save

Prediction¶

pred = lr_model.transform(adV)
pred.show(5)

+-----------------+-----+------------------+
|         features|label|        prediction|
+-----------------+-----+------------------+
|[230.1,37.8,69.2]| 22.1| 20.52397440971517|
| [44.5,39.3,45.1]| 10.4|12.337854820894362|
| [17.2,45.9,69.3]|  9.3|12.307670779994238|
|[151.5,41.3,58.5]| 18.5| 17.59782951168913|
|[180.8,10.8,58.4]| 12.9|13.188671856831299|
+-----------------+-----+------------------+
only showing top 5 rows

evaluator = RegressionEvaluator(predictionCol='prediction', labelCol='label')
evaluator.setMetricName('r2').evaluate(pred)

0.897210638178952

Cross-validation¶

train, test = adV.randomSplit([0.7, 0.3])

from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

param_grid = ParamGridBuilder().addGrid(lr.regParam, [0, 0.5, 1]) \
                               .addGrid(lr.elasticNetParam, [0, 0.5, 1]).build()

cv = CrossValidator(estimator=lr, estimatorParamMaps=param_grid, \
                    evaluator=evaluator, numFolds=5)

cv_model = cv.fit(train)

Prediction¶

cv_train_pred = cv_model.transform(train)
cv_test_pred = cv_model.transform(test)

cv_test_pred_summary = cv_test_pred.summary

Evaluation¶

evaluator.setMetricName('r2').evaluate(cv_train_pred)

0.9024696179882863

evaluator.setMetricName('r2').evaluate(cv_test_pred)

0.8724906273151293

cv_model.bestModel.coefficients

DenseVector([0.0485, 0.1889, -0.0059])

cv_model.bestModel.elasticNetParam

Param(parent='LinearRegression_7fd0e29301b4', name='elasticNetParam', doc='the ElasticNet mixing parameter, in range [0, 1]. For alpha = 0, the penalty is an L2 penalty. For alpha = 1, it is an L1 penalty')

Spark ML 03 (Pyspark) (0)	2020.05.01
Spark ML 02 (Pyspark) (0)	2020.04.26
Spark Streaming (PySpark) (0)	2020.04.21
Spark SQL (PySpark) (0)	2020.04.15
Spark DataFrame 03 (Pyspark) (0)	2020.04.11

Hee'World

Hee'World

Spark ML (Pyspark) 본문

Spark ML (Pyspark)

RFormula¶

Vectors¶

Model Build¶

Prediction¶

Cross-validation¶

Prediction¶

Evaluation¶

'BigData > Spark' 카테고리의 다른 글

티스토리툴바

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31