adDF = spark.read.csv("data/Advertising.csv", inferSchema=True, header=True)

adDF.show(5)

+-----+-----+---------+-----+
|   TV|Radio|Newspaper|Sales|
+-----+-----+---------+-----+
|230.1| 37.8|     69.2| 22.1|
| 44.5| 39.3|     45.1| 10.4|
| 17.2| 45.9|     69.3|  9.3|
|151.5| 41.3|     58.5| 18.5|
|180.8| 10.8|     58.4| 12.9|
+-----+-----+---------+-----+
only showing top 5 rows

adDF.count()

200

from pyspark.ml.feature import RFormula
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.linalg import Vectors

RFormula¶

adRF = RFormula().setFormula("Sales ~.").setFeaturesCol("features").setLabelCol("label")

adRF_fit = adRF.fit(adDF).transform(adDF)

Vectors¶

adV = adDF.rdd.map(lambda x: [Vectors.dense(x[0:3]), x[-1]]).toDF(['features', 'label'])

Model Build¶

lr = LinearRegression(featuresCol='features', labelCol='label')

lr_model = lr.fit(adV)

lr_model.save

Prediction¶

pred = lr_model.transform(adV)
pred.show(5)

+-----------------+-----+------------------+
|         features|label|        prediction|
+-----------------+-----+------------------+
|[230.1,37.8,69.2]| 22.1| 20.52397440971517|
| [44.5,39.3,45.1]| 10.4|12.337854820894362|
| [17.2,45.9,69.3]|  9.3|12.307670779994238|
|[151.5,41.3,58.5]| 18.5| 17.59782951168913|
|[180.8,10.8,58.4]| 12.9|13.188671856831299|
+-----------------+-----+------------------+
only showing top 5 rows

evaluator = RegressionEvaluator(predictionCol='prediction', labelCol='label')
evaluator.setMetricName('r2').evaluate(pred)

0.897210638178952

Cross-validation¶

train, test = adV.randomSplit([0.7, 0.3])

from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

param_grid = ParamGridBuilder().addGrid(lr.regParam, [0, 0.5, 1]) \
                               .addGrid(lr.elasticNetParam, [0, 0.5, 1]).build()

cv = CrossValidator(estimator=lr, estimatorParamMaps=param_grid, \
                    evaluator=evaluator, numFolds=5)

cv_model = cv.fit(train)

Prediction¶

cv_train_pred = cv_model.transform(train)
cv_test_pred = cv_model.transform(test)

cv_test_pred_summary = cv_test_pred.summary

Evaluation¶

evaluator.setMetricName('r2').evaluate(cv_train_pred)

0.9024696179882863

evaluator.setMetricName('r2').evaluate(cv_test_pred)

0.8724906273151293

cv_model.bestModel.coefficients

DenseVector([0.0485, 0.1889, -0.0059])

cv_model.bestModel.elasticNetParam

Param(parent='LinearRegression_7fd0e29301b4', name='elasticNetParam', doc='the ElasticNet mixing parameter, in range [0, 1]. For alpha = 0, the penalty is an L2 penalty. For alpha = 1, it is an L1 penalty')

Spark ML (Pyspark)

RFormula¶

Vectors¶

Model Build¶

Prediction¶

Cross-validation¶

Prediction¶

Evaluation¶