df = spark.read.csv("data/affairs.csv", inferSchema=True, header=True)

df.printSchema()

root
 |-- rate_marriage: integer (nullable = true)
 |-- age: double (nullable = true)
 |-- yrs_married: double (nullable = true)
 |-- children: double (nullable = true)
 |-- religious: integer (nullable = true)
 |-- affairs: integer (nullable = true)

df.show(5)

+-------------+----+-----------+--------+---------+-------+
|rate_marriage| age|yrs_married|children|religious|affairs|
+-------------+----+-----------+--------+---------+-------+
|            5|32.0|        6.0|     1.0|        3|      0|
|            4|22.0|        2.5|     0.0|        2|      0|
|            3|32.0|        9.0|     3.0|        3|      1|
|            3|27.0|       13.0|     3.0|        1|      1|
|            4|22.0|        2.5|     0.0|        1|      1|
+-------------+----+-----------+--------+---------+-------+
only showing top 5 rows

df.summary().show()

+-------+------------------+------------------+-----------------+------------------+------------------+------------------+
|summary|     rate_marriage|               age|      yrs_married|          children|         religious|           affairs|
+-------+------------------+------------------+-----------------+------------------+------------------+------------------+
|  count|              6366|              6366|             6366|              6366|              6366|              6366|
|   mean| 4.109644989004084|29.082862079798932| 9.00942507068803|1.3968740182218033|2.4261702796104303|0.3224945020420987|
| stddev|0.9614295945655025| 6.847881883668817|7.280119972766412| 1.433470828560344|0.8783688402641785| 0.467467779921086|
|    min|                 1|              17.5|              0.5|               0.0|                 1|                 0|
|    25%|                 4|              22.0|              2.5|               0.0|                 2|                 0|
|    50%|                 4|              27.0|              6.0|               1.0|                 2|                 0|
|    75%|                 5|              32.0|             16.5|               2.0|                 3|                 1|
|    max|                 5|              42.0|             23.0|               5.5|                 4|                 1|
+-------+------------------+------------------+-----------------+------------------+------------------+------------------+

df.groupBy('affairs').count().show()

+-------+-----+
|affairs|count|
+-------+-----+
|      1| 2053|
|      0| 4313|
+-------+-----+

df.groupBy('rate_marriage').count().show()

+-------------+-----+
|rate_marriage|count|
+-------------+-----+
|            1|   99|
|            3|  993|
|            5| 2684|
|            4| 2242|
|            2|  348|
+-------------+-----+

df.groupBy('children', 'affairs').count().orderBy('children', 'affairs', 'count', ascending=True).show()

+--------+-------+-----+
|children|affairs|count|
+--------+-------+-----+
|     0.0|      0| 1912|
|     0.0|      1|  502|
|     1.0|      0|  747|
|     1.0|      1|  412|
|     2.0|      0|  873|
|     2.0|      1|  608|
|     3.0|      0|  460|
|     3.0|      1|  321|
|     4.0|      0|  197|
|     4.0|      1|  131|
|     5.5|      0|  124|
|     5.5|      1|   79|
+--------+-------+-----+

from pyspark.ml.feature import VectorAssembler

df_assembler = VectorAssembler(inputCols=['rate_marriage', 'age', 'yrs_married' \
                                          , 'children', 'religious'], outputCol="features")

df = df_assembler.transform(df)

df.printSchema()

root
 |-- rate_marriage: integer (nullable = true)
 |-- age: double (nullable = true)
 |-- yrs_married: double (nullable = true)
 |-- children: double (nullable = true)
 |-- religious: integer (nullable = true)
 |-- affairs: integer (nullable = true)
 |-- features: vector (nullable = true)

df.select(['features', 'affairs']).show(5)

+--------------------+-------+
|            features|affairs|
+--------------------+-------+
|[5.0,32.0,6.0,1.0...|      0|
|[4.0,22.0,2.5,0.0...|      0|
|[3.0,32.0,9.0,3.0...|      1|
|[3.0,27.0,13.0,3....|      1|
|[4.0,22.0,2.5,0.0...|      1|
+--------------------+-------+
only showing top 5 rows

model_df = df.select(['features', 'affairs'])

trainDF, testDF = model_df.randomSplit([0.8, 0.2])

from pyspark.ml.classification import RandomForestClassifier

rf_model = RandomForestClassifier(labelCol='affairs', numTrees=30, maxDepth=3, impurity='entropy').fit(trainDF)

rf_predictions = rf_model.transform(testDF)

rf_predictions.show(5)

+--------------------+-------+--------------------+--------------------+----------+
|            features|affairs|       rawPrediction|         probability|prediction|
+--------------------+-------+--------------------+--------------------+----------+
|[1.0,22.0,2.5,1.0...|      0|[13.6946596452935...|[0.45648865484311...|       1.0|
|[1.0,22.0,2.5,1.0...|      0|[13.6946596452935...|[0.45648865484311...|       1.0|
|[1.0,27.0,2.5,0.0...|      1|[14.4414315098290...|[0.48138105032763...|       1.0|
|[1.0,27.0,6.0,0.0...|      0|[12.2603006986020...|[0.40867668995340...|       1.0|
|[1.0,27.0,6.0,1.0...|      1|[11.2445159991833...|[0.37481719997277...|       1.0|
+--------------------+-------+--------------------+--------------------+----------+
only showing top 5 rows

from pyspark.ml.evaluation import MulticlassClassificationEvaluator

rf_accuracy = MulticlassClassificationEvaluator(labelCol="affairs", metricName="accuracy") \
                                                .evaluate(rf_predictions)

rf_accuracy

0.7132644956314536

rf_model.save("/home/carbig/RandomForest_Model")

rf_model2 = rf_model.load("/home/carbig/RandomForest_Model")

티스토리

Spark ML 05(Pyspark)