cuse = spark.read.csv("data/cuse_binary.csv", inferSchema=True, header=True)

from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler
from pyspark.ml import Pipeline

categorical_columns = cuse.columns[0:3]

stringindexer_stages = [StringIndexer(inputCol=c, \
                                      outputCol='stringindexed_'+c) \
                        for c in categorical_columns]
stringindexer_stages += [StringIndexer(inputCol='y', outputCol='label')]

onehotencoder_stages = [OneHotEncoder(inputCol='stringindexed_'+c, \
                                      outputCol='onehot_'+c)
                        for c in categorical_columns]

feature_columns = ['onehot_'+c for c in categorical_columns]

vectorassembler_stage = VectorAssembler(inputCols=feature_columns, outputCol='features')

all_stages = stringindexer_stages + onehotencoder_stages + [vectorassembler_stage]

pipeline = Pipeline(stages=all_stages)

pipeline_model = pipeline.fit(cuse)

final_columns = feature_columns + ['features', 'label']

cuse_df = pipeline_model.transform(cuse).select(final_columns)

trainDF, testDF = cuse_df.randomSplit([0.8, 0.2])

from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.classification import

dt = DecisionTreeClassifier(featuresCol="features", labelCol='label')

from pyspark.ml.tuning import ParamGridBuilder

param_grid = ParamGridBuilder() \
            .addGrid(dt.maxDepth, [2, 3, 4, 5]).build()

from pyspark.ml.evaluation import BinaryClassificationEvaluator

evaluator = BinaryClassificationEvaluator(rawPredictionCol="rawPrediction", \
                                          metricName="areaUnderROC")

from pyspark.ml.tuning import CrossValidator

cv = CrossValidator(estimator=dt, estimatorParamMaps=param_grid, evaluator=evaluator, numFolds=5)

cv_model = cv.fit(cuse_df)

pred_train_df = cv_model.transform(trainDF)

pred_train_df.select(['features', 'label', 'prediction', 'rawPrediction']).show(5)

+---------+-----+----------+-------------+
| features|label|prediction|rawPrediction|
+---------+-----+----------+-------------+
|(5,[],[])|  0.0|       1.0|[203.0,237.0]|
|(5,[],[])|  0.0|       1.0|[203.0,237.0]|
|(5,[],[])|  0.0|       1.0|[203.0,237.0]|
|(5,[],[])|  0.0|       1.0|[203.0,237.0]|
|(5,[],[])|  0.0|       1.0|[203.0,237.0]|
+---------+-----+----------+-------------+
only showing top 5 rows

cv_model.bestModel.featureImportances

SparseVector(5, {1: 0.166, 2: 0.1888, 4: 0.6453})

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Spark + H2O(Pysparkling) (0)	2020.05.09
Spark ML 05(Pyspark) (0)	2020.05.04
Spark ML 03 (Pyspark) (0)	2020.05.01
Spark ML 02 (Pyspark) (0)	2020.04.26
Spark ML (Pyspark) (0)	2020.04.25

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Hee'World

Hee'World

Spark ML 04(Pyspark) 본문

Spark ML 04(Pyspark)

'BigData > Spark' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역