revert non-parallel process

yinxusen · yinxusen · commit cf4df64d90cc · 2016-04-06T21:16:29.000-07:00
diff --git a/python/pyspark/ml/classification.py b/python/pyspark/ml/classification.py
@@ -17,7 +17,6 @@
 
 import operator
 import warnings
-from multiprocessing.dummy import Pool
 
 from pyspark.ml import Estimator, Model
 from pyspark.ml.param.shared import *
@@ -1202,6 +1201,9 @@ def setParams(self, featuresCol=None, labelCol=None, predictionCol=None, classif
     def setClassifier(self, value):
         """
         Sets the value of :py:attr:`classifier`.
+
+        .. note:: Only LogisticRegression, NaiveBayes and MultilayerPerceptronClassifier are
+                  supported now.
         """
         self._paramMap[self.classifier] = value
         return self
@@ -1237,13 +1239,10 @@ def trainSingleClass(index):
             paramMap = dict([(classifier.labelCol, binaryLabelCol),
                             (classifier.featuresCol, featuresCol),
                             (classifier.predictionCol, predictionCol)])
-            duplicatedClassifier = classifier.__class__()
-            duplicatedClassifier._resetUid(classifier.uid)
-            classifier._copyValues(duplicatedClassifier)
-            return duplicatedClassifier.fit(trainingDataset, paramMap)
+            return classifier.fit(trainingDataset, paramMap)
 
-        pool = Pool()
-        models = pool.map(trainSingleClass, range(numClasses))
+        # TODO: Parallel training for all classes.
+        models = [trainSingleClass(i) for i in range(numClasses)]
 
         if handlePersistence:
             multiclassLabeled.unpersist()