fix test problem

huaxingao · huaxingao · commit 2d0e39434407 · 2018-04-23T13:21:53.000-07:00
diff --git a/mllib/src/main/scala/org/apache/spark/ml/clustering/PowerIterationClustering.scala b/mllib/src/main/scala/org/apache/spark/ml/clustering/PowerIterationClustering.scala
@@ -97,13 +97,15 @@ private[clustering] trait PowerIterationClusteringParams extends Params with Has
   def getNeighborsCol: String = $(neighborsCol)
 
   /**
-   * Param for the name of the input column for neighbors in the adjacency list representation.
+   * Param for the name of the input column for non-negative weights (similarities) of edges
+   * between the vertex in `idCol` and each neighbor in `neighborsCol`.
    * Default: "similarities"
    * @group param
    */
   @Since("2.4.0")
   val similaritiesCol = new Param[String](this, "similaritiesCol",
-    "Name of the input column for neighbors in the adjacency list representation.",
+    "Name of the input column for non-negative weights (similarities) of edges between the " +
+    "vertex in `idCol` and each neighbor in `neighborsCol`.",
     (value: String) => value.nonEmpty)
 
   setDefault(similaritiesCol, "similarities")
diff --git a/python/pyspark/ml/clustering.py b/python/pyspark/ml/clustering.py
@@ -1179,8 +1179,9 @@ class _PowerIterationClusteringParams(JavaParams, HasMaxIter, HasPredictionCol):
                          "representation.",
                          typeConverter=TypeConverters.toString)
     similaritiesCol = Param(Params._dummy(), "similaritiesCol",
-                            "non-negative weights (similarities) of edges between the vertex in " +
-                            "`idCol` and each neighbor in `neighborsCol`",
+                            "Name of the input column for non-negative weights (similarities) " +
+                            "of edges between the vertex in `idCol` and each neighbor in " +
+                            "`neighborsCol`",
                             typeConverter=TypeConverters.toString)
 
     @since("2.4.0")
@@ -1253,8 +1254,8 @@ class PowerIterationClustering(JavaTransformer, _PowerIterationClusteringParams,
     >>> schema = StructType([StructField("id", LongType(), False), \
              StructField("neighbors", ArrayType(LongType(), False), True), \
              StructField("similarities", ArrayType(DoubleType(), False), True)])
-    >>> pic = PowerIterationClustering()
     >>> df = spark.createDataFrame(rdd, schema)
+    >>> pic = PowerIterationClustering()
     >>> result = pic.setK(2).setMaxIter(40).transform(df)
     >>> predictions = sorted(set([(i[0], i[1]) for i in result.select(result.id, result.prediction)
     ...     .collect()]), key=lambda x: x[0])
@@ -1276,12 +1277,16 @@ class PowerIterationClustering(JavaTransformer, _PowerIterationClusteringParams,
     >>> pic2.getMaxIter()
     40
     >>> pic3 = PowerIterationClustering(k=4, initMode="degree")
+    >>> pic3.getIdCol()
+    'id'
     >>> pic3.getK()
     4
     >>> pic3.getMaxIter()
     20
     >>> pic3.getInitMode()
     'degree'
+
+
     .. versionadded:: 2.4.0
     """
     @keyword_only
@@ -1294,7 +1299,8 @@ def __init__(self, predictionCol="prediction", k=2, maxIter=20, initMode="random
         super(PowerIterationClustering, self).__init__()
         self._java_obj = self._new_java_obj(
             "org.apache.spark.ml.clustering.PowerIterationClustering", self.uid)
-        self._setDefault(k=2, maxIter=20, initMode="random")
+        self._setDefault(k=2, maxIter=20, initMode="random", idCol="id", neighborsCol="neighbors",
+                         similaritiesCol="similarities")
         kwargs = self._input_kwargs
         self.setParams(**kwargs)