fix.

gatorsmile · gatorsmile · commit e08fc085965a · 2017-05-15T11:24:05.000-07:00
diff --git a/python/pyspark/sql/context.py b/python/pyspark/sql/context.py
@@ -28,7 +28,7 @@
 from pyspark.sql.dataframe import DataFrame
 from pyspark.sql.readwriter import DataFrameReader
 from pyspark.sql.streaming import DataStreamReader
-from pyspark.sql.types import IntegerType, Row, StringType
+from pyspark.sql.types import DoubleType, IntegerType, Row, StringType
 from pyspark.sql.utils import install_exception_handler
 
 __all__ = ["SQLContext", "HiveContext", "UDFRegistration"]
@@ -208,14 +208,19 @@ def registerFunction(self, name, f, returnType=StringType()):
 
     @ignore_unicode_prefix
     @since(2.1)
-    def registerJavaFunction(self, name, javaClassName, returnType=None):
+    def registerJavaFunction(self, name, javaClassName, returnType=None, deterministic=True,
+                             distinctLike=False):
         """Register a java UDF so it can be used in SQL statements.
 
         In addition to a name and the function itself, the return type can be optionally specified.
         When the return type is not specified we would infer it via reflection.
         :param name:  name of the UDF
         :param javaClassName: fully qualified name of java class
         :param returnType: a :class:`pyspark.sql.types.DataType` object
+        :param deterministic: A flag indicating if the UDF is deterministic. Deterministic UDF
+                              returns same result each time it is invoked with a particular input.
+        :param distinctLike: a UDF is considered distinctLike if the UDF can be evaluated on just
+                             the distinct values of a column.
 
         >>> sqlContext.registerJavaFunction("javaStringLength",
         ...   "test.org.apache.spark.sql.JavaStringLength", IntegerType())
@@ -225,12 +230,17 @@ def registerJavaFunction(self, name, javaClassName, returnType=None):
         ...   "test.org.apache.spark.sql.JavaStringLength")
         >>> sqlContext.sql("SELECT javaStringLength2('test')").collect()
         [Row(UDF:javaStringLength2(test)=4)]
+        >>> sqlContext.registerJavaFunction("javaRand",
+        ...   "test.org.apache.spark.sql.randUDFTest", DoubleType(), deterministic=False)
+        >>> sqlContext.sql("SELECT javaRand(3)").collect()
+        [Row(UDF:javaRand(test)=4)]
 
         """
         jdt = None
         if returnType is not None:
             jdt = self.sparkSession._jsparkSession.parseDataType(returnType.json())
-        self.sparkSession._jsparkSession.udf().registerJava(name, javaClassName, jdt)
+        self.sparkSession._jsparkSession.udf().registerJava(
+            name, javaClassName, jdt, deterministic, distinctLike)
 
     # TODO(andrew): delete this once we refactor things to take in SparkSession
     def _inferSchema(self, rdd, samplingRatio=None):