apache · timout · Apr 12, 2017 · Apr 12, 2017 · Apr 12, 2017 · squito
diff --git a/...n/scala/org/apache/spark/scheduler/cluster/mesos/MesosCoarseGrainedSchedulerBackend.scala b/...n/scala/org/apache/spark/scheduler/cluster/mesos/MesosCoarseGrainedSchedulerBackend.scala
@@ -55,9 +55,6 @@ private[spark] class MesosCoarseGrainedSchedulerBackend(
   with org.apache.mesos.Scheduler
   with MesosSchedulerUtils {
 
-  // Blacklist a slave after this many failures
-  private val MAX_SLAVE_FAILURES = 2
-
   private val maxCoresOption = conf.getOption("spark.cores.max").map(_.toInt)
 
   // Maximum number of cores to acquire
@@ -484,7 +481,6 @@ private[spark] class MesosCoarseGrainedSchedulerBackend(
       cpus + totalCoresAcquired <= maxCores &&
       mem <= offerMem &&
       numExecutors() < executorLimit &&
-      slaves.get(slaveId).map(_.taskFailures).getOrElse(0) < MAX_SLAVE_FAILURES &&
 val nodeBlacklist: Set[String] = scheduler.nodeBlacklist() 
 val nodeBlacklist: Set[String] = scheduler.nodeBlacklist() 
       meetsPortRequirements
   }
 
@@ -540,15 +536,6 @@ private[spark] class MesosCoarseGrainedSchedulerBackend(
           totalGpusAcquired -= gpus
           gpusByTaskId -= taskId
         }
-        // If it was a failure, mark the slave as failed for blacklisting purposes
-        if (TaskState.isFailed(state)) {
-          slave.taskFailures += 1
-
-          if (slave.taskFailures >= MAX_SLAVE_FAILURES) {
-            logInfo(s"Blacklisting Mesos slave $slaveId due to too many failures; " +
-                "is Spark installed on it?")
-          }
-        }
         executorTerminated(d, slaveId, taskId, s"Executor finished with state $state")
         // In case we'd rejected everything before but have now lost a node
         d.reviveOffers()
@@ -674,6 +661,5 @@ private[spark] class MesosCoarseGrainedSchedulerBackend(
 
 private class Slave(val hostname: String) {
   val taskIDs = new mutable.HashSet[String]()
-  var taskFailures = 0
   var shuffleRegistered = false
 }