ref: adding compute environments (2/n) (#3842)

williamFalcon · web-flow · commit 2c21f7d7e249 · 2020-10-04T08:48:46.000-04:00
* ref: adding compute environments (2/n)

* ref: adding compute environments (2/n)

* ref: adding compute environments (2/n)

* ref: adding compute environments (2/n)
diff --git a/pytorch_lightning/accelerators/accelerator_connector.py b/pytorch_lightning/accelerators/accelerator_connector.py
@@ -7,6 +7,8 @@
 from pytorch_lightning.utilities.distributed import rank_zero_warn, rank_zero_info
 from pytorch_lightning.utilities.exceptions import MisconfigurationException
 from pytorch_lightning import _logger as log
+from pytorch_lightning.cluster_environments.slurm_environment import SLURMEnvironment
+from pytorch_lightning.cluster_environments.torchelastic_environment import TorchElasticEnvironment
 
 try:
     import torch_xla
@@ -40,9 +42,12 @@ def on_trainer_init(
             sync_batchnorm,
             benchmark,
             replace_sampler_ddp,
-            deterministic
+            deterministic,
+            cluster_environment
     ):
         self.trainer.deterministic = deterministic
+        self.cluster_environment = cluster_environment
+
         torch.backends.cudnn.deterministic = self.trainer.deterministic
         if self.trainer.deterministic:
             # fixing non-deterministic part of horovod
@@ -123,6 +128,22 @@ def on_trainer_init(
 
         self.trainer.replace_sampler_ddp = replace_sampler_ddp
 
+    def _select_environment(self):
+        env = None
+
+        # in priority: user environment, torchelastic (which is a generic environment), slurm
+        if self.cluster_environment is not None:
+            env = self.cluster_environment
+        elif self._is_using_torchelastic():
+            env = TorchElasticEnvironment()
+        elif self.trainer.is_slurm_managing_tasks:
+            env = SLURMEnvironment()
+        return env
+
+    def _is_using_torchelastic(self):
+        te_flags_passed = 'WORLD_SIZE' in os.environ and ('GROUP_RANK' in os.environ or 'NODE_RANK' in os.environ)
+        return te_flags_passed
+
     def select_accelerator(self):
         if self.trainer.accelerator_backend is not None:
             return self.trainer.accelerator_backend
diff --git a/pytorch_lightning/accelerators/base_backend.py b/pytorch_lightning/accelerators/base_backend.py
@@ -23,8 +23,9 @@
 
 class Accelerator(object):
 
-    def __init__(self, trainer):
+    def __init__(self, trainer, cluster_environment=None):
         self.trainer = trainer
+        self.cluster_environment = cluster_environment
         self.dist = AttributeDict(rank=0, device=None)
 
     def setup(self, model):
diff --git a/pytorch_lightning/accelerators/cpu_backend.py b/pytorch_lightning/accelerators/cpu_backend.py
@@ -20,8 +20,8 @@
 
 class CPUBackend(Accelerator):
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
 
     def setup(self, model):
         # run through amp wrapper
diff --git a/pytorch_lightning/accelerators/ddp2_backend.py b/pytorch_lightning/accelerators/ddp2_backend.py
@@ -35,8 +35,8 @@
 
 class DDP2Backend(Accelerator):
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.task_idx = None
         self.dist = LightningDistributed()
 
diff --git a/pytorch_lightning/accelerators/ddp_backend.py b/pytorch_lightning/accelerators/ddp_backend.py
@@ -42,8 +42,8 @@
 
 class DDPBackend(Accelerator):
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.task_idx = None
         self._has_spawned_children = False
         self.interactive_ddp_procs = []
diff --git a/pytorch_lightning/accelerators/ddp_cpu_spawn_backend.py b/pytorch_lightning/accelerators/ddp_cpu_spawn_backend.py
@@ -38,8 +38,8 @@
 
 class DDPCPUSpawnBackend(Accelerator):
 
-    def __init__(self, trainer, nprocs):
-        super().__init__(trainer)
+    def __init__(self, trainer, nprocs, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.mp_queue = None
         self.nprocs = nprocs
         self.dist = LightningDistributed()
diff --git a/pytorch_lightning/accelerators/ddp_slurm_backend.py b/pytorch_lightning/accelerators/ddp_slurm_backend.py
@@ -40,8 +40,8 @@
 # -------------------------------------------
 class DDPSLURMBackend(Accelerator):
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.task_idx = None
         self._has_spawned_children = False
         self.dist = LightningDistributed()
diff --git a/pytorch_lightning/accelerators/ddp_spawn_backend.py b/pytorch_lightning/accelerators/ddp_spawn_backend.py
@@ -40,8 +40,8 @@
 
 class DDPSpawnBackend(Accelerator):
 
-    def __init__(self, trainer, nprocs):
-        super().__init__(trainer)
+    def __init__(self, trainer, nprocs, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.mp_queue = None
         self.nprocs = nprocs
         self.dist = LightningDistributed()
diff --git a/pytorch_lightning/accelerators/ddp_torchelastic_backend.py b/pytorch_lightning/accelerators/ddp_torchelastic_backend.py
@@ -40,8 +40,8 @@
 # -------------------------------------------
 class DDPTorchElasticBackend(Accelerator):
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.task_idx = None
         self._has_spawned_children = False
         self.dist = LightningDistributed()
diff --git a/pytorch_lightning/accelerators/dp_backend.py b/pytorch_lightning/accelerators/dp_backend.py
@@ -25,8 +25,8 @@
 
 class DataParallelBackend(Accelerator):
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.model_autocast_original_forward = None
         self.dist = LightningDistributed()
 
diff --git a/pytorch_lightning/accelerators/gpu_backend.py b/pytorch_lightning/accelerators/gpu_backend.py
@@ -22,8 +22,8 @@
 class GPUBackend(Accelerator):
     amp_backend: AMPType
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.dist = LightningDistributed()
 
     def setup(self, model):
diff --git a/pytorch_lightning/accelerators/horovod_backend.py b/pytorch_lightning/accelerators/horovod_backend.py
@@ -31,8 +31,8 @@
 class HorovodBackend(Accelerator):
     amp_backend: AMPType
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
 
     def setup(self, model):
         # call setup after the ddp process has connected
diff --git a/pytorch_lightning/accelerators/tpu_backend.py b/pytorch_lightning/accelerators/tpu_backend.py
@@ -39,8 +39,8 @@
 
 class TPUBackend(Accelerator):
 
-    def __init__(self, trainer):
-        super().__init__(trainer)
+    def __init__(self, trainer, cluster_environment=None):
+        super().__init__(trainer, cluster_environment)
         self.start_method = None
         self.mp_queue = None
 
diff --git a/pytorch_lightning/cluster_environments/cluster_environment.py b/pytorch_lightning/cluster_environments/cluster_environment.py
@@ -1,7 +1,7 @@
 class ClusterEnvironment:
 
-    def __init__(self, world_size):
-        self._world_size = world_size
+    def __init__(self):
+        self._world_size = None
 
     def master_address(self):
         pass
diff --git a/pytorch_lightning/cluster_environments/slurm_environment.py b/pytorch_lightning/cluster_environments/slurm_environment.py
@@ -6,8 +6,8 @@
 
 class SLURMEnvironment(ClusterEnvironment):
 
-    def __init__(self, world_size):
-        super().__init__(world_size)
+    def __init__(self):
+        super().__init__()
 
     def master_address(self):
         # figure out the root node addr
diff --git a/pytorch_lightning/cluster_environments/torchelastic_environment.py b/pytorch_lightning/cluster_environments/torchelastic_environment.py
@@ -6,8 +6,8 @@
 
 class TorchElasticEnvironment(ClusterEnvironment):
 
-    def __init__(self, world_size):
-        super().__init__(world_size)
+    def __init__(self):
+        super().__init__()
 
     def master_address(self):
         if "MASTER_ADDR" not in os.environ:
diff --git a/pytorch_lightning/trainer/__init__.py b/pytorch_lightning/trainer/__init__.py
@@ -355,6 +355,29 @@ def on_train_end(self, trainer, pl_module):
         prefix=''
     )
 
+cluster_environment
+^^^^^^^^^^^^^^^^^^^
+Environment to connect arbitrary cluster backends. Lightning automatically handles:
+- SLURM
+- TorchElastic
+
+For any other non-supported cluster environment, define your own class and pass it in.
+
+.. code-block:: python
+
+    from pytorch_lightning.cluster_environments import ClusterEnvironment
+
+    class MyCluster(ClusterEnvironment):
+
+        def master_address(self):
+            return your_master_address
+
+        def master_port(self):
+            return your_master_port
+
+        def world_size(self):
+            return the_world_size
+
 default_root_dir
 ^^^^^^^^^^^^^^^^
 
diff --git a/pytorch_lightning/trainer/trainer.py b/pytorch_lightning/trainer/trainer.py
@@ -56,6 +56,7 @@
 from pytorch_lightning.utilities.cloud_io import load as pl_load
 from pytorch_lightning.utilities.model_utils import is_overridden
 from pytorch_lightning.trainer.properties import TrainerProperties
+from pytorch_lightning.cluster_environments.cluster_environment import ClusterEnvironment
 
 # warnings to ignore in trainer
 warnings.filterwarnings(
@@ -126,6 +127,7 @@ def __init__(
         terminate_on_nan: bool = False,
         auto_scale_batch_size: Union[str, bool] = False,
         prepare_data_per_node: bool = True,
+        cluster_environment: ClusterEnvironment = None,
         amp_backend: str = 'native',
         amp_level: str = 'O2',  # backward compatible, todo: remove in v1.0.0
         overfit_pct: float = None,  # backward compatible, todo: remove in v1.0.0
@@ -165,6 +167,8 @@ def __init__(
 
             check_val_every_n_epoch: Check val every n train epochs.
 
+            cluster_environment: Environment config to link up arbitrary clusters
+
             default_root_dir: Default path for logs and weights when no logger/ckpt_callback passed.
                 Default: ``os.getcwd()``.
                 Can be remote file paths such as `s3://mybucket/path` or 'hdfs://path/'
@@ -331,7 +335,8 @@ def __init__(
             sync_batchnorm,
             benchmark,
             replace_sampler_ddp,
-            deterministic
+            deterministic,
+            cluster_environment
         )
 
         # init train loop related flags