Lightning-AI
diff --git a/‎.azure-pipelines/gpu-tests.yml‎
Lines changed: 4 additions & 4 deletions b/‎.azure-pipelines/gpu-tests.yml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎benchmarks/test_sharded_parity.py‎
Lines changed: 2 additions & 2 deletions b/‎benchmarks/test_sharded_parity.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎tests/accelerators/test_accelerator_connector.py‎
Lines changed: 264 additions & 0 deletions b/‎tests/accelerators/test_accelerator_connector.py‎
Lines changed: 264 additions & 0 deletions
diff --git a/‎tests/accelerators/test_common.py‎
Lines changed: 2 additions & 2 deletions b/‎tests/accelerators/test_common.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎tests/accelerators/test_ddp.py‎
Lines changed: 3 additions & 3 deletions b/‎tests/accelerators/test_ddp.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎tests/accelerators/test_ddp_spawn.py‎
Lines changed: 3 additions & 3 deletions b/‎tests/accelerators/test_ddp_spawn.py‎
Lines changed: 3 additions & 3 deletions
@@ -106,10 +106,10 @@ jobs:
         set -e
         python -m pytest pl_examples -v --maxfail=2 --durations=0
         bash pl_examples/run_examples.sh --trainer.gpus=1
-        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.accelerator=ddp
-        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.accelerator=ddp --trainer.precision=16
-        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.accelerator=dp
-        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.accelerator=dp --trainer.precision=16
+        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.strategy=ddp
+        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.strategy=ddp --trainer.precision=16
+        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.strategy=dp
+        bash pl_examples/run_examples.sh --trainer.gpus=2 --trainer.strategy=dp --trainer.precision=16
       env:
         PL_USE_MOCKED_MNIST: "1"
       displayName: 'Testing: examples'
 
@@ -137,15 +137,15 @@ def plugin_parity_test(
     ddp_model = model_cls()
     use_cuda = gpus > 0
 
-    trainer = Trainer(fast_dev_run=True, max_epochs=1, gpus=gpus, precision=precision, accelerator="ddp_spawn")
+    trainer = Trainer(fast_dev_run=True, max_epochs=1, gpus=gpus, precision=precision, strategy="ddp_spawn")
 
     max_memory_ddp, ddp_time = record_ddp_fit_model_stats(trainer=trainer, model=ddp_model, use_cuda=use_cuda)
 
     # Reset and train Custom DDP
     seed_everything(seed)
     custom_plugin_model = model_cls()
 
-    trainer = Trainer(fast_dev_run=True, max_epochs=1, gpus=gpus, precision=precision, accelerator="ddp_sharded_spawn")
+    trainer = Trainer(fast_dev_run=True, max_epochs=1, gpus=gpus, precision=precision, strategy="ddp_sharded_spawn")
     assert isinstance(trainer.training_type_plugin, DDPSpawnShardedPlugin)
 
     max_memory_custom, custom_model_time = record_ddp_fit_model_stats(
 
@@ -717,3 +717,267 @@ def test_validate_precision_type(tmpdir, precision):
 def test_amp_level_raises_error_with_native(tmpdir):
     with pytest.raises(MisconfigurationException, match="not supported with `amp_backend='native'`"):
         _ = Trainer(default_root_dir=tmpdir, gpus=1, amp_level="O2", amp_backend="native", precision=16)
+
+
+def test_strategy_choice_ddp_spawn_cpu(tmpdir):
+    trainer = Trainer(fast_dev_run=True, strategy="ddp_spawn", num_processes=2)
+    assert isinstance(trainer.accelerator, CPUAccelerator)
+    assert isinstance(trainer.training_type_plugin, DDPSpawnPlugin)
+    assert isinstance(trainer.training_type_plugin.cluster_environment, LightningEnvironment)
+
+
+@mock.patch.dict(os.environ, {"CUDA_VISIBLE_DEVICES": "0,1"})
+@mock.patch("torch.cuda.device_count", return_value=2)
+@mock.patch("torch.cuda.is_available", return_value=True)
+def test_strategy_choice_ddp(cuda_available_mock, device_count_mock):
+    trainer = Trainer(fast_dev_run=True, strategy="ddp", gpus=1)
+    assert isinstance(trainer.accelerator, GPUAccelerator)
+    assert isinstance(trainer.training_type_plugin, DDPPlugin)
+    assert isinstance(trainer.training_type_plugin.cluster_environment, LightningEnvironment)
+
+
+@mock.patch.dict(os.environ, {"CUDA_VISIBLE_DEVICES": "0,1"})
+@mock.patch("torch.cuda.device_count", return_value=2)
+@mock.patch("torch.cuda.is_available", return_value=True)
+def test_strategy_choice_ddp_spawn(cuda_available_mock, device_count_mock):
+    trainer = Trainer(fast_dev_run=True, strategy="ddp_spawn", gpus=1)
+    assert isinstance(trainer.accelerator, GPUAccelerator)
+    assert isinstance(trainer.training_type_plugin, DDPSpawnPlugin)
+    assert isinstance(trainer.training_type_plugin.cluster_environment, LightningEnvironment)
+
+
+@RunIf(min_gpus=2)
+@mock.patch.dict(
+    os.environ,
+    {
+        "CUDA_VISIBLE_DEVICES": "0,1",
+        "SLURM_NTASKS": "2",
+        "SLURM_JOB_NAME": "SOME_NAME",
+        "SLURM_NODEID": "0",
+        "SLURM_PROCID": "1",
+        "SLURM_LOCALID": "1",
+    },
+)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp_slurm(setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert trainer.accelerator_connector.is_slurm_managing_tasks
+            assert isinstance(trainer.accelerator, GPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDPPlugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, SLURMEnvironment)
+            assert trainer.training_type_plugin.cluster_environment.local_rank() == 1
+            assert trainer.training_type_plugin.task_idx == 1
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp", gpus=2, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
+
+
+@RunIf(min_gpus=2)
+@mock.patch.dict(
+    os.environ,
+    {
+        "CUDA_VISIBLE_DEVICES": "0,1",
+        "SLURM_NTASKS": "2",
+        "SLURM_JOB_NAME": "SOME_NAME",
+        "SLURM_NODEID": "0",
+        "SLURM_PROCID": "1",
+        "SLURM_LOCALID": "1",
+    },
+)
+@mock.patch("torch.cuda.device_count", return_value=2)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp2_slurm(device_count_mock, setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert trainer.accelerator_connector.is_slurm_managing_tasks
+            assert isinstance(trainer.accelerator, GPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDP2Plugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, SLURMEnvironment)
+            assert trainer.training_type_plugin.cluster_environment.local_rank() == 1
+            assert trainer.training_type_plugin.task_idx == 1
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp2", gpus=2, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
+
+
+@RunIf(min_gpus=1)
+@mock.patch.dict(
+    os.environ,
+    {
+        "CUDA_VISIBLE_DEVICES": "0,1",
+        "WORLD_SIZE": "2",
+        "LOCAL_WORLD_SIZE": "2",
+        "RANK": "1",
+        "LOCAL_RANK": "1",
+        "GROUP_RANK": "0",
+    },
+)
+@mock.patch("torch.cuda.device_count", return_value=2)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp_te(device_count_mock, setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert isinstance(trainer.accelerator, GPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDPPlugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, TorchElasticEnvironment)
+            assert trainer.training_type_plugin.cluster_environment.local_rank() == 1
+            assert trainer.training_type_plugin.task_idx == 1
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp", gpus=2, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
+
+
+@RunIf(min_gpus=1)
+@mock.patch.dict(
+    os.environ,
+    {
+        "CUDA_VISIBLE_DEVICES": "0,1",
+        "WORLD_SIZE": "2",
+        "LOCAL_WORLD_SIZE": "2",
+        "RANK": "1",
+        "LOCAL_RANK": "1",
+        "GROUP_RANK": "0",
+    },
+)
+@mock.patch("torch.cuda.device_count", return_value=2)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp2_te(device_count_mock, setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert isinstance(trainer.accelerator, GPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDP2Plugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, TorchElasticEnvironment)
+            assert trainer.training_type_plugin.cluster_environment.local_rank() == 1
+            assert trainer.training_type_plugin.task_idx == 1
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp2", gpus=2, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
+
+
+@mock.patch.dict(
+    os.environ, {"WORLD_SIZE": "2", "LOCAL_WORLD_SIZE": "2", "RANK": "1", "LOCAL_RANK": "1", "GROUP_RANK": "0"}
+)
+@mock.patch("torch.cuda.device_count", return_value=0)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp_cpu_te(device_count_mock, setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert isinstance(trainer.accelerator, CPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDPPlugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, TorchElasticEnvironment)
+            assert trainer.training_type_plugin.cluster_environment.local_rank() == 1
+            assert trainer.training_type_plugin.task_idx == 1
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp_spawn", num_processes=2, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
+
+
+@RunIf(min_gpus=1)
+@mock.patch.dict(
+    os.environ,
+    {
+        "CUDA_VISIBLE_DEVICES": "0",
+        "KUBERNETES_PORT": "tcp://127.0.0.1:443",
+        "MASTER_ADDR": "1.2.3.4",
+        "MASTER_PORT": "500",
+        "WORLD_SIZE": "20",
+        "RANK": "1",
+    },
+)
+@mock.patch("torch.cuda.device_count", return_value=1)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp_kubeflow(device_count_mock, setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert isinstance(trainer.accelerator, GPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDPPlugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, KubeflowEnvironment)
+            assert trainer.training_type_plugin.cluster_environment.local_rank() == 0
+            assert trainer.training_type_plugin.task_idx == 0
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp", gpus=1, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
+
+
+@mock.patch.dict(
+    os.environ,
+    {
+        "KUBERNETES_PORT": "tcp://127.0.0.1:443",
+        "MASTER_ADDR": "1.2.3.4",
+        "MASTER_PORT": "500",
+        "WORLD_SIZE": "20",
+        "RANK": "1",
+    },
+)
+@mock.patch("torch.cuda.device_count", return_value=0)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp_cpu_kubeflow(device_count_mock, setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert isinstance(trainer.accelerator, CPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDPPlugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, KubeflowEnvironment)
+            assert trainer.training_type_plugin.cluster_environment.local_rank() == 0
+            assert trainer.training_type_plugin.task_idx == 0
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp_spawn", num_processes=2, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
+
+
+@mock.patch.dict(
+    os.environ,
+    {
+        "SLURM_NTASKS": "2",
+        "SLURM_JOB_NAME": "SOME_NAME",
+        "SLURM_NODEID": "0",
+        "LOCAL_RANK": "0",
+        "SLURM_PROCID": "0",
+        "SLURM_LOCALID": "0",
+    },
+)
+@mock.patch("torch.cuda.device_count", return_value=0)
+@mock.patch("pytorch_lightning.plugins.DDPPlugin.setup_distributed", autospec=True)
+def test_strategy_choice_ddp_cpu_slurm(device_count_mock, setup_distributed_mock):
+    class CB(Callback):
+        def on_fit_start(self, trainer, pl_module):
+            assert trainer.accelerator_connector.is_slurm_managing_tasks
+            assert isinstance(trainer.accelerator, CPUAccelerator)
+            assert isinstance(trainer.training_type_plugin, DDPPlugin)
+            assert isinstance(trainer.training_type_plugin.cluster_environment, SLURMEnvironment)
+            assert trainer.training_type_plugin.task_idx == 0
+            raise SystemExit()
+
+    model = BoringModel()
+    trainer = Trainer(fast_dev_run=True, strategy="ddp_spawn", num_processes=2, callbacks=[CB()])
+
+    with pytest.raises(SystemExit):
+        trainer.fit(model)
@@ -27,8 +27,8 @@
     "trainer_kwargs",
     (
         pytest.param(dict(gpus=1), marks=RunIf(min_gpus=1)),
-        pytest.param(dict(accelerator="dp", gpus=2), marks=RunIf(min_gpus=2)),
-        pytest.param(dict(accelerator="ddp_spawn", gpus=2), marks=RunIf(min_gpus=2)),
+        pytest.param(dict(strategy="dp", gpus=2), marks=RunIf(min_gpus=2)),
+        pytest.param(dict(strategy="ddp_spawn", gpus=2), marks=RunIf(min_gpus=2)),
     ),
 )
 def test_evaluate(tmpdir, trainer_kwargs):
 
@@ -85,7 +85,7 @@ def test_torch_distributed_backend_env_variables(tmpdir):
     with patch.dict(os.environ, _environ), patch("torch.cuda.device_count", return_value=2):
         with pytest.raises(ValueError, match="Invalid backend: 'undefined'"):
             model = BoringModel()
-            trainer = Trainer(default_root_dir=tmpdir, fast_dev_run=True, accelerator="ddp", gpus=2, logger=False)
+            trainer = Trainer(default_root_dir=tmpdir, fast_dev_run=True, strategy="ddp", gpus=2, logger=False)
             trainer.fit(model)
 
 
@@ -103,7 +103,7 @@ def setup(self, stage: Optional[str] = None) -> None:
             raise SystemExit()
 
     model = TestModel()
-    trainer = Trainer(default_root_dir=tmpdir, fast_dev_run=True, accelerator="ddp", gpus=1)
+    trainer = Trainer(default_root_dir=tmpdir, fast_dev_run=True, strategy="ddp", gpus=1)
     with pytest.raises(SystemExit):
         trainer.fit(model)
 
@@ -144,7 +144,7 @@ def on_train_start(self, trainer: "pl.Trainer", pl_module: "pl.LightningModule")
         default_root_dir=tmpdir,
         fast_dev_run=True,
         precision=precision,
-        accelerator="ddp",
+        strategy="ddp",
         gpus=2,
         callbacks=CustomCallback(),
     )
 
@@ -33,7 +33,7 @@ def test_multi_gpu_early_stop_ddp_spawn(tmpdir):
         limit_train_batches=10,
         limit_val_batches=10,
         gpus=[0, 1],
-        accelerator="ddp_spawn",
+        strategy="ddp_spawn",
     )
 
     dm = ClassifDataModule()
@@ -51,7 +51,7 @@ def test_multi_gpu_model_ddp_spawn(tmpdir):
         limit_train_batches=10,
         limit_val_batches=10,
         gpus=[0, 1],
-        accelerator="ddp_spawn",
+        strategy="ddp_spawn",
         enable_progress_bar=False,
     )
 
@@ -78,7 +78,7 @@ def test_ddp_all_dataloaders_passed_to_fit(tmpdir):
         limit_train_batches=0.2,
         limit_val_batches=0.2,
         gpus=[0, 1],
-        accelerator="ddp_spawn",
+        strategy="ddp_spawn",
     )
     trainer.fit(model, **fit_options)
     assert trainer.state.finished, "DDP doesn't work with dataloaders passed to fit()."
Original file line number	Diff line number	Diff line change
`@@ -27,8 +27,8 @@`
`27`	`27`	`"trainer_kwargs",`
`28`	`28`	`(`
`29`	`29`	`pytest.param(dict(gpus=1), marks=RunIf(min_gpus=1)),`
`30`		`- pytest.param(dict(accelerator="dp", gpus=2), marks=RunIf(min_gpus=2)),`
`31`		`- pytest.param(dict(accelerator="ddp_spawn", gpus=2), marks=RunIf(min_gpus=2)),`
	`30`	`+ pytest.param(dict(strategy="dp", gpus=2), marks=RunIf(min_gpus=2)),`
	`31`	`+ pytest.param(dict(strategy="ddp_spawn", gpus=2), marks=RunIf(min_gpus=2)),`
`32`	`32`	`),`
`33`	`33`	`)`
`34`	`34`	`def test_evaluate(tmpdir, trainer_kwargs):`