Lightning-AI · carmocca · Dec 23, 2021 · Dec 22, 2021 · Dec 22, 2021 · Dec 22, 2021
@@ -291,7 +291,7 @@ Below we show an example of running `ZeRO-Offload <https://www.deepspeed.ai/tuto
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
     model = MyModel()
     trainer = Trainer(gpus=4, strategy="deepspeed_stage_2_offload", precision=16)
@@ -310,7 +310,7 @@ You can also modify the ZeRO-Offload parameters via the plugin as below.
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
     model = MyModel()
     trainer = Trainer(
@@ -335,7 +335,7 @@ For even more speed benefit, DeepSpeed offers an optimized CPU version of ADAM c
 
     import pytorch_lightning
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
     from deepspeed.ops.adam import DeepSpeedCPUAdam
 
 
@@ -379,7 +379,7 @@ Also please have a look at our :ref:`deepspeed-zero-stage-3-tips` which contains
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
     from deepspeed.ops.adam import FusedAdam
 
 
@@ -403,7 +403,7 @@ You can also use the Lightning Trainer to run predict or evaluate with DeepSpeed
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
 
     class MyModel(pl.LightningModule):
@@ -429,7 +429,7 @@ This reduces the time taken to initialize very large models, as well as ensure w
 
     import torch.nn as nn
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
     from deepspeed.ops.adam import FusedAdam
 
 
@@ -467,7 +467,7 @@ DeepSpeed ZeRO Stage 3 Offloads optimizer state, gradients to the host CPU to re
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
     # Enable CPU Offloading
     model = MyModel()
@@ -496,7 +496,7 @@ Additionally, DeepSpeed supports offloading to NVMe drives for even larger model
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
     # Enable CPU Offloading
     model = MyModel()
@@ -541,7 +541,7 @@ This saves memory when training larger models, however requires using a checkpoi
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
     import deepspeed
 
 
@@ -564,7 +564,7 @@ This saves memory when training larger models, however requires using a checkpoi
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
     import deepspeed
 
 
@@ -644,7 +644,7 @@ In some cases you may want to define your own DeepSpeed Config, to access all pa
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
     deepspeed_config = {
         "zero_allow_untested_optimizer": True,
@@ -687,7 +687,7 @@ We support taking the config as a json formatted file:
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
     model = MyModel()
     trainer = Trainer(gpus=4, strategy=DeepSpeedStrategy("/path/to/deepspeed_config.json"), precision=16)
@@ -722,7 +722,7 @@ This can reduce peak memory usage and throughput as saved memory will be equal t
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DDPStrategy
+    from pytorch_lightning.strategies import DDPStrategy
 
     model = MyModel()
     trainer = Trainer(gpus=4, strategy=DDPStrategy(gradient_as_bucket_view=True))
@@ -741,7 +741,7 @@ Enable `FP16 Compress Hook for multi-node throughput improvement <https://pytorc
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DDPStrategy
+    from pytorch_lightning.strategies import DDPStrategy
     from torch.distributed.algorithms.ddp_comm_hooks import (
         default_hooks as default,
         powerSGD_hook as powerSGD,
@@ -760,7 +760,7 @@ Enable `PowerSGD for multi-node throughput improvement <https://pytorch.org/docs
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DDPStrategy
+    from pytorch_lightning.strategies import DDPStrategy
     from torch.distributed.algorithms.ddp_comm_hooks import powerSGD_hook as powerSGD
 
     model = MyModel()
@@ -786,7 +786,7 @@ Combine hooks for accumulated benefit:
 .. code-block:: python
 
     from pytorch_lightning import Trainer
-    from pytorch_lightning.plugins import DDPStrategy
+    from pytorch_lightning.strategies import DDPStrategy
     from torch.distributed.algorithms.ddp_comm_hooks import (
         default_hooks as default,
         powerSGD_hook as powerSGD,

@@ -61,7 +61,7 @@ You can also use pure 16-bit training, where the weights are also in 16-bit prec
 .. code-block:: python
 
     import pytorch_lightning as pl
-    from pytorch_lightning.plugins import IPUStrategy
+    from pytorch_lightning.strategies import IPUStrategy
 
     model = MyLightningModule()
     model = model.half()
@@ -80,7 +80,7 @@ IPUs provide further optimizations to speed up training. By using the ``IPUStrat
 .. code-block:: python
 
     import pytorch_lightning as pl
-    from pytorch_lightning.plugins import IPUStrategy
+    from pytorch_lightning.strategies import IPUStrategy
 
     model = MyLightningModule()
     trainer = pl.Trainer(ipus=8, strategy=IPUStrategy(device_iterations=32))
@@ -92,7 +92,7 @@ Note that by default we return the last device iteration loss. You can override
 
     import poptorch
     import pytorch_lightning as pl
-    from pytorch_lightning.plugins import IPUStrategy
+    from pytorch_lightning.strategies import IPUStrategy
 
     model = MyLightningModule()
     inference_opts = poptorch.Options()
@@ -121,7 +121,7 @@ Lightning supports dumping all reports to a directory to open using the tool.
 .. code-block:: python
 
     import pytorch_lightning as pl
-    from pytorch_lightning.plugins import IPUStrategy
+    from pytorch_lightning.strategies import IPUStrategy
 
     model = MyLightningModule()
     trainer = pl.Trainer(ipus=8, strategy=IPUStrategy(autoreport_dir="report_dir/"))

@@ -25,7 +25,7 @@ Additionally, you can pass your custom registered training type plugins to the `
 
 .. code-block:: python
 
-    from pytorch_lightning.plugins import DDPStrategy, TrainingTypePluginsRegistry, CheckpointIO
+    from pytorch_lightning.strategies import DDPStrategy, TrainingTypePluginsRegistry, CheckpointIO
 
 
     class CustomCheckpointIO(CheckpointIO):

@@ -178,7 +178,7 @@ For example, when training Graph Neural Networks, a common strategy is to load t
 
 A simple way to prevent redundant dataset replicas is to rely on :obj:`torch.multiprocessing` to share the `data automatically between spawned processes via shared memory <https://pytorch.org/docs/stable/notes/multiprocessing.html>`_.
 For this, all data pre-loading should be done on the main process inside :meth:`DataModule.__init__`.
-As a result, all tensor-data will get automatically shared when using the :class:`~pytorch_lightning.plugins.DDPSpawnStrategy` training type strategy:
+As a result, all tensor-data will get automatically shared when using the :class:`~pytorch_lightning.strategies.DDPSpawnStrategy` training type strategy:
 
 .. warning::
 

@@ -1416,7 +1416,7 @@ Supports passing different training strategies with aliases (ddp, ddp_spawn, etc
 
 .. code-block:: python
 
-    from pytorch_lightning.plugins import DDPStrategy
+    from pytorch_lightning.strategies import DDPStrategy
 
 
     class CustomDDPStrategy(DDPStrategy):

@@ -23,7 +23,8 @@ One to handle differences from the training routine and one to handle different
 
     from pytorch_lightning import Trainer
     from pytorch_lightning.accelerators import GPUAccelerator
-    from pytorch_lightning.plugins import NativeMixedPrecisionPlugin, DDPStrategy
+    from pytorch_lightning.plugins import NativeMixedPrecisionPlugin
+    from pytorch_lightning.strategies import DDPStrategy
 
     accelerator = GPUAccelerator()
     precision_plugin = NativeMixedPrecisionPlugin(precision=16, device="cuda")

@@ -60,7 +60,7 @@ Expert users may choose to extend an existing plugin by overriding its methods .
 
 .. code-block:: python
 
-    from pytorch_lightning.plugins import DDPStrategy
+    from pytorch_lightning.strategies import DDPStrategy
 
 
     class CustomDDPStrategy(DDPStrategy):

@@ -86,7 +86,7 @@ This by default comes with a performance hit, and can be disabled in most cases.
 
 .. code-block:: python
 
-    from pytorch_lightning.plugins import DDPStrategy
+    from pytorch_lightning.strategies import DDPStrategy
 
     trainer = pl.Trainer(
         gpus=2,
@@ -95,7 +95,7 @@ This by default comes with a performance hit, and can be disabled in most cases.
 
 .. code-block:: python
 
-    from pytorch_lightning.plugins import DDPSpawnStrategy
+    from pytorch_lightning.strategies import DDPSpawnStrategy
 
     trainer = pl.Trainer(
         gpus=2,

@@ -389,7 +389,7 @@ Additionally, you can pass in your custom training type strategy by configuring
 
 .. code-block:: python
 
-    from pytorch_lightning.plugins import DeepSpeedStrategy
+    from pytorch_lightning.strategies import DeepSpeedStrategy
 
     lite = Lite(strategy=DeepSpeedStrategy(stage=2), accelerator="gpu", devices=2)
 

@@ -26,7 +26,8 @@
 
 from pytorch_lightning.accelerators.accelerator import Accelerator
 from pytorch_lightning.lite.wrappers import _LiteDataLoader, _LiteModule, _LiteOptimizer
-from pytorch_lightning.plugins import DDPSpawnStrategy, DeepSpeedStrategy, PLUGIN_INPUT, Strategy, TPUSpawnStrategy
+from pytorch_lightning.plugins import PLUGIN_INPUT
+from pytorch_lightning.strategies import DDPSpawnStrategy, DeepSpeedStrategy, Strategy, TPUSpawnStrategy
 from pytorch_lightning.strategies.training_type_plugin import TBroadcast
 from pytorch_lightning.trainer.connectors.accelerator_connector import AcceleratorConnector
 from pytorch_lightning.utilities import _AcceleratorType, _StrategyType, move_data_to_device

@@ -20,7 +20,8 @@
 from torch.utils.data import DataLoader
 
 from pytorch_lightning.core.mixins import DeviceDtypeModuleMixin
-from pytorch_lightning.plugins import PrecisionPlugin, Strategy
+from pytorch_lightning.plugins import PrecisionPlugin
+from pytorch_lightning.strategies import Strategy
 from pytorch_lightning.utilities.apply_func import apply_to_collection, move_data_to_device
 
 

@@ -5,7 +5,7 @@
 
 from pytorch_lightning.loops.dataloader.dataloader_loop import DataLoaderLoop
 from pytorch_lightning.loops.epoch.prediction_epoch_loop import PredictionEpochLoop
-from pytorch_lightning.plugins import DDPSpawnStrategy
+from pytorch_lightning.strategies import DDPSpawnStrategy
 from pytorch_lightning.utilities.exceptions import MisconfigurationException
 from pytorch_lightning.utilities.types import _PREDICT_OUTPUT
 

@@ -22,7 +22,7 @@
 from torch.optim import Optimizer
 
 import pytorch_lightning as pl
-from pytorch_lightning.plugins import ParallelStrategy
+from pytorch_lightning.strategies import ParallelStrategy
 from pytorch_lightning.utilities import rank_zero_warn
 from pytorch_lightning.utilities.exceptions import MisconfigurationException
 from pytorch_lightning.utilities.fetching import AbstractDataFetcher, DataLoaderIterDataFetcher