Lightning-AI · Lucklyric · May 25, 2021 · May 25, 2021 · May 25, 2021 · May 25, 2021
@@ -124,6 +124,8 @@ The format is based on [Keep a Changelog](http://keepachangelog.com/en/1.0.0/).
 
 ### Fixed
 
+- Fixed LR scheduler steps after saving checkpoint with iteration-based checkpointing
+
 - Fixed ambiguous warning when both overfit and train dataloader shuffling are enabled ([#7685](https://github.com/PyTorchLightning/pytorch-lightning/pull/7685))
 
 - Fixed dataloaders are not reset when tuning the model ([#7566](https://github.com/PyTorchLightning/pytorch-lightning/pull/7566))

@@ -494,6 +494,9 @@ def run_training_epoch(self):
             if batch_output.signal == -1:
                 break
 
+            # update LR schedulers
+            self.update_lr_schedulers('step')
+
             # hook
             # TODO: add outputs to batches
             self.on_train_batch_end(
@@ -523,8 +526,6 @@ def run_training_epoch(self):
             # -----------------------------------------
             self.save_loggers_on_train_batch_end()
 
-            # update LR schedulers
-            self.update_lr_schedulers('step')
             self.trainer.checkpoint_connector.has_trained = True
 
             self.total_batch_idx += 1

@@ -14,12 +14,15 @@
 import os
 from copy import deepcopy
 
+import pytest
 import torch
+from torch.utils.data import DataLoader
 
 import pytorch_lightning as pl
 from pytorch_lightning import seed_everything, Trainer
 from pytorch_lightning.callbacks import ModelCheckpoint
-from tests.helpers import BoringModel
+from pytorch_lightning.utilities.cloud_io import load as pl_load
+from tests.helpers import BoringModel, RandomDataset
 
 
 def test_finetuning_with_resume_from_checkpoint(tmpdir):
@@ -84,3 +87,40 @@ def validation_step(self, batch, batch_idx):
             assert best_model_path.endswith(f"epoch=0{idx}.ckpt")
         else:
             assert f"epoch={idx + 1}" in best_model_path
+
+
+@pytest.mark.parametrize(['max_epochs', 'data_length'], [(1, 64), (2, 64), (3, 32)])
+def test_lr_schedulers_step_count(tmpdir, max_epochs, data_length):
+    """
+    This test validates that checkpoint is always saved after lr_scheduler beeing updated during training
+    """
+
+    class TestModel(BoringModel):
+
+        def configure_optimizers(self):
+            optimizer = torch.optim.SGD(self.parameters(), lr=0.001)
+            lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=1)
+            lr_scheduler_dict = {'scheduler': lr_scheduler, 'interval': 'step'}
+            return [optimizer], [lr_scheduler_dict]
+
+        def train_dataloader(self):
+            return DataLoader(RandomDataset(32, data_length))
+
+    train_step_checkpoint_callback = ModelCheckpoint(dirpath=f"{tmpdir}/every_train_step", every_n_train_steps=1)
+    val_epoch_checkpoint_callback = ModelCheckpoint(dirpath=f"{tmpdir}/every_val_epoch", every_n_val_epochs=1)
+
+    model = TestModel()
+    trainer = Trainer(
+        default_root_dir=tmpdir,
+        max_epochs=max_epochs,
+        callbacks=[train_step_checkpoint_callback, val_epoch_checkpoint_callback]
+    )
+    trainer.fit(model)
+    step_idx = data_length * max_epochs - 1
+    train_step_lr_scheduler = pl_load(f"{tmpdir}/every_train_step/epoch={max_epochs-1}-step={step_idx}.ckpt"
+                                      )['lr_schedulers'][0]
+    val_epoch_lr_scheduler = pl_load(f"{tmpdir}/every_val_epoch/epoch={max_epochs-1}-step={step_idx}.ckpt"
+                                     )['lr_schedulers'][0]
+    #
+    assert train_step_lr_scheduler['last_epoch'] == val_epoch_lr_scheduler['last_epoch'] == step_idx + 1
+    assert train_step_lr_scheduler['_step_count'] == val_epoch_lr_scheduler['_step_count'] == step_idx + 2