intel
diff --git a/‎neural_compressor/torch/algorithms/fp8_quant/_core/quant_dequant.py‎
Lines changed: 0 additions & 3 deletions b/‎neural_compressor/torch/algorithms/fp8_quant/_core/quant_dequant.py‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎neural_compressor/torch/algorithms/fp8_quant/_core/scale_handler.py‎
Lines changed: 2 additions & 2 deletions b/‎neural_compressor/torch/algorithms/fp8_quant/_core/scale_handler.py‎
Lines changed: 2 additions & 2 deletions
@@ -130,9 +130,6 @@ def forward(self, x):
         scale = self.input_scales_creator.calc_scales(x, QuantTensorType.DYNAMIC)
         scale_inv = self.input_scales_creator.calc_invert_scales()
 
-        scale = create_scale_tensor(scale, self.scale_format)
-        scale_inv = create_scale_tensor(scale_inv, self.scale_format)
-
         ret = self.cast_to_op(x, scale_inv, False, False, self.lp_dtype)
 
         return ret, scale
 
@@ -39,9 +39,9 @@ def create_scale_tensor(orig_tensor, scale_format):
         return orig_tensor.to("cpu").to(torch.float)
     if scale_format == ScaleFormat.CONST:
         if isinstance(orig_tensor, torch.Tensor):
-            return torch.nn.Parameter(orig_tensor)
+            return torch.nn.Parameter(orig_tensor, requires_grad=False)
         elif isinstance(orig_tensor, list):
-            return [torch.nn.Parameter(x) for x in orig_tensor]
+            return [torch.nn.Parameter(x, requires_grad=False) for x in orig_tensor]
     elif scale_format == ScaleFormat.SCALAR:
         if isinstance(orig_tensor, (torch.Tensor, float)):
             return scale_to_scalar(orig_tensor)