Dont zero out buffers in dynamic linear (pytorch#27002)

James Reed · facebook-github-bot · commit cca3a369f11e · 2019-09-27T20:36:56.000-07:00
Summary: Pull Request resolved: pytorch#27002 This was taking a significant amount of time in my benchmarks with larger output sizes (e.g. final output projection in a language classification model) Test Plan: Imported from OSS Differential Revision: D17641765 Pulled By: jamesr66a fbshipit-source-id: b0ef30767eec9774fc503bb51fed039222026bba
diff --git a/aten/src/ATen/native/quantized/cpu/qlinear_dynamic.cpp b/aten/src/ATen/native/quantized/cpu/qlinear_dynamic.cpp
@@ -127,8 +127,8 @@ class QLinearDynamicInt8 final : public torch::OperatorKernel {
     std::vector<int64_t> out_sizes = input.sizes().vec();
     out_sizes.back() = N;
     // Allocate output Tensor and a buffer for fbgemmPacked to use
-    auto output = at::zeros(out_sizes, input.options().dtype(at::kFloat));
-    auto buffer = at::zeros_like(output, output.options().dtype(at::kInt));
+    auto output = at::empty(out_sizes, input.options().dtype(at::kFloat));
+    auto buffer = at::empty_like(output, output.options().dtype(at::kInt));
 
     if (pack_ptr.q_scheme == kPerTensorAffine) {
       // Process the per tensor quantization.