pytorch
diff --git a/‎torchao/_models/README.md‎ renamed to ‎benchmarks/_models/README.md‎ b/‎torchao/_models/README.md‎ renamed to ‎benchmarks/_models/README.md‎
diff --git a/‎torchao/_models/_eval.py‎ renamed to ‎benchmarks/_models/_eval.py‎ b/‎torchao/_models/_eval.py‎ renamed to ‎benchmarks/_models/_eval.py‎
diff --git a/‎benchmarks/_models/llama/eval.py‎
Lines changed: 12 additions & 9 deletions b/‎benchmarks/_models/llama/eval.py‎
Lines changed: 12 additions & 9 deletions
diff --git a/‎benchmarks/_models/llama/generate.py‎
Lines changed: 8 additions & 8 deletions b/‎benchmarks/_models/llama/generate.py‎
Lines changed: 8 additions & 8 deletions
diff --git a/‎torchao/_models/llm/model.py‎ renamed to ‎benchmarks/_models/llama/model.py‎ b/‎torchao/_models/llm/model.py‎ renamed to ‎benchmarks/_models/llama/model.py‎
diff --git a/‎benchmarks/_models/llama/perf_profile.py‎
Lines changed: 2 additions & 2 deletions b/‎benchmarks/_models/llama/perf_profile.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎torchao/_models/llm/tokenizer.py‎ renamed to ‎benchmarks/_models/llama/tokenizer.py‎ b/‎torchao/_models/llm/tokenizer.py‎ renamed to ‎benchmarks/_models/llama/tokenizer.py‎
diff --git a/‎torchao/_models/__init__.py‎ renamed to ‎benchmarks/_models/sam/__init__.py‎ b/‎torchao/_models/__init__.py‎ renamed to ‎benchmarks/_models/sam/__init__.py‎
diff --git a/‎benchmarks/_models/sam/eval_combo.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/_models/sam/eval_combo.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎torchao/_models/sam2/__init__.py‎ renamed to ‎benchmarks/_models/sam2/__init__.py‎
Lines changed: 1 addition & 1 deletion b/‎torchao/_models/sam2/__init__.py‎ renamed to ‎benchmarks/_models/sam2/__init__.py‎
Lines changed: 1 addition & 1 deletion
@@ -8,14 +8,13 @@
 from typing import List, Optional
 
 import torch
-from generate import (
-    _load_model,
-    device_sync,
-)
 from tokenizer import get_tokenizer
 
 import torchao
-from torchao._models.llm.model import prepare_inputs_for_model
+from benchmarks._models.llama.model import prepare_inputs_for_model
+from benchmarks._models.utils import (
+    _load_model,
+)
 from torchao.quantization import (
     PerRow,
     PerTensor,
@@ -28,7 +27,11 @@
     quantize_,
     uintx_weight_only,
 )
-from torchao.utils import TORCH_VERSION_AT_LEAST_2_5, unwrap_tensor_subclass
+from torchao.utils import (
+    TORCH_VERSION_AT_LEAST_2_5,
+    device_sync,
+    unwrap_tensor_subclass,
+)
 
 
 def run_evaluation(
@@ -120,7 +123,7 @@ def run_evaluation(
             quantize_(model, int4_weight_only(layout=MarlinSparseLayout()))
         if "int4wo" in quantization and "gptq" in quantization:
             # avoid circular imports
-            from torchao._models._eval import MultiTensorInputRecorder
+            from benchmarks._models._eval import MultiTensorInputRecorder
             from torchao.quantization.GPTQ_MT import Int4WeightOnlyGPTQQuantizer
 
             groupsize = int(quantization.split("-")[-2])
@@ -172,7 +175,7 @@ def run_evaluation(
         if "autoround" in quantization:
             from transformers import AutoTokenizer
 
-            from torchao._models.llm.model import TransformerBlock
+            from benchmarks._models.llama.model import TransformerBlock
             from torchao.prototype.autoround.autoround_llm import (
                 quantize_model_with_autoround_,
             )
@@ -242,7 +245,7 @@ def run_evaluation(
     with torch.no_grad():
         print("Running evaluation ...")
         # avoid circular imports
-        from torchao._models._eval import TransformerEvalWrapper
+        from benchmarks._models._eval import TransformerEvalWrapper
 
         TransformerEvalWrapper(
             model=model.to(device),
 
@@ -14,7 +14,7 @@
 import torch._inductor.config
 
 import torchao
-from torchao._models.utils import (
+from benchmarks._models.utils import (
     _load_model,
     decode_n_tokens,
     decode_one_token,
@@ -63,8 +63,8 @@ def device_timer(device):
 wd = Path(__file__).parent.parent.resolve()
 sys.path.append(str(wd))
 
-from torchao._models.llm.model import Transformer, prepare_inputs_for_model
-from torchao._models.llm.tokenizer import get_tokenizer
+from benchmarks._models.llama.model import Transformer, prepare_inputs_for_model
+from benchmarks._models.llama.tokenizer import get_tokenizer
 
 
 def model_forward(model, x, input_pos):
@@ -382,7 +382,7 @@ def ffn_or_attn_only(mod, fqn):
                 filter_fn=lambda x, *args: isinstance(x, torch.nn.Embedding),
             )
         elif quantization.startswith("awq"):
-            from torchao._models._eval import TransformerEvalWrapper
+            from benchmarks._models._eval import TransformerEvalWrapper
             from torchao.utils import TORCH_VERSION_AT_LEAST_2_3
 
             if not TORCH_VERSION_AT_LEAST_2_3:
@@ -481,8 +481,8 @@ def ffn_or_attn_only(mod, fqn):
                 model, float8_dynamic_activation_float8_weight(granularity=granularity)
             )
         elif "autoquant_v2" in quantization:
-            from torchao._models._eval import InputRecorder
-            from torchao._models.llm.model import prepare_inputs_for_model
+            from benchmarks._models._eval import InputRecorder
+            from benchmarks._models.llama.model import prepare_inputs_for_model
             from torchao.prototype.quantization.autoquant_v2 import autoquant_v2
 
             calibration_seq_length = 256
@@ -571,8 +571,8 @@ def ffn_or_attn_only(mod, fqn):
             # do autoquantization
             model.finalize_autoquant()
         elif "autoquant" in quantization:
-            from torchao._models._eval import InputRecorder
-            from torchao._models.llm.model import prepare_inputs_for_model
+            from benchmarks._models._eval import InputRecorder
+            from benchmarks._models.llama.model import prepare_inputs_for_model
 
             calibration_seq_length = 256
             inputs = (
 
@@ -116,8 +116,8 @@
 import torch
 from torch.nn.attention import SDPBackend
 
-from torchao._models.llm.model import Transformer
-from torchao._models.llm.tokenizer import get_tokenizer
+from benchmarks._models.llama.model import Transformer
+from benchmarks._models.llama.tokenizer import get_tokenizer
 from torchao.prototype.profiler import (
     CUDADeviceSpec,
     TransformerPerformanceCounter,
 
@@ -9,7 +9,7 @@
 from metrics import calculate_miou, create_result_entry
 
 import torchao
-from torchao._models.utils import (
+from benchmarks._models.utils import (
     get_arch_name,
     write_json_result_local,
     write_json_result_ossci,
 
@@ -8,4 +8,4 @@
 from hydra.core.global_hydra import GlobalHydra
 
 if not GlobalHydra.instance().is_initialized():
-    initialize_config_module("torchao._models.sam2", version_base="1.2")
+    initialize_config_module("benchmarks._models.sam2", version_base="1.2")