update PT2ONNX export recipe

yuwenzho · yuwenzho · commit 089b7e1c729c · 2022-12-02T18:54:31.000+08:00
Signed-off-by: yuwenzho &lt;yuwen.zhou@intel.com&gt;
diff --git a/neural_compressor/experimental/export/torch2onnx.py b/neural_compressor/experimental/export/torch2onnx.py
@@ -288,7 +288,277 @@ def set_scale_info(
             )
             int8_onnx_model.graph.initializer.remove(tensor)
             int8_onnx_model.graph.initializer.append(new_tensor)
-    onnx.save(int8_onnx_model, int8_onnx_path)
+    return int8_onnx_model
+
+
+def remove_nodes_by_name(int8_onnx_model, node_names):
+    while node_names:
+        for node in int8_onnx_model.graph.node:
+            if node.name in node_names:
+                int8_onnx_model.graph.node.remove(node)
+                node_names.remove(node.name)
+    return int8_onnx_model
+
+
+def generate_int32_bias_structure(
+    int8_onnx_model, 
+    node,
+    a_info,
+    b_info,
+    bias_name,
+    output_name,
+):
+    from onnx import TensorProto
+    a, a_scale, a_zero_point = a_info
+    b, b_scale, b_zero_point = b_info
+    a_scale = ortq.onnx_model.ONNXModel(int8_onnx_model).get_initializer(a_scale)
+    a_scale = onnx.numpy_helper.to_array(a_scale)
+    b_scale = ortq.onnx_model.ONNXModel(int8_onnx_model).get_initializer(b_scale)
+    b_scale = onnx.numpy_helper.to_array(b_scale)
+    bias = ortq.onnx_model.ONNXModel(int8_onnx_model).get_initializer(bias_name)
+    bias_dims = bias.dims
+    bias = onnx.numpy_helper.to_array(bias)
+    bias_scale = a_scale * b_scale
+    quantized_bias = (bias / bias_scale).round().astype(np.int32)
+    quantized_bias = np.asarray(quantized_bias, dtype=np.int32).reshape(bias_dims)
+    packed_bias_initializer = onnx.numpy_helper.from_array(quantized_bias, 
+                                                        bias_name + "_quantized")
+    int8_onnx_model.graph.initializer.extend([packed_bias_initializer])
+
+    matmul_node = onnx.helper.make_node("MatMulInteger",
+                        inputs=[a, b, a_zero_point, b_zero_point],
+                        outputs=[node.output[0] + '_matmulinteger'],
+                        name = node.name + '_matmulinteger')
+    add_node = onnx.helper.make_node("Add",
+                        inputs=[node.output[0] + '_matmulinteger', bias_name + '_quantized'],
+                        outputs=[node.output[0] + '_add'],
+                        name = node.name + '_add'
+                        )
+    cast_node = onnx.helper.make_node("Cast",
+                                    inputs=[node.output[0] + '_add'],
+                                    outputs=[node.output[0] + '_cast'],
+                                    to=getattr(TensorProto, 'FLOAT'),
+                                    name = node.name + '_cast')
+
+    new_tensor = onnx.helper.make_tensor(
+        name=node.name + '_bias_scale',
+        data_type=TensorProto.FLOAT,
+        dims=list(bias_scale.shape),
+        vals=bias_scale,
+    )
+    int8_onnx_model.graph.initializer.append(new_tensor)
+
+    mul_node = onnx.helper.make_node("Mul",
+                                    inputs=[node.output[0] + '_cast', node.name + '_bias_scale'],
+                                    outputs=[output_name],
+                                    name=node.name + '_mul')
+    
+    int8_onnx_model.graph.node.extend([matmul_node, add_node, cast_node, mul_node])
+    return int8_onnx_model
+
+
+def qdq_model_use_int32_bias(
+    int8_onnx_model,
+    quantize_nodes,
+):
+    # nn.quantized.Lienar module will be converted to the following format:
+    #  QuantizeLinear
+    #        |
+    #  MatMulInteger
+    #        |
+    #       Add
+    #        |
+    #      Cast
+    #        |
+    #       Mul
+    remove_nodes = set()
+    replace_input = {}
+    for node in int8_onnx_model.graph.node:
+        if node.name in quantize_nodes and node.op_type == 'MatMul':
+            parents = ortq.onnx_model.ONNXModel(int8_onnx_model).get_parents(node)
+            add_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(node)[0]
+            bias_name = None
+            for inp in add_node.input:
+                if inp.endswith('.bias'):
+                    bias_name = inp
+            if not bias_name: # pragma: no cover 
+                continue
+
+            for parent in parents:
+                grand_parent = ortq.onnx_model.ONNXModel(int8_onnx_model).get_parents(parent)
+                if grand_parent:
+                    replace_input[parent.output[0]] = grand_parent[0].input[0]
+
+            int8_onnx_model = generate_int32_bias_structure(int8_onnx_model, 
+                                                            node, 
+                                                            parents[0].input[:3],
+                                                            parents[1].input[:3],
+                                                            bias_name, 
+                                                            add_node.output[0])
+            remove_nodes.add(node.name)
+            remove_nodes.add(parents[0].name)
+            remove_nodes.add(parents[1].name)
+            remove_nodes.add(add_node.name)
+    int8_onnx_model = remove_nodes_by_name(int8_onnx_model, remove_nodes)
+    for node in int8_onnx_model.graph.node: # pragma: no cover 
+        for i in range(len(node.input)):
+            if node.input[i] in replace_input: 
+                node.input[i] = replace_input[node.input[i]]
+    return int8_onnx_model
+
+
+def qdq_model_use_output_scale_zp(
+    int8_onnx_model,
+    quantize_nodes,
+):
+    # nn.quantized.Lienar module will be converted to the following format:
+    # QuantizeLinear
+    #        |
+    # DequantizeLinear   DequantizeLinear
+    #        |                  |
+    #        --------------------
+    #                  |
+    #               MatMul
+    #                  |
+    #                 Add
+    #                  |
+    #           QuantizeLinear
+    #                  |
+    #           DequantizeLinear
+    for node in int8_onnx_model.graph.node:
+        if node.name in quantize_nodes and node.op_type == 'MatMul':
+            quantizelinear_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(node)[0]
+            deqauntizelinear_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(quantizelinear_node)[0]
+            add_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(deqauntizelinear_node)[0]
+            deqauntizelinear_node.output[0] = add_node.output[0]
+            add_node.output[0] = add_node.output[0] + '_add'
+            for i in range(len(add_node.input)):
+                if not add_node.input[i].endswith('.bias'):
+                    add_node.input[i] = node.output[0]
+            quantizelinear_node.input[0] = add_node.output[0]
+    return int8_onnx_model
+
+
+def qop_model_default(
+    int8_onnx_model
+):
+    # nn.quantized.Lienar module will be converted to the following format:
+    #     QuantizeLinear
+    #           |
+    #  MatMulIntegerToFloat
+    #           |
+    #          Add 
+    remove_nodes = set()
+    for node in int8_onnx_model.graph.node:
+        if node.op_type == 'QLinearMatMul':
+            dequantizelinear_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(node)[0]
+            add_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(dequantizelinear_node)[0]
+            a = node.input[0]
+            a_scale = node.input[1]
+            a_zero_point = node.input[2]
+            b = node.input[3]
+            b_scale = node.input[4]
+            b_zero_point = node.input[5]
+            matmulintegertofloat_node = onnx.helper.make_node("MatMulIntegerToFloat",
+                                inputs=[a, b, a_scale, b_scale, a_zero_point, b_zero_point],
+                                outputs=[node.output[0]],
+                                name=node.name + '_matmulintegertofloat',
+                                domain='com.microsoft')
+            for idx in range(len(add_node.input)):
+                if add_node.input[idx] == dequantizelinear_node.output[0]:
+                    add_node.input[idx] = node.output[0]
+            remove_nodes.add(node.name)
+            remove_nodes.add(dequantizelinear_node.name)
+            int8_onnx_model.graph.node.extend([matmulintegertofloat_node])
+
+    int8_onnx_model = remove_nodes_by_name(int8_onnx_model, remove_nodes)
+    return int8_onnx_model
+
+
+def qop_model_use_int32_bias(
+    int8_onnx_model
+):
+    # nn.quantized.Lienar module will be converted to the following format:
+    #  QuantizeLinear
+    #        |
+    #  MatMulInteger
+    #        |
+    #       Add
+    #        |
+    #      Cast
+    #        |
+    #       Mul
+    remove_nodes = set()
+    for node in int8_onnx_model.graph.node:
+        if node.op_type == 'QLinearMatMul':
+            dequantizelinear_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(node)[0]
+            add_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(dequantizelinear_node)[0]
+
+            bias_name = None
+            for inp in add_node.input:
+                if inp.endswith('.bias'):
+                    bias_name = inp
+            if not bias_name: # pragma: no cover 
+                continue
+
+            int8_onnx_model = generate_int32_bias_structure(int8_onnx_model, 
+                                                            node, 
+                                                            node.input[:3],
+                                                            node.input[3:6],
+                                                            bias_name, 
+                                                            add_node.output[0])
+            remove_nodes.add(node.name)
+            remove_nodes.add(add_node.name)
+            remove_nodes.add(dequantizelinear_node.name)
+
+    int8_onnx_model = remove_nodes_by_name(int8_onnx_model, remove_nodes)
+    return int8_onnx_model
+
+
+def qop_model_use_output_scale_zp(
+    int8_onnx_model
+):
+    # nn.quantized.Lienar module will be converted to the following format:
+    #     QuantizeLinear
+    #           |
+    #  MatMulIntegerToFloat
+    #           |
+    #          Add
+    #           |
+    #     QuantizeLinear
+    #           |
+    #    DequantizeLinear
+    import copy
+    remove_nodes = set()
+    for node in int8_onnx_model.graph.node:
+        if node.op_type == 'QLinearMatMul':
+            dequantizelinear_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(node)[0]
+            add_node = ortq.onnx_model.ONNXModel(int8_onnx_model).get_children(dequantizelinear_node)[0]
+            a, a_scale, a_zero_point, b, b_scale, b_zero_point, y_scale, y_zero_point = node.input[:8]
+            matmulintegertofloat_node = onnx.helper.make_node("MatMulIntegerToFloat",
+                                inputs=[a, b, a_scale, b_scale, a_zero_point, b_zero_point],
+                                outputs=[node.output[0]],
+                                name=node.name + '_matmulintegertofloat',
+                                domain='com.microsoft')
+
+            for idx in range(len(add_node.input)):
+                if add_node.input[idx] == dequantizelinear_node.output[0]:
+                    add_node.input[idx] = node.output[0]
+
+            quantizelinear_node = onnx.helper.make_node("QuantizeLinear",
+                                inputs=[add_node.output[0] +'_add', y_scale, y_zero_point],
+                                outputs=[node.output[0] + '_quantizelinear'],
+                                name=node.name + '_quantizelinear')
+
+            dequantizelinear_node.input[0] = node.output[0] + '_quantizelinear'
+            dequantizelinear_node.output[0] = copy.deepcopy(add_node.output[0])
+            add_node.output[0] = add_node.output[0] +'_add'
+
+            remove_nodes.add(node.name)
+            int8_onnx_model.graph.node.extend([matmulintegertofloat_node, quantizelinear_node])
+
+    int8_onnx_model = remove_nodes_by_name(int8_onnx_model, remove_nodes)
+    return int8_onnx_model
 
 
 def torch_to_fp32_onnx(
@@ -355,6 +625,8 @@ def torch_to_int8_onnx(
     output_names=None,
     quant_format: str = 'QDQ',
     dtype: str = 'U8S8',
+    linear_options: dict = {'use_int32_bias': False,
+                             'use_output_scale_zp': False},
 ):
     """Export INT8 PyTorch model into INT8 ONNX model.
 
@@ -371,6 +643,12 @@ def torch_to_int8_onnx(
         output_names (list, optional): output names. Defaults to None.
         quant_format (str, optional): quantization format of ONNX model. Defaults to 'QDQ'.
         dtype (str, optional): data types of activation and weight of ONNX model. Defaults to 'U8S8'.
+        linear_options (dict, optionl): Recipe with options for processing nn.quantized.Linear module. 
+                                        Recipe 1: use fp32 bias, map input scale and zero point from PyTorch model.
+                                        Recipe 2: use int32 bias, map input scale and zero point from PyTorch model.
+                                        Recipe 3: use fp32 bias, map input and otput scale and zero point from PyTorch model.
+                                        Defaults to recipe 1: {'use_int32_bias': False,
+                                                               'use_output_scale_zp': False}
     """
     global op_types_to_quantize
     if q_config['approach'] == 'post_training_dynamic_quant':
@@ -382,6 +660,16 @@ def torch_to_int8_onnx(
         opset_version = 13
         logger.warning("QDQ format requires opset_version >= 13, " + 
                         "we reset opset_version={} here".format(opset_version))
+    
+    use_int32_bias = linear_options['use_int32_bias']
+    use_output_scale_zp = linear_options['use_output_scale_zp']
+    if use_int32_bias and use_output_scale_zp: # pragma: no cover 
+        use_output_scale_zp = False
+        linear_options = {'use_int32_bias': use_int32_bias,
+                          'use_output_scale_zp': use_output_scale_zp}
+        logger.warning(f"For linear_options, only one of 'use_int32_bias' "
+                       f"and 'use_output_scale_zp' can be set to True. "
+                       f"We reset linear_options = {linear_options} here")
 
     # pylint: disable=E1101
     fp32_onnx_path = save_path + '.tmp' if save_path else 'int8-model.onnx.tmp'
@@ -408,6 +696,9 @@ def torch_to_int8_onnx(
 
     quant_format = ortq.QuantFormat.QOperator if quant_format != 'QDQ' else ortq.QuantFormat.QDQ
 
+    extra_options = {'OpTypesToExcludeOutputQuantizatioin': ['MatMul']} \
+        if (not use_output_scale_zp and quant_format == ortq.QuantFormat.QDQ) else {}
+
     if q_config['approach'] == 'post_training_dynamic_quant':
         logger.info("Quantization format is not avalible when executing dynamic quantization.")
         ortq.quantize_dynamic(
@@ -433,10 +724,24 @@ def torch_to_int8_onnx(
             activation_type=activation_type,
             nodes_to_quantize=quantize_nodes,
             nodes_to_exclude=[],
-            extra_options={'OpTypesToExcludeOutputQuantizatioin': ['MatMul']},
+            extra_options=extra_options,
         )
 
-        set_scale_info(save_path, scale_mapping, activation_type)
+        int8_onnx_model = set_scale_info(save_path, scale_mapping, activation_type)
+        if quant_format == ortq.QuantFormat.QDQ:
+            if use_int32_bias:
+                int8_onnx_model = qdq_model_use_int32_bias(int8_onnx_model, quantize_nodes)
+            if use_output_scale_zp:
+                int8_onnx_model = qdq_model_use_output_scale_zp(int8_onnx_model, quantize_nodes)
+        elif quant_format == ortq.QuantFormat.QOperator:
+            if not use_int32_bias and not use_output_scale_zp:
+                int8_onnx_model = qop_model_default(int8_onnx_model)
+            if use_int32_bias:
+                int8_onnx_model = qop_model_use_int32_bias(int8_onnx_model)
+            if use_output_scale_zp:
+                int8_onnx_model = qop_model_use_output_scale_zp(int8_onnx_model)
+        
+        onnx.save(int8_onnx_model, save_path)
 
     os.remove(fp32_onnx_path)
     info = "The INT8 ONNX Model is exported to path: {0}".format(save_path)
diff --git a/neural_compressor/model/torch_model.py b/neural_compressor/model/torch_model.py
@@ -666,6 +666,23 @@ def export(
             torch_to_int8_onnx
         )
         if conf.dtype == 'int8':
+            linear_options = conf.kwargs.pop('linear_options', {'use_int32_bias': False,
+                                                            'use_output_scale_zp': False})
+            recipe = conf.kwargs.pop('recipe', 1)
+            assert recipe in [1, 2, 3], "`recipe` refers to how to process " \
+                "nn.quantized.Linear module, which can only be 1 or 2 or 3."
+            if recipe == 1:
+                use_int32_bias = False
+                use_output_scale_zp = False
+            elif recipe == 2:
+                use_int32_bias = True
+                use_output_scale_zp = False
+            elif recipe == 3:
+                use_int32_bias = False
+                use_output_scale_zp = True
+            linear_options = {'use_int32_bias': use_int32_bias,
+                            'use_output_scale_zp': use_output_scale_zp}
+
             torch_to_int8_onnx(
                 self.fp32_model,
                 self.model,
@@ -678,6 +695,7 @@ def export(
                 output_names=conf.output_names,
                 quant_format=conf.quant_format,
                 dtype='U8S8',
+                linear_options=linear_options
             )
         elif conf.dtype == 'fp32':
             torch_to_fp32_onnx(
diff --git a/test/export/test_torch2onnx.py b/test/export/test_torch2onnx.py