opencv
diff --git a/‎modules/dnn/include/opencv2/dnn/all_layers.hpp‎
Lines changed: 5 additions & 0 deletions b/‎modules/dnn/include/opencv2/dnn/all_layers.hpp‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎modules/dnn/perf/perf_layer.cpp‎
Lines changed: 57 additions & 0 deletions b/‎modules/dnn/perf/perf_layer.cpp‎
Lines changed: 57 additions & 0 deletions
diff --git a/‎modules/dnn/perf/perf_net.cpp‎
Lines changed: 6 additions & 4 deletions b/‎modules/dnn/perf/perf_net.cpp‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎modules/dnn/src/init.cpp‎
Lines changed: 1 addition & 0 deletions b/‎modules/dnn/src/init.cpp‎
Lines changed: 1 addition & 0 deletions
@@ -1178,6 +1178,11 @@ CV__DNN_INLINE_NS_BEGIN
         static Ptr<InstanceNormLayer> create(const LayerParams &params);
     };
 
+    class CV_EXPORTS AttentionLayer : public Layer {
+     public:
+        static Ptr<AttentionLayer> create(const LayerParams &params);
+    };
+
 //! @}
 //! @}
 CV__DNN_INLINE_NS_END
 
@@ -739,6 +739,62 @@ PERF_TEST_P_(Layer_InstanceNorm, InstanceNorm)
     test_layer({N, C, H, W});
 }
 
+struct Layer_Attention : public TestBaseWithParam<tuple<Backend, Target>> {
+    void test_layer(const std::vector<int> x_shape, const std::vector<int> qkv_hidden_sizes, const int num_heads) {
+        int backendId = get<0>(GetParam());
+        int targetId = get<1>(GetParam());
+
+        auto qk_hidden_size = qkv_hidden_sizes[0];
+        auto v_hidden_size = qkv_hidden_sizes[2];
+
+        auto input_hidden_size = x_shape[2];
+        auto hidden_size = qk_hidden_size + qk_hidden_size + v_hidden_size;
+
+        Mat x(x_shape, CV_32F);
+        Mat weight(std::vector<int>{input_hidden_size, hidden_size}, CV_32F);
+        Mat bias(std::vector<int>{hidden_size}, CV_32F);
+
+        randu(x, 0.f, 1.f);
+        randu(weight, 0.f, 1.f);
+        randu(bias, 0.f, 1.f);
+
+        LayerParams lp;
+        lp.type = "Attention";
+        lp.name = "testLayer";
+        lp.set("num_heads", num_heads);
+        lp.set("qkv_hidden_sizes", DictValue::arrayInt(qkv_hidden_sizes.data(), qkv_hidden_sizes.size()));
+
+        Net net;
+        int id = net.addLayerToPrev(lp.name, lp.type, lp);
+        net.connect(0, 0, id, 0);
+        net.connect(0, 1, id, 1);
+        net.connect(0, 2, id, 2);
+
+        {
+            std::vector<std::string> input_names{"x", "weight", "bias"};
+            net.setInputsNames(input_names);
+            net.setInput(x, input_names[0]);
+            net.setInput(weight, input_names[1]);
+            net.setInput(bias, input_names[2]);
+
+            net.setPreferableBackend(backendId);
+            net.setPreferableTarget(targetId);
+            Mat out = net.forward();
+        }
+
+        TEST_CYCLE()
+        {
+            Mat out = net.forward();
+        }
+
+        SANITY_CHECK_NOTHING();
+    }
+};
+
+PERF_TEST_P_(Layer_Attention, VisionTransformer) {
+    test_layer({1, 197, 768}, {768, 768, 768}, 12);
+}
+
 INSTANTIATE_TEST_CASE_P(/**/, Layer_Slice, dnnBackendsAndTargets(false, false));
 INSTANTIATE_TEST_CASE_P(/**/, Layer_NaryEltwise, testing::Values(std::make_tuple(DNN_BACKEND_OPENCV, DNN_TARGET_CPU)));
 #ifdef HAVE_CUDA
@@ -750,6 +806,7 @@ INSTANTIATE_TEST_CASE_P(/**/, Layer_LayerNorm, testing::Values(std::make_tuple(D
 INSTANTIATE_TEST_CASE_P(/**/, Layer_LayerNormExpanded, testing::Values(std::make_tuple(DNN_BACKEND_OPENCV, DNN_TARGET_CPU)));
 INSTANTIATE_TEST_CASE_P(/**/, Layer_GatherElements, testing::Values(std::make_tuple(DNN_BACKEND_OPENCV, DNN_TARGET_CPU)));
 INSTANTIATE_TEST_CASE_P(/**/, Layer_InstanceNorm, testing::Values(std::make_tuple(DNN_BACKEND_OPENCV, DNN_TARGET_CPU)));
+INSTANTIATE_TEST_CASE_P(/**/, Layer_Attention, testing::Values(std::make_tuple(DNN_BACKEND_OPENCV, DNN_TARGET_CPU)));
 
 
 typedef TestBaseWithParam<tuple<Vec4i, int, bool, tuple<Backend, Target> > > Layer_FullyConnected;
 
@@ -93,7 +93,6 @@ class DNNTestNetwork : public ::perf::TestBaseWithParam< tuple<Backend, Target>
     }
 };
 
-
 PERF_TEST_P_(DNNTestNetwork, AlexNet)
 {
     processNet("dnn/bvlc_alexnet.caffemodel", "dnn/bvlc_alexnet.prototxt",
@@ -391,17 +390,16 @@ PERF_TEST_P_(DNNTestNetwork, CRNN) {
     processNet("", "dnn/text_recognition_CRNN_EN_2021sep.onnx", "", inp);
 }
 
-PERF_TEST_P_(DNNTestNetwork, ViTTrack) {
+PERF_TEST_P_(DNNTestNetwork, VitTrack) {
     Mat inp1(cv::Size(128, 128), CV_32FC3);
     Mat inp2(cv::Size(256, 256), CV_32FC3);
     randu(inp1, 0.0f, 1.0f);
     randu(inp2, 0.0f, 1.0f);
     inp1 = blobFromImage(inp1, 1.0, Size(), Scalar(), false);
     inp2 = blobFromImage(inp2, 1.0, Size(), Scalar(), false);
-    processNet("", "dnn/onnx/models/vitTracker.onnx", "",  {std::make_tuple(inp1, "template"), std::make_tuple(inp2, "search")});
+    processNet("", "dnn/onnx/models/object_tracking_vittrack_2023sep.onnx", "",  {std::make_tuple(inp1, "template"), std::make_tuple(inp2, "search")});
 }
 
-
 PERF_TEST_P_(DNNTestNetwork, EfficientDet_int8)
 {
     if (target != DNN_TARGET_CPU || (backend != DNN_BACKEND_OPENCV &&
@@ -413,6 +411,10 @@ PERF_TEST_P_(DNNTestNetwork, EfficientDet_int8)
     processNet("", "dnn/tflite/coco_efficientdet_lite0_v1_1.0_quant_2021_09_06.tflite", "", inp);
 }
 
+PERF_TEST_P_(DNNTestNetwork, VIT_B_32) {
+    processNet("", "dnn/onnx/models/vit_b_32.onnx", "", cv::Size(224, 224));
+}
+
 INSTANTIATE_TEST_CASE_P(/*nothing*/, DNNTestNetwork, dnnBackendsAndTargets());
 
 } // namespace
@@ -162,6 +162,7 @@ void initializeLayerFactory()
     CV_DNN_REGISTER_LAYER_CLASS(LayerNormalization, LayerNormLayer);
     CV_DNN_REGISTER_LAYER_CLASS(Expand,         ExpandLayer);
     CV_DNN_REGISTER_LAYER_CLASS(InstanceNormalization, InstanceNormLayer);
+    CV_DNN_REGISTER_LAYER_CLASS(Attention,      AttentionLayer);
 
     CV_DNN_REGISTER_LAYER_CLASS(Crop,           CropLayer);
     CV_DNN_REGISTER_LAYER_CLASS(Eltwise,        EltwiseLayer);
Original file line number	Diff line number	Diff line change
`@@ -93,7 +93,6 @@ class DNNTestNetwork : public ::perf::TestBaseWithParam< tuple<Backend, Target>`
`93`	`93`	`}`
`94`	`94`	`};`
`95`	`95`
`96`		`-`
`97`	`96`	`PERF_TEST_P_(DNNTestNetwork, AlexNet)`
`98`	`97`	`{`
`99`	`98`	`processNet("dnn/bvlc_alexnet.caffemodel", "dnn/bvlc_alexnet.prototxt",`
`@@ -391,17 +390,16 @@ PERF_TEST_P_(DNNTestNetwork, CRNN) {`
`391`	`390`	`processNet("", "dnn/text_recognition_CRNN_EN_2021sep.onnx", "", inp);`
`392`	`391`	`}`
`393`	`392`
`394`		`-PERF_TEST_P_(DNNTestNetwork, ViTTrack) {`
	`393`	`+PERF_TEST_P_(DNNTestNetwork, VitTrack) {`
`395`	`394`	`Mat inp1(cv::Size(128, 128), CV_32FC3);`
`396`	`395`	`Mat inp2(cv::Size(256, 256), CV_32FC3);`
`397`	`396`	`randu(inp1, 0.0f, 1.0f);`
`398`	`397`	`randu(inp2, 0.0f, 1.0f);`
`399`	`398`	`inp1 = blobFromImage(inp1, 1.0, Size(), Scalar(), false);`
`400`	`399`	`inp2 = blobFromImage(inp2, 1.0, Size(), Scalar(), false);`
`401`		`- processNet("", "dnn/onnx/models/vitTracker.onnx", "", {std::make_tuple(inp1, "template"), std::make_tuple(inp2, "search")});`
	`400`	`+ processNet("", "dnn/onnx/models/object_tracking_vittrack_2023sep.onnx", "", {std::make_tuple(inp1, "template"), std::make_tuple(inp2, "search")});`
`402`	`401`	`}`
`403`	`402`
`404`		`-`
`405`	`403`	`PERF_TEST_P_(DNNTestNetwork, EfficientDet_int8)`
`406`	`404`	`{`
`407`	`405`	`if (target != DNN_TARGET_CPU \|\| (backend != DNN_BACKEND_OPENCV &&`
`@@ -413,6 +411,10 @@ PERF_TEST_P_(DNNTestNetwork, EfficientDet_int8)`
`413`	`411`	`processNet("", "dnn/tflite/coco_efficientdet_lite0_v1_1.0_quant_2021_09_06.tflite", "", inp);`
`414`	`412`	`}`
`415`	`413`
	`414`	`+PERF_TEST_P_(DNNTestNetwork, VIT_B_32) {`
	`415`	`+ processNet("", "dnn/onnx/models/vit_b_32.onnx", "", cv::Size(224, 224));`
	`416`	`+}`
	`417`	`+`
`416`	`418`	`INSTANTIATE_TEST_CASE_P(/nothing/, DNNTestNetwork, dnnBackendsAndTargets());`
`417`	`419`
`418`	`420`	`} // namespace`