From 374eb18ff4e4421709c064d6b56a39141eda5d75 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Thu, 13 Jun 2024 12:18:25 +0100
Subject: [PATCH 01/10] Intrinsics for absolute minimum and maximum, and table
 lookup

---
 main/acle.md                                  | 98 ++++++++++++++++++-
 neon_intrinsics/advsimd.md                    | 71 +++++++++++++-
 tools/intrinsic_db/advsimd.csv                | 64 +++++++++++-
 tools/intrinsic_db/advsimd_classification.csv | 54 +++++++++-
 4 files changed, 281 insertions(+), 6 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 96957a27..c0c97b7c 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -405,6 +405,11 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SME2.1 (FEAT_SME2p1).
 
+* Added specifications for floating-point absolute minimum
+  and maximum intrinsics (FEAT_FAMINMAX).
+
+* Added specifications for table lookup intrinsicss (FEAT_LUT, FEAT_SME_LUTv2).
+
 ### References
 
 This document refers to the following documents.
@@ -2124,6 +2129,22 @@ support for the SVE2 SM4 (FEAT_SVE_SM4) instructions and if the associated
 ACLE intrinsics are available. This implies that `__ARM_FEATURE_SM4` and
 `__ARM_FEATURE_SVE2` are both nonzero.
 
+### Floating-point absolute minimum and maximum extension
+
+`__ARM_FEATURE_FAMINMAX` is defined to 1 if there is hardware support for
+floating-point absolute minimum and maximum instructions (FEAT_FAMINMAX)
+and if the associated ACLE intrinsics are available.
+
+### Lookup table extensions
+
+`__ARM_FEATURE_LUT` is defined to 1 if there is hardware support for
+lookup table instructions with 2-bit and 4-bit indices (FEAT_LUT)
+and if the associated ACLE intrinsics are available.
+
+`__ARM_FEATURE_SME_LUTv2` is defined to 1 if there is hardware support for
+lookup table instructions with 4-bit indices and 8-bit elements (FEAT_SME_LUTv2)
+and if the associated ACLE intrinsics are available.
+
 ### Other floating-point and vector extensions
 
 #### Fused multiply-accumulate (FMA)
@@ -9125,6 +9146,61 @@ Interleave elements from halves of each pair of quadword vector segments.
    svuint8_t svzipq2[_u8](svuint8_t zn, svuint8_t zm);
    ```
 
+### SVE2 maximum and minimum absolute value
+
+#### FAMAX
+
+Floating-point absolute maximum (predicated).
+``` c
+  // Variants are also available for: _f32 and _f64
+  svfloat16_t svamax[_f16]_m(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamax[_f16]_x(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamax[_f16]_z(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+
+  svfloat16_t svamax[_n_f16]_m(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamax[_n_f16]_x(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamax[_n_f16]_z(svbool_t pg, svfloat16_t zn, float16_t zm);
+```
+
+#### FAMIN
+
+Floating-point absolute minimum (predicated).
+``` c
+  // Variants are also available for: _f32 and _f64
+  svfloat16_t svamin[_f16]_m(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamin[_f16]_x(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamin[_f16]_z(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+
+  svfloat16_t svamin[_n_f16]_m(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamin[_n_f16]_x(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamin[_n_f16]_z(svbool_t pg, svfloat16_t zn, float16_t zm);
+```
+
+### SVE2 lookup table
+
+#### LUTI2
+
+Lookup table read with 2-bit indices.
+```c
+  // Variant is  also available for: _u8
+  svint8_t svluti2[_s8](svint8_t table, svuint8_t indices, uint64_t imm0_3);
+
+  // Variant are also available for: _u16, _f16 and _bf16
+  svint16_t svluti2[_s16]( svint16_t table, svuint8_t indices, uint64_t imm0_7);
+```
+
+#### LUTI4
+
+Lookup table read with 4-bit indices.
+```c
+  // Variant is also available for: _u8
+  svint8_t svluti4[_s8](svint8_t table, svuint8_t indices, uint64_t imm0_1);
+
+  // Variant are also available for: _u16, _f16, _bf16
+  svint16_t svluti4[_s16](svint16_t table, svuint8_t indices, uint64_t imm0_7);
+  svint16_t svluti4[_s16]_x2(svint16x2_t table, svuint8_t indices, uint64_t imm0_7);
+```
+
 # SME language extensions and intrinsics
 
 The specification for SME is in
@@ -12714,7 +12790,27 @@ While (resulting in predicate tuple)
   // _b64[_s64]_x2, _b8[_u64]_x2, _b16[_u64]_x2, _b32[_u64]_x2 and
   // _b64[_u64]_x2
   svboolx2_t svwhilelt_b8[_s64]_x2(int64_t rn, int64_t rm);
-  ```
+```
+
+### SME2 lookup table
+
+#### MOVT
+
+Move vector register to ZT0.
+``` c
+  // Variants are also available for:
+  // [_s8], [_u16], [_s16], [_u32], [_s32], [_u64], [_s64]
+  //[_bf16], [_f16], [_f32], [_f64]
+  void svmovt_zt[_u8](uint64_t zt0, svuint8_t zt, uint64_t idx) __arm_streaming __arm_inout("zt0");
+```
+
+#### LUTI4
+
+Lookup table read with 4-bit indexes and 8-bit elements.
+``` c
+  // Variants are also available for: _s8
+  svuint8x4_t svluti4_zt_u8_x4(uint64_t zt0, svuint8x2_t zn) __arm_streaming __arm_in("zt0");
+```
 
 # M-profile Vector Extension (MVE) intrinsics
 
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index ffdd5952..fc5fc8a8 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -12,7 +12,7 @@ toc: true
 ---
 
 <!--
-SPDX-FileCopyrightText: Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+SPDX-FileCopyrightText: Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 SPDX-FileCopyrightText: Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 CC-BY-SA-4.0 AND Apache-Patent-License
 See LICENSE.md file for details
@@ -107,7 +107,7 @@ for more information about Arm’s trademarks.
 
 ## Copyright
 
-* Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+* Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 * Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 
 ## Document history
@@ -5812,3 +5812,70 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlalbq_laneq_f32" target="_blank">vbfmlalbq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.8H`<br>`0 <= lane <= 7` | `BFMLALB Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlaltq_lane_f32" target="_blank">vbfmlaltq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.4H`<br>`0 <= lane <= 3` | `BFMLALT Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlaltq_laneq_f32" target="_blank">vbfmlaltq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.8H`<br>`0 <= lane <= 7` | `BFMLALT Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
+
+### Floating-point absolute minimum and maximum
+
+| Intrinsic                                                                                                                                                                                                                                 | Argument preparation           | AArch64 Instruction         | Result            | Supported architectures   |
+|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|-----------------------------|-------------------|---------------------------|
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f16" target="_blank">vamax_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMAX Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f16" target="_blank">vamaxq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMAX Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f32" target="_blank">vamax_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMAX Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f32" target="_blank">vamaxq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMAX Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f64" target="_blank">vamaxq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMAX Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f16" target="_blank">vamin_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMIN Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f16" target="_blank">vaminq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMIN Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f32" target="_blank">vamin_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMIN Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f32" target="_blank">vaminq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMIN Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f64" target="_blank">vaminq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMIN Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
+
+### Lookup tables
+
+#### Lookup table read with 2-bit indices
+
+| Intrinsic                                                                                                                                                                                                                                                                                               | Argument preparation                              | AArch64 Instruction                 | Result             | Supported architectures   |
+|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------|-------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u8" target="_blank">vluti2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u8" target="_blank">vluti2_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u8" target="_blank">vluti2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u8" target="_blank">vluti2q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s8" target="_blank">vluti2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s8" target="_blank">vluti2_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s8" target="_blank">vluti2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s8" target="_blank">vluti2q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p8" target="_blank">vluti2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p8" target="_blank">vluti2_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p8" target="_blank">vluti2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p8" target="_blank">vluti2q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u16" target="_blank">vluti2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u16" target="_blank">vluti2_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u16" target="_blank">vluti2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u16" target="_blank">vluti2q_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s16" target="_blank">vluti2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s16" target="_blank">vluti2_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s16" target="_blank">vluti2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s16" target="_blank">vluti2q_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_f16" target="_blank">vluti2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_f16" target="_blank">vluti2_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_f16" target="_blank">vluti2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>        | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_f16" target="_blank">vluti2q_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_bf16" target="_blank">vluti2_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>      | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_bf16" target="_blank">vluti2_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>   | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_bf16" target="_blank">vluti2q_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>    | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_bf16" target="_blank">vluti2q_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p16" target="_blank">vluti2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p16" target="_blank">vluti2_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p16" target="_blank">vluti2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p16" target="_blank">vluti2q_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+
+#### Lookup table read with 4-bit indices
+
+| Intrinsic                                                                                                                                                                                                                                                                                                     | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
+|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u8" target="_blank">vluti4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s8" target="_blank">vluti4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p8" target="_blank">vluti4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u16_x2" target="_blank">vluti4q_lane_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s16_x2" target="_blank">vluti4q_lane_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_f16_x2" target="_blank">vluti4q_lane_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_bf16_x2" target="_blank">vluti4q_lane_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p16_x2" target="_blank">vluti4q_lane_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index e507dc1f..fb1172df 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -1,4 +1,4 @@
-<COMMENT>	SPDX-FileCopyrightText: Copyright 2014-2023 Arm Limited <open-source-office@arm.com>
+<COMMENT>	SPDX-FileCopyrightText: Copyright 2014-2024 Arm Limited <open-source-office@arm.com>
 <COMMENT>	SPDX-FileCopyrightText: Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 <COMMENT>	SPDX-License-Identifier: Apache-2.0
 <COMMENT>	
@@ -4471,3 +4471,65 @@ float32x4_t vbfmlalbq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __
 float32x4_t vbfmlalbq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALB Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlaltq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.4H;0 <= lane <= 3	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlaltq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
+
+float16x4_t vamax_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMAX Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
+float16x8_t vamaxq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMAX Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
+float32x2_t vamax_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMAX Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
+float32x4_t vamaxq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMAX Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
+float64x2_t vamaxq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMAX Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
+
+float16x4_t vamin_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMIN Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
+float16x8_t vaminq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMIN Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
+float32x2_t vamin_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMIN Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
+float32x4_t vaminq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMIN Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
+float64x2_t vaminq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMIN Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
+
+uint8x16_t vluti2_lane_u8(uint8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2_laneq_u8(uint8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2q_lane_u8(uint8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+int8x16_t vluti2_lane_s8(int8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2_laneq_s8(int8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+poly8x16_t vluti2_lane_p8(poly8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2_laneq_p8(poly8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+uint16x8_t vluti2_lane_u16(uint16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2_laneq_u16(uint16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2q_lane_u16(uint16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2q_laneq_u16(uint16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+int16x8_t vluti2_lane_s16(int16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2_laneq_s16(int16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2q_lane_s16(int16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2q_laneq_s16(int16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+float16x8_t vluti2_lane_f16(float16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2_laneq_f16(float16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2q_lane_f16(float16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2q_laneq_f16(float16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+bfloat16x8_t vluti2_lane_bf16(bfloat16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2_laneq_bf16(bfloat16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2q_lane_bf16(bfloat16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2q_laneq_bf16(bfloat16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+poly16x8_t vluti2_lane_p16(poly16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2_laneq_p16(poly16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2q_lane_p16(poly16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2q_laneq_p16(poly16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+uint8x16_t vluti4q_lane_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti4q_lane_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti4q_lane_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+uint16x8_t vluti4q_lane_u16_x2(uint16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti4q_lane_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti4q_lane_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti4q_lane_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti4q_lane_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
diff --git a/tools/intrinsic_db/advsimd_classification.csv b/tools/intrinsic_db/advsimd_classification.csv
index 92480262..91019601 100644
--- a/tools/intrinsic_db/advsimd_classification.csv
+++ b/tools/intrinsic_db/advsimd_classification.csv
@@ -1,4 +1,4 @@
-<COMMENT>	SPDX-FileCopyrightText: Copyright 2021 Arm Limited <open-source-office@arm.com>
+<COMMENT>	SPDX-FileCopyrightText: Copyright 2021, 2024 Arm Limited <open-source-office@arm.com>
 <COMMENT>	SPDX-License-Identifier: Apache-2.0
 <COMMENT>	
 <COMMENT>	Licensed under the Apache License, Version 2.0 (the "License");
@@ -4389,4 +4389,54 @@ vbfmlaltq_f32	Vector arithmetic|Multiply|Multiply-accumulate
 vbfmlalbq_lane_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
 vbfmlalbq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
 vbfmlaltq_lane_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
-vbfmlaltq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
\ No newline at end of file
+vbfmlaltq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
+vamax_f16	Floating-point absolute minimum and maximum
+vamaxq_f16	Floating-point absolute minimum and maximum
+vamax_f32	Floating-point absolute minimum and maximum
+vamaxq_f32	Floating-point absolute minimum and maximum
+vamaxq_f64	Floating-point absolute minimum and maximum
+vamin_f16	Floating-point absolute minimum and maximum
+vaminq_f16	Floating-point absolute minimum and maximum
+vamin_f32	Floating-point absolute minimum and maximum
+vaminq_f32	Floating-point absolute minimum and maximum
+vaminq_f64	Floating-point absolute minimum and maximum
+vluti2_lane_u8	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_u8	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_u8	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_u8	Lookup tables|Lookup table read with 2-bit indices
+vluti2_lane_s8	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_s8	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_s8	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_s8	Lookup tables|Lookup table read with 2-bit indices
+vluti2_lane_p8	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_p8	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_p8	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_p8	Lookup tables|Lookup table read with 2-bit indices
+vluti2_lane_u16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_u16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_u16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_u16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_lane_s16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_s16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_s16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_s16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_lane_f16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_f16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_f16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_f16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_lane_bf16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_bf16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_bf16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_bf16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_lane_p16	Lookup tables|Lookup table read with 2-bit indices
+vluti2_laneq_p16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_lane_p16	Lookup tables|Lookup table read with 2-bit indices
+vluti2q_laneq_p16	Lookup tables|Lookup table read with 2-bit indices
+vluti4q_lane_u8	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_lane_s8	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_lane_p8	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_lane_u16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_lane_s16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_lane_f16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_lane_bf16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_lane_p16_x2	Lookup tables|Lookup table read with 4-bit indices

From d9d008014ec653ce6572249999d11a6d8c150df3 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Thu, 27 Jun 2024 10:58:48 +0100
Subject: [PATCH 02/10] [fixup] Add `lane`/`laneq` to some intrinsics, use
 `imm_idx` consistently

---
 main/acle.md                                  | 10 +++++-----
 neon_intrinsics/advsimd.md                    | 20 +++++++++----------
 tools/intrinsic_db/advsimd.csv                | 16 +++++++--------
 tools/intrinsic_db/advsimd_classification.csv | 16 +++++++--------
 4 files changed, 31 insertions(+), 31 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index c0c97b7c..3edd9223 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -9183,10 +9183,10 @@ Floating-point absolute minimum (predicated).
 Lookup table read with 2-bit indices.
 ```c
   // Variant is  also available for: _u8
-  svint8_t svluti2[_s8](svint8_t table, svuint8_t indices, uint64_t imm0_3);
+  svint8_t svluti2_lane[_s8](svint8_t table, svuint8_t indices, uint64_t imm_idx);
 
   // Variant are also available for: _u16, _f16 and _bf16
-  svint16_t svluti2[_s16]( svint16_t table, svuint8_t indices, uint64_t imm0_7);
+  svint16_t svluti2_lane[_s16]( svint16_t table, svuint8_t indices, uint64_t imm_idx);
 ```
 
 #### LUTI4
@@ -9194,11 +9194,11 @@ Lookup table read with 2-bit indices.
 Lookup table read with 4-bit indices.
 ```c
   // Variant is also available for: _u8
-  svint8_t svluti4[_s8](svint8_t table, svuint8_t indices, uint64_t imm0_1);
+  svint8_t svluti4_lane[_s8](svint8_t table, svuint8_t indices, uint64_t imm_idx);
 
   // Variant are also available for: _u16, _f16, _bf16
-  svint16_t svluti4[_s16](svint16_t table, svuint8_t indices, uint64_t imm0_7);
-  svint16_t svluti4[_s16]_x2(svint16x2_t table, svuint8_t indices, uint64_t imm0_7);
+  svint16_t svluti4_lane[_s16](svint16_t table, svuint8_t indices, uint64_t imm_idx);
+  svint16_t svluti4_lane[_s16]_x2(svint16x2_t table, svuint8_t indices, uint64_t imm_idx);
 ```
 
 # SME language extensions and intrinsics
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index fc5fc8a8..167406a2 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -5869,13 +5869,13 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 
 #### Lookup table read with 4-bit indices
 
-| Intrinsic                                                                                                                                                                                                                                                                                                     | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
-|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u8" target="_blank">vluti4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s8" target="_blank">vluti4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p8" target="_blank">vluti4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u16_x2" target="_blank">vluti4q_lane_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s16_x2" target="_blank">vluti4q_lane_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_f16_x2" target="_blank">vluti4q_lane_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_bf16_x2" target="_blank">vluti4q_lane_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p16_x2" target="_blank">vluti4q_lane_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                                                                                       | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
+|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u8" target="_blank">vluti4q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s8" target="_blank">vluti4q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p8" target="_blank">vluti4q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u16_x2" target="_blank">vluti4q_laneq_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s16_x2" target="_blank">vluti4q_laneq_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_f16_x2" target="_blank">vluti4q_laneq_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_bf16_x2" target="_blank">vluti4q_laneq_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p16_x2" target="_blank">vluti4q_laneq_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index fb1172df..ed46fae2 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -4524,12 +4524,12 @@ poly16x8_t vluti2_laneq_p16(poly16x4_t vn, uint8x16_t vm, __builtin_constant_p(i
 poly16x8_t vluti2q_lane_p16(poly16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
 poly16x8_t vluti2q_laneq_p16(poly16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
 
-uint8x16_t vluti4q_lane_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-int8x16_t vluti4q_lane_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-poly8x16_t vluti4q_lane_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti4q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti4q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti4q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
 
-uint16x8_t vluti4q_lane_u16_x2(uint16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-int16x8_t vluti4q_lane_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-float16x8_t vluti4q_lane_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-bfloat16x8_t vluti4q_lane_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-poly16x8_t vluti4q_lane_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti4q_laneq_u16_x2(uint16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti4q_laneq_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti4q_laneq_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti4q_laneq_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti4q_laneq_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
diff --git a/tools/intrinsic_db/advsimd_classification.csv b/tools/intrinsic_db/advsimd_classification.csv
index 91019601..b03db290 100644
--- a/tools/intrinsic_db/advsimd_classification.csv
+++ b/tools/intrinsic_db/advsimd_classification.csv
@@ -4432,11 +4432,11 @@ vluti2_lane_p16	Lookup tables|Lookup table read with 2-bit indices
 vluti2_laneq_p16	Lookup tables|Lookup table read with 2-bit indices
 vluti2q_lane_p16	Lookup tables|Lookup table read with 2-bit indices
 vluti2q_laneq_p16	Lookup tables|Lookup table read with 2-bit indices
-vluti4q_lane_u8	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_lane_s8	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_lane_p8	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_lane_u16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_lane_s16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_lane_f16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_lane_bf16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_lane_p16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_u8	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_s8	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_p8	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_u16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_s16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_f16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_bf16_x2	Lookup tables|Lookup table read with 4-bit indices
+vluti4q_laneq_p16_x2	Lookup tables|Lookup table read with 4-bit indices

From 8a17a848d1e2d5ab7886de561d3a6b5a1e70a49e Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Wed, 3 Jul 2024 17:43:33 +0100
Subject: [PATCH 03/10] [fixup] Replace svmovt_zt with svwrite_zt

---
 main/acle.md | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 3edd9223..0055dcfa 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -12800,8 +12800,13 @@ Move vector register to ZT0.
 ``` c
   // Variants are also available for:
   // [_s8], [_u16], [_s16], [_u32], [_s32], [_u64], [_s64]
-  //[_bf16], [_f16], [_f32], [_f64]
-  void svmovt_zt[_u8](uint64_t zt0, svuint8_t zt, uint64_t idx) __arm_streaming __arm_inout("zt0");
+  // [_bf16], [_f16], [_f32], [_f64]
+  void svwrite_zt[_u8](uint64_t zt0, svuint8_t zt) __arm_streaming __arm_out("zt0");
+
+  // Variants are also available for:
+  // [_s8], [_u16], [_s16], [_u32], [_s32], [_u64], [_s64]
+  // [_bf16], [_f16], [_f32], [_f64]
+  void svwrite_lane_zt[_u8](uint64_t zt0, svuint8_t zt, uint64_t idx) __arm_streaming __arm_inout("zt0");
 ```
 
 #### LUTI4

From 234ebc62ce648f3f96a95aafc4af2b2cce8ea55e Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Mon, 8 Jul 2024 18:15:12 +0100
Subject: [PATCH 04/10] [fixup] Add some missing intrinsics, move intrinsics to
 correct sections

---
 main/acle.md                                  |  23 +++
 neon_intrinsics/advsimd.md                    | 137 +++++++++---------
 tools/intrinsic_db/advsimd.csv                | 133 +++++++++--------
 tools/intrinsic_db/advsimd_classification.csv | 105 +++++++-------
 4 files changed, 218 insertions(+), 180 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 0055dcfa..0ab5b211 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -12792,6 +12792,29 @@ While (resulting in predicate tuple)
   svboolx2_t svwhilelt_b8[_s64]_x2(int64_t rn, int64_t rm);
 ```
 
+
+### SME2 maximum and minimum absolute value
+
+#### FAMAX
+
+Absolute maximum.
+``` c
+  // Variants are also available for:
+  //  [_f32_x2], [_f64_x2],
+  //  [_f16_x4], [_f32_x4] and [_f64_x4]
+  svfloat16x2_t svamax[_f16_x2](svfloat16x2 zd, svfloat16x2_t zm) __arm_streaming;
+```
+
+#### FAMIN
+
+Absolute minimum.
+``` c
+  // Variants are also available for:
+  //  [_f32_x2], [_f64_x2],
+  //  [_f16_x4], [_f32_x4] and [_f64_x4]
+  svfloat16x2_t svamin[_f16_x2](svfloat16x2 zd, svfloat16x2_t zm) __arm_streaming;
+```
+
 ### SME2 lookup table
 
 #### MOVT
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index 167406a2..7cc779bf 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -887,6 +887,21 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqabss_s32" target="_blank">vqabss_s32</a>(int32_t a)</code>     | `a -> Sn`              | `SQABS Sd,Sn`         | `Sd -> result`     | `A64`                     |
 | <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqabsd_s64" target="_blank">vqabsd_s64</a>(int64_t a)</code>     | `a -> Dn`              | `SQABS Dd,Dn`         | `Dd -> result`     | `A64`                     |
 
+##### Absolute minimum and maximum
+
+| Intrinsic                                                                                                                                                                                                                                 | Argument preparation           | AArch64 Instruction         | Result            | Supported architectures   |
+|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|-----------------------------|-------------------|---------------------------|
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f16" target="_blank">vamax_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMAX Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f16" target="_blank">vamaxq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMAX Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f32" target="_blank">vamax_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMAX Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f32" target="_blank">vamaxq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMAX Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f64" target="_blank">vamaxq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMAX Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f16" target="_blank">vamin_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMIN Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f16" target="_blank">vaminq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMIN Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f32" target="_blank">vamin_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMIN Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f32" target="_blank">vaminq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMIN Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f64" target="_blank">vaminq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMIN Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
+
 #### Maximum
 
 | Intrinsic                                                                                                                                                                                                                             | Argument preparation           | AArch64 Instruction         | Result             | Supported architectures   |
@@ -4490,6 +4505,61 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_p8" target="_blank">vqtbx4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
 | <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_p8" target="_blank">vqtbx4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
 
+#### Lookup table read with 2-bit indices
+
+| Intrinsic                                                                                                                                                                                                                                                                                               | Argument preparation                              | AArch64 Instruction                 | Result             | Supported architectures   |
+|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------|-------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u8" target="_blank">vluti2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u8" target="_blank">vluti2_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u8" target="_blank">vluti2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u8" target="_blank">vluti2q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s8" target="_blank">vluti2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s8" target="_blank">vluti2_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s8" target="_blank">vluti2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s8" target="_blank">vluti2q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p8" target="_blank">vluti2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p8" target="_blank">vluti2_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p8" target="_blank">vluti2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p8" target="_blank">vluti2q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u16" target="_blank">vluti2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u16" target="_blank">vluti2_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u16" target="_blank">vluti2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u16" target="_blank">vluti2q_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s16" target="_blank">vluti2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s16" target="_blank">vluti2_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s16" target="_blank">vluti2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s16" target="_blank">vluti2q_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_f16" target="_blank">vluti2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_f16" target="_blank">vluti2_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_f16" target="_blank">vluti2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>        | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_f16" target="_blank">vluti2q_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_bf16" target="_blank">vluti2_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>      | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_bf16" target="_blank">vluti2_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>   | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_bf16" target="_blank">vluti2q_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>    | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_bf16" target="_blank">vluti2q_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p16" target="_blank">vluti2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p16" target="_blank">vluti2_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p16" target="_blank">vluti2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p16" target="_blank">vluti2q_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+
+#### Lookup table read with 4-bit indices
+
+| Intrinsic                                                                                                                                                                                                                                                                                                       | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
+|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u8" target="_blank">vluti4q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s8" target="_blank">vluti4q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p8" target="_blank">vluti4q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u16_x2" target="_blank">vluti4q_laneq_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s16_x2" target="_blank">vluti4q_laneq_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_f16_x2" target="_blank">vluti4q_laneq_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_bf16_x2" target="_blank">vluti4q_laneq_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p16_x2" target="_blank">vluti4q_laneq_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u16_x2" target="_blank">vluti4q_lane_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s16_x2" target="_blank">vluti4q_lane_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_f16_x2" target="_blank">vluti4q_lane_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>        | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_bf16_x2" target="_blank">vluti4q_lane_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>    | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p16_x2" target="_blank">vluti4q_lane_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+
 ## Crypto
 
 ### Cryptography
@@ -5812,70 +5882,3 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlalbq_laneq_f32" target="_blank">vbfmlalbq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.8H`<br>`0 <= lane <= 7` | `BFMLALB Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlaltq_lane_f32" target="_blank">vbfmlaltq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.4H`<br>`0 <= lane <= 3` | `BFMLALT Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlaltq_laneq_f32" target="_blank">vbfmlaltq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.8H`<br>`0 <= lane <= 7` | `BFMLALT Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
-
-### Floating-point absolute minimum and maximum
-
-| Intrinsic                                                                                                                                                                                                                                 | Argument preparation           | AArch64 Instruction         | Result            | Supported architectures   |
-|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|-----------------------------|-------------------|---------------------------|
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f16" target="_blank">vamax_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMAX Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f16" target="_blank">vamaxq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMAX Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f32" target="_blank">vamax_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMAX Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f32" target="_blank">vamaxq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMAX Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f64" target="_blank">vamaxq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMAX Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f16" target="_blank">vamin_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMIN Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f16" target="_blank">vaminq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMIN Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f32" target="_blank">vamin_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMIN Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f32" target="_blank">vaminq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMIN Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f64" target="_blank">vaminq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMIN Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
-
-### Lookup tables
-
-#### Lookup table read with 2-bit indices
-
-| Intrinsic                                                                                                                                                                                                                                                                                               | Argument preparation                              | AArch64 Instruction                 | Result             | Supported architectures   |
-|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------|-------------------------------------|--------------------|---------------------------|
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u8" target="_blank">vluti2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u8" target="_blank">vluti2_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u8" target="_blank">vluti2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u8" target="_blank">vluti2q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s8" target="_blank">vluti2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s8" target="_blank">vluti2_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s8" target="_blank">vluti2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s8" target="_blank">vluti2q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 7` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p8" target="_blank">vluti2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p8" target="_blank">vluti2_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p8" target="_blank">vluti2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p8" target="_blank">vluti2q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u16" target="_blank">vluti2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u16" target="_blank">vluti2_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u16" target="_blank">vluti2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u16" target="_blank">vluti2q_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s16" target="_blank">vluti2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s16" target="_blank">vluti2_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s16" target="_blank">vluti2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s16" target="_blank">vluti2q_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_f16" target="_blank">vluti2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_f16" target="_blank">vluti2_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_f16" target="_blank">vluti2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>        | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_f16" target="_blank">vluti2q_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_bf16" target="_blank">vluti2_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>      | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_bf16" target="_blank">vluti2_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>   | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_bf16" target="_blank">vluti2q_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>    | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_bf16" target="_blank">vluti2q_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p16" target="_blank">vluti2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p16" target="_blank">vluti2_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p16" target="_blank">vluti2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p16" target="_blank">vluti2q_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
-
-#### Lookup table read with 4-bit indices
-
-| Intrinsic                                                                                                                                                                                                                                                                                                       | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
-|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u8" target="_blank">vluti4q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s8" target="_blank">vluti4q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p8" target="_blank">vluti4q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u16_x2" target="_blank">vluti4q_laneq_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s16_x2" target="_blank">vluti4q_laneq_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_f16_x2" target="_blank">vluti4q_laneq_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_bf16_x2" target="_blank">vluti4q_laneq_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p16_x2" target="_blank">vluti4q_laneq_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index ed46fae2..70733f52 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -3730,6 +3730,75 @@ float64x2_t vreinterpretq_f64_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.2D -> result	A
 float16x8_t vreinterpretq_f16_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.8H -> result	A32/A64
 poly128_t vldrq_p128(poly128_t const *ptr)	ptr -> Xn	LDR Qd,[Xn]	Qd -> result	A32/A64
 void vstrq_p128(poly128_t *ptr, poly128_t val)	val -> Qt;ptr -> Xn	STR Qt,[Xn]		A32/A64
+
+uint8x16_t vluti2_lane_u8(uint8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2_laneq_u8(uint8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2q_lane_u8(uint8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+int8x16_t vluti2_lane_s8(int8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2_laneq_s8(int8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+poly8x16_t vluti2_lane_p8(poly8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2_laneq_p8(poly8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+uint16x8_t vluti2_lane_u16(uint16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2_laneq_u16(uint16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2q_lane_u16(uint16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2q_laneq_u16(uint16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+int16x8_t vluti2_lane_s16(int16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2_laneq_s16(int16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2q_lane_s16(int16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2q_laneq_s16(int16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+float16x8_t vluti2_lane_f16(float16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2_laneq_f16(float16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2q_lane_f16(float16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2q_laneq_f16(float16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+bfloat16x8_t vluti2_lane_bf16(bfloat16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2_laneq_bf16(bfloat16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2q_lane_bf16(bfloat16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2q_laneq_bf16(bfloat16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+poly16x8_t vluti2_lane_p16(poly16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2_laneq_p16(poly16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2q_lane_p16(poly16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2q_laneq_p16(poly16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+uint8x16_t vluti4q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti4q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti4q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+uint16x8_t vluti4q_laneq_u16_x2(uint16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti4q_laneq_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti4q_laneq_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti4q_laneq_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti4q_laneq_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
+uint16x8_t vluti4q_lane_u16_x2(uint16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti4q_lane_s16_x2(int16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti4q_lane_f16_x2(float16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti4q_lane_bf16_x2(bfloat16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti4q_lane_p16_x2(poly16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
+float16x4_t vamax_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMAX Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
+float16x8_t vamaxq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMAX Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
+float32x2_t vamax_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMAX Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
+float32x4_t vamaxq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMAX Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
+float64x2_t vamaxq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMAX Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
+
+float16x4_t vamin_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMIN Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
+float16x8_t vaminq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMIN Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
+float32x2_t vamin_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMIN Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
+float32x4_t vaminq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMIN Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
+float64x2_t vaminq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMIN Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
+
 <SECTION>	Crypto
 uint8x16_t vaeseq_u8(uint8x16_t data, uint8x16_t key)	data -> Vd.16B;key -> Vn.16B	AESE Vd.16B,Vn.16B	Vd.16B -> result	A32/A64
 uint8x16_t vaesdq_u8(uint8x16_t data, uint8x16_t key)	data -> Vd.16B;key -> Vn.16B	AESD Vd.16B,Vn.16B	Vd.16B -> result	A32/A64
@@ -4470,66 +4539,4 @@ float32x4_t vbfmlaltq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b)	r -> Vd
 float32x4_t vbfmlalbq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.4H;0 <= lane <= 3	BFMLALB Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlalbq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALB Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlaltq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.4H;0 <= lane <= 3	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
-float32x4_t vbfmlaltq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
-
-float16x4_t vamax_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMAX Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
-float16x8_t vamaxq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMAX Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
-float32x2_t vamax_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMAX Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
-float32x4_t vamaxq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMAX Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
-float64x2_t vamaxq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMAX Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
-
-float16x4_t vamin_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMIN Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
-float16x8_t vaminq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMIN Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
-float32x2_t vamin_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMIN Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
-float32x4_t vaminq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMIN Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
-float64x2_t vaminq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMIN Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
-
-uint8x16_t vluti2_lane_u8(uint8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-uint8x16_t vluti2_laneq_u8(uint8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-uint8x16_t vluti2q_lane_u8(uint8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-uint8x16_t vluti2q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-
-int8x16_t vluti2_lane_s8(int8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-int8x16_t vluti2_laneq_s8(int8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-int8x16_t vluti2q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-int8x16_t vluti2q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 7	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-
-poly8x16_t vluti2_lane_p8(poly8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-poly8x16_t vluti2_laneq_p8(poly8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-poly8x16_t vluti2q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-poly8x16_t vluti2q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-
-uint16x8_t vluti2_lane_u16(uint16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-uint16x8_t vluti2_laneq_u16(uint16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-uint16x8_t vluti2q_lane_u16(uint16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-uint16x8_t vluti2q_laneq_u16(uint16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-
-int16x8_t vluti2_lane_s16(int16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-int16x8_t vluti2_laneq_s16(int16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-int16x8_t vluti2q_lane_s16(int16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-int16x8_t vluti2q_laneq_s16(int16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-
-float16x8_t vluti2_lane_f16(float16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-float16x8_t vluti2_laneq_f16(float16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-float16x8_t vluti2q_lane_f16(float16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-float16x8_t vluti2q_laneq_f16(float16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-
-bfloat16x8_t vluti2_lane_bf16(bfloat16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-bfloat16x8_t vluti2_laneq_bf16(bfloat16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-bfloat16x8_t vluti2q_lane_bf16(bfloat16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-bfloat16x8_t vluti2q_laneq_bf16(bfloat16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-
-poly16x8_t vluti2_lane_p16(poly16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-poly16x8_t vluti2_laneq_p16(poly16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-poly16x8_t vluti2q_lane_p16(poly16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-poly16x8_t vluti2q_laneq_p16(poly16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
-
-uint8x16_t vluti4q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-int8x16_t vluti4q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-poly8x16_t vluti4q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-
-uint16x8_t vluti4q_laneq_u16_x2(uint16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-int16x8_t vluti4q_laneq_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-float16x8_t vluti4q_laneq_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-bfloat16x8_t vluti4q_laneq_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-poly16x8_t vluti4q_laneq_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+float32x4_t vbfmlaltq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
\ No newline at end of file
diff --git a/tools/intrinsic_db/advsimd_classification.csv b/tools/intrinsic_db/advsimd_classification.csv
index b03db290..38ff98a7 100644
--- a/tools/intrinsic_db/advsimd_classification.csv
+++ b/tools/intrinsic_db/advsimd_classification.csv
@@ -4390,53 +4390,58 @@ vbfmlalbq_lane_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
 vbfmlalbq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
 vbfmlaltq_lane_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
 vbfmlaltq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
-vamax_f16	Floating-point absolute minimum and maximum
-vamaxq_f16	Floating-point absolute minimum and maximum
-vamax_f32	Floating-point absolute minimum and maximum
-vamaxq_f32	Floating-point absolute minimum and maximum
-vamaxq_f64	Floating-point absolute minimum and maximum
-vamin_f16	Floating-point absolute minimum and maximum
-vaminq_f16	Floating-point absolute minimum and maximum
-vamin_f32	Floating-point absolute minimum and maximum
-vaminq_f32	Floating-point absolute minimum and maximum
-vaminq_f64	Floating-point absolute minimum and maximum
-vluti2_lane_u8	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_u8	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_u8	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_u8	Lookup tables|Lookup table read with 2-bit indices
-vluti2_lane_s8	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_s8	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_s8	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_s8	Lookup tables|Lookup table read with 2-bit indices
-vluti2_lane_p8	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_p8	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_p8	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_p8	Lookup tables|Lookup table read with 2-bit indices
-vluti2_lane_u16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_u16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_u16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_u16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_lane_s16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_s16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_s16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_s16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_lane_f16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_f16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_f16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_f16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_lane_bf16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_bf16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_bf16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_bf16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_lane_p16	Lookup tables|Lookup table read with 2-bit indices
-vluti2_laneq_p16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_lane_p16	Lookup tables|Lookup table read with 2-bit indices
-vluti2q_laneq_p16	Lookup tables|Lookup table read with 2-bit indices
-vluti4q_laneq_u8	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_laneq_s8	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_laneq_p8	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_laneq_u16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_laneq_s16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_laneq_f16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_laneq_bf16_x2	Lookup tables|Lookup table read with 4-bit indices
-vluti4q_laneq_p16_x2	Lookup tables|Lookup table read with 4-bit indices
+vamax_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamaxq_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamax_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamaxq_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamaxq_f64	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamin_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vaminq_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamin_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vaminq_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vaminq_f64	Vector arithmetic|Absolute|Absolute minimum and maximum
+vluti2_lane_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_p16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_p16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_p16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_p16	Table lookup|Lookup table read with 2-bit indices
+vluti4q_laneq_u8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_s8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_p8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_u16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_s16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_f16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_bf16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_p16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_u16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_s16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_f16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_bf16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_p16_x2	Table lookup|Lookup table read with 4-bit indices
\ No newline at end of file

From d25b2737793fe0f75bbb19c460ce70c219271673 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Fri, 12 Jul 2024 10:34:56 +0100
Subject: [PATCH 05/10] [fixup] Add vluti4q_lane_?8 intrinsics

---
 neon_intrinsics/advsimd.md                    | 3 +++
 tools/intrinsic_db/advsimd.csv                | 4 ++++
 tools/intrinsic_db/advsimd_classification.csv | 5 ++++-
 3 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index 7cc779bf..836c8d45 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -4546,6 +4546,9 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 
 | Intrinsic                                                                                                                                                                                                                                                                                                       | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
 |-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u8" target="_blank">vluti4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                    | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s8" target="_blank">vluti4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                      | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p8" target="_blank">vluti4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                    | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
 | <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u8" target="_blank">vluti4q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
 | <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s8" target="_blank">vluti4q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
 | <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p8" target="_blank">vluti4q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index 70733f52..75a57807 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -3771,6 +3771,10 @@ poly16x8_t vluti2_laneq_p16(poly16x4_t vn, uint8x16_t vm, __builtin_constant_p(i
 poly16x8_t vluti2q_lane_p16(poly16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
 poly16x8_t vluti2q_laneq_p16(poly16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
 
+uint8x16_t vluti4q_lane_u8(uint8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti4q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti4q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
 uint8x16_t vluti4q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
 int8x16_t vluti4q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
 poly8x16_t vluti4q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
diff --git a/tools/intrinsic_db/advsimd_classification.csv b/tools/intrinsic_db/advsimd_classification.csv
index 38ff98a7..5a22e518 100644
--- a/tools/intrinsic_db/advsimd_classification.csv
+++ b/tools/intrinsic_db/advsimd_classification.csv
@@ -4444,4 +4444,7 @@ vluti4q_lane_u16_x2	Table lookup|Lookup table read with 4-bit indices
 vluti4q_lane_s16_x2	Table lookup|Lookup table read with 4-bit indices
 vluti4q_lane_f16_x2	Table lookup|Lookup table read with 4-bit indices
 vluti4q_lane_bf16_x2	Table lookup|Lookup table read with 4-bit indices
-vluti4q_lane_p16_x2	Table lookup|Lookup table read with 4-bit indices
\ No newline at end of file
+vluti4q_lane_p16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_u8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_s8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_p8	Table lookup|Lookup table read with 4-bit indices
\ No newline at end of file

From fd6ce5262d3830607badf701d725be3fae3ae532 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Wed, 24 Jul 2024 09:34:46 +0100
Subject: [PATCH 06/10] [fixup] Correct a typo

---
 main/acle.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/main/acle.md b/main/acle.md
index 0ab5b211..39d94809 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -408,7 +408,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added specifications for floating-point absolute minimum
   and maximum intrinsics (FEAT_FAMINMAX).
 
-* Added specifications for table lookup intrinsicss (FEAT_LUT, FEAT_SME_LUTv2).
+* Added specifications for table lookup intrinsics (FEAT_LUT, FEAT_SME_LUTv2).
 
 ### References
 

From 0f674a5ce0cc06fba9a6947edfd467b7b93a0ed0 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Wed, 24 Jul 2024 12:04:26 +0100
Subject: [PATCH 07/10] [fuxup] Add FAMINMAX and LUT to the feature macros
 table

---
 main/acle.md | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/main/acle.md b/main/acle.md
index 39d94809..388b4d4e 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -2432,12 +2432,14 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_DIRECTED_ROUNDING`](#directed-rounding)                                                                                                 | Directed Rounding                                                                                  | 1           |
 | [`__ARM_FEATURE_DOTPROD`](#availability-of-dot-product-intrinsics)                                                                                      | Dot product extension (ARM v8.2-A)                                                                 | 1           |
 | [`__ARM_FEATURE_DSP`](#dsp-instructions)                                                                                                                | DSP instructions (Arm v5E) (32-bit-only)                                                           | 1           |
+| [`__ARM_FEATURE_FAMINMAX`](#floating-point-absolute-minimum-and-maximum-extension)                                                                      | Floating-point absolute minimum and maximum extension                                              | 1           |
 | [`__ARM_FEATURE_FMA`](#fused-multiply-accumulate-fma)                                                                                                   | Floating-point fused multiply-accumulate                                                           | 1           |
 | [`__ARM_FEATURE_FP16_FML`](#fp16-fml-extension)                                                                                                         | FP16 FML extension (Arm v8.4-A, optional Armv8.2-A, Armv8.3-A)                                     | 1           |
 | [`__ARM_FEATURE_FRINT`](#availability-of-armv8.5-a-floating-point-rounding-intrinsics)                                                                  | Floating-point rounding extension (Arm v8.5-A)                                                     | 1           |
 | [`__ARM_FEATURE_IDIV`](#hardware-integer-divide)                                                                                                        | Hardware Integer Divide                                                                            | 1           |
 | [`__ARM_FEATURE_JCVT`](#javascript-floating-point-conversion)                                                                                           | Javascript conversion (ARMv8.3-A)                                                                  | 1           |
 | [`__ARM_FEATURE_LDREX`](#ldrexstrex) *(Deprecated)*                                                                                                     | Load/store exclusive instructions                                                                  | 0x0F        |
+| [`__ARM_FEATURE_LUT`](#lookup-table-extensions)                                                                                                         | Lookup table extensions                                                                            | 1           |
 | [`__ARM_FEATURE_MATMUL_INT8`](#availability-of-armv8.6-a-integer-matrix-multiply-intrinsics)                                                            | Integer Matrix Multiply extension (Armv8.6-A, optional Armv8.2-A, Armv8.3-A, Armv8.4-A, Armv8.5-A) | 1           |
 | [`__ARM_FEATURE_MEMORY_TAGGING`](#memory-tagging)                                                                                                       | Memory Tagging (Armv8.5-A)                                                                         | 1           |
 | [`__ARM_FEATURE_MOPS`](#memcpy-family-of-memory-operations-standarization-instructions---mops)                                                          | `memcpy`, `memset`, and `memmove` family of operations standardization instructions               | 1           |
@@ -2464,6 +2466,7 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_SME_F64F64`](#double-precision-floating-point-outer-product-intrinsics)                                                                 | Double precision floating-point outer product intrinsics (FEAT_SME_F64F64)                         | 1           |
 | [`__ARM_FEATURE_SME_I16I64`](#16-bit-to-64-bit-integer-widening-outer-product-intrinsics)                                                               | 16-bit to 64-bit integer widening outer product intrinsics (FEAT_SME_I16I64)                       | 1           |
 | [`__ARM_FEATURE_SME_LOCALLY_STREAMING`](#scalable-matrix-extension-sme)                                                                                 | Support for the `arm_locally_streaming` attribute                                                  | 1           |
+| [`__ARM_FEATURE_SME_LUTv2`](#lookup-table-extensions)                                                                                                   | Lookup table extensions                                                                            | 1           |
 | [`__ARM_FEATURE_SVE`](#scalable-vector-extension-sve)                                                                                                   | Scalable Vector Extension (FEAT_SVE)                                                               | 1           |
 | [`__ARM_FEATURE_SVE_B16B16`](#non-widening-brain-16-bit-floating-point-support)                                                                         | Non-widening brain 16-bit floating-point intrinsics (FEAT_SVE_B16B16)                              | 1           |
 | [`__ARM_FEATURE_SVE_BF16`](#brain-16-bit-floating-point-support)                                                                                        | SVE support for the 16-bit brain floating-point extension (FEAT_BF16)                              | 1           |

From 47a942f30c5e1a138cd9837b4f9288517562e4c2 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Fri, 26 Jul 2024 10:50:55 +0100
Subject: [PATCH 08/10] [fixup] Associate feature test macros with intrinsics

---
 main/acle.md | 17 +++++++++++++++++
 1 file changed, 17 insertions(+)

diff --git a/main/acle.md b/main/acle.md
index 388b4d4e..1f03075c 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -9151,6 +9151,11 @@ Interleave elements from halves of each pair of quadword vector segments.
 
 ### SVE2 maximum and minimum absolute value
 
+The intrinsics in this section are defined by the header file
+[`<arm_sve.h>`](#arm_sve.h) when either `__ARM_FEATURE_SVE2` or
+`__ARM_FEATURE_SME2` is defined to 1, and `__ARM_FEATURE_FAMINMAX`
+is defined to 1.
+
 #### FAMAX
 
 Floating-point absolute maximum (predicated).
@@ -9181,6 +9186,11 @@ Floating-point absolute minimum (predicated).
 
 ### SVE2 lookup table
 
+The intrinsics in this section are defined by the header file
+[`<arm_sve.h>`](#arm_sve.h) when either `__ARM_FEATURE_SVE2` or
+`__ARM_FEATURE_SME2` is defined to 1, and `__ARM_FEATURE_LUT`
+is defined to 1.
+
 #### LUTI2
 
 Lookup table read with 2-bit indices.
@@ -12798,6 +12808,10 @@ While (resulting in predicate tuple)
 
 ### SME2 maximum and minimum absolute value
 
+The intrinsics in this section are defined by the header file
+[`<arm_sme.h>`](#arm_sme.h) when `__ARM_FEATURE_SME2` is defined to 1
+and `__ARM_FEATURE_FAMINMAX` is defined to 1.
+
 #### FAMAX
 
 Absolute maximum.
@@ -12820,6 +12834,9 @@ Absolute minimum.
 
 ### SME2 lookup table
 
+The intrinsics in this section are defined by the header file
+[`<arm_sme.h>`](#arm_sme.h) when `__ARM_FEATURE_SME_LUTv2` is defined to 1.
+
 #### MOVT
 
 Move vector register to ZT0.

From 7d77898de7c8e90c3faa4b2870a18deb09a1eeae Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Wed, 31 Jul 2024 14:01:41 +0100
Subject: [PATCH 09/10] [fixup] Misc small fixes

---
 main/acle.md                   | 12 +++++++-----
 neon_intrinsics/advsimd.md     | 14 +++++++-------
 tools/intrinsic_db/advsimd.csv | 20 ++++++++++++--------
 3 files changed, 26 insertions(+), 20 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 1f03075c..7c795cb3 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -2439,7 +2439,7 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_IDIV`](#hardware-integer-divide)                                                                                                        | Hardware Integer Divide                                                                            | 1           |
 | [`__ARM_FEATURE_JCVT`](#javascript-floating-point-conversion)                                                                                           | Javascript conversion (ARMv8.3-A)                                                                  | 1           |
 | [`__ARM_FEATURE_LDREX`](#ldrexstrex) *(Deprecated)*                                                                                                     | Load/store exclusive instructions                                                                  | 0x0F        |
-| [`__ARM_FEATURE_LUT`](#lookup-table-extensions)                                                                                                         | Lookup table extensions                                                                            | 1           |
+| [`__ARM_FEATURE_LUT`](#lookup-table-extensions)                                                                                                         | Lookup table extensions (FEAT_LUT)                                                                 | 1           |
 | [`__ARM_FEATURE_MATMUL_INT8`](#availability-of-armv8.6-a-integer-matrix-multiply-intrinsics)                                                            | Integer Matrix Multiply extension (Armv8.6-A, optional Armv8.2-A, Armv8.3-A, Armv8.4-A, Armv8.5-A) | 1           |
 | [`__ARM_FEATURE_MEMORY_TAGGING`](#memory-tagging)                                                                                                       | Memory Tagging (Armv8.5-A)                                                                         | 1           |
 | [`__ARM_FEATURE_MOPS`](#memcpy-family-of-memory-operations-standarization-instructions---mops)                                                          | `memcpy`, `memset`, and `memmove` family of operations standardization instructions               | 1           |
@@ -2466,7 +2466,7 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_SME_F64F64`](#double-precision-floating-point-outer-product-intrinsics)                                                                 | Double precision floating-point outer product intrinsics (FEAT_SME_F64F64)                         | 1           |
 | [`__ARM_FEATURE_SME_I16I64`](#16-bit-to-64-bit-integer-widening-outer-product-intrinsics)                                                               | 16-bit to 64-bit integer widening outer product intrinsics (FEAT_SME_I16I64)                       | 1           |
 | [`__ARM_FEATURE_SME_LOCALLY_STREAMING`](#scalable-matrix-extension-sme)                                                                                 | Support for the `arm_locally_streaming` attribute                                                  | 1           |
-| [`__ARM_FEATURE_SME_LUTv2`](#lookup-table-extensions)                                                                                                   | Lookup table extensions                                                                            | 1           |
+| [`__ARM_FEATURE_SME_LUTv2`](#lookup-table-extensions)                                                                                                   | Lookup table extensions (FEAT_SME_LUTv2)                                                           | 1           |
 | [`__ARM_FEATURE_SVE`](#scalable-vector-extension-sve)                                                                                                   | Scalable Vector Extension (FEAT_SVE)                                                               | 1           |
 | [`__ARM_FEATURE_SVE_B16B16`](#non-widening-brain-16-bit-floating-point-support)                                                                         | Non-widening brain 16-bit floating-point intrinsics (FEAT_SVE_B16B16)                              | 1           |
 | [`__ARM_FEATURE_SVE_BF16`](#brain-16-bit-floating-point-support)                                                                                        | SVE support for the 16-bit brain floating-point extension (FEAT_BF16)                              | 1           |
@@ -9165,6 +9165,7 @@ Floating-point absolute maximum (predicated).
   svfloat16_t svamax[_f16]_x(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
   svfloat16_t svamax[_f16]_z(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
 
+  // Variants are also available for: _f32 and _f64
   svfloat16_t svamax[_n_f16]_m(svbool_t pg, svfloat16_t zn, float16_t zm);
   svfloat16_t svamax[_n_f16]_x(svbool_t pg, svfloat16_t zn, float16_t zm);
   svfloat16_t svamax[_n_f16]_z(svbool_t pg, svfloat16_t zn, float16_t zm);
@@ -9179,6 +9180,7 @@ Floating-point absolute minimum (predicated).
   svfloat16_t svamin[_f16]_x(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
   svfloat16_t svamin[_f16]_z(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
 
+  // Variants are also available for: _f32 and _f64
   svfloat16_t svamin[_n_f16]_m(svbool_t pg, svfloat16_t zn, float16_t zm);
   svfloat16_t svamin[_n_f16]_x(svbool_t pg, svfloat16_t zn, float16_t zm);
   svfloat16_t svamin[_n_f16]_z(svbool_t pg, svfloat16_t zn, float16_t zm);
@@ -9211,7 +9213,7 @@ Lookup table read with 4-bit indices.
 
   // Variant are also available for: _u16, _f16, _bf16
   svint16_t svluti4_lane[_s16](svint16_t table, svuint8_t indices, uint64_t imm_idx);
-  svint16_t svluti4_lane[_s16]_x2(svint16x2_t table, svuint8_t indices, uint64_t imm_idx);
+  svint16_t svluti4_lane[_s16_x2](svint16x2_t table, svuint8_t indices, uint64_t imm_idx);
 ```
 
 # SME language extensions and intrinsics
@@ -12856,8 +12858,8 @@ Move vector register to ZT0.
 
 Lookup table read with 4-bit indexes and 8-bit elements.
 ``` c
-  // Variants are also available for: _s8
-  svuint8x4_t svluti4_zt_u8_x4(uint64_t zt0, svuint8x2_t zn) __arm_streaming __arm_in("zt0");
+  // Variants are also available for: _u8
+  svint8x4_t svluti4_zt_s8_x4(uint64_t zt0, svuint8x2_t zn) __arm_streaming __arm_in("zt0");
 ```
 
 # M-profile Vector Extension (MVE) intrinsics
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index 836c8d45..ee89c92b 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -4547,21 +4547,21 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | Intrinsic                                                                                                                                                                                                                                                                                                       | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
 |-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
 | <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u8" target="_blank">vluti4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                    | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s8" target="_blank">vluti4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                      | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p8" target="_blank">vluti4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                    | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
 | <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u8" target="_blank">vluti4q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s8" target="_blank">vluti4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                      | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
 | <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s8" target="_blank">vluti4q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p8" target="_blank">vluti4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                    | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
 | <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p8" target="_blank">vluti4q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u16_x2" target="_blank">vluti4q_laneq_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s16_x2" target="_blank">vluti4q_laneq_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_f16_x2" target="_blank">vluti4q_laneq_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_bf16_x2" target="_blank">vluti4q_laneq_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p16_x2" target="_blank">vluti4q_laneq_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
 | <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u16_x2" target="_blank">vluti4q_lane_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u16_x2" target="_blank">vluti4q_laneq_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
 | <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s16_x2" target="_blank">vluti4q_lane_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s16_x2" target="_blank">vluti4q_laneq_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
 | <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_f16_x2" target="_blank">vluti4q_lane_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>        | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_f16_x2" target="_blank">vluti4q_laneq_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
 | <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_bf16_x2" target="_blank">vluti4q_lane_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>    | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_bf16_x2" target="_blank">vluti4q_laneq_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
 | <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p16_x2" target="_blank">vluti4q_lane_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p16_x2" target="_blank">vluti4q_laneq_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
 
 ## Crypto
 
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index 75a57807..a9ab4c1e 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -3772,24 +3772,28 @@ poly16x8_t vluti2q_lane_p16(poly16x8_t vn, uint8x8_t vm, __builtin_constant_p(in
 poly16x8_t vluti2q_laneq_p16(poly16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
 
 uint8x16_t vluti4q_lane_u8(uint8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-int8x16_t vluti4q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-poly8x16_t vluti4q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
-
 uint8x16_t vluti4q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+int8x16_t vluti4q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
 int8x16_t vluti4q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+poly8x16_t vluti4q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
 poly8x16_t vluti4q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
 
+uint16x8_t vluti4q_lane_u16_x2(uint16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
 uint16x8_t vluti4q_laneq_u16_x2(uint16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-int16x8_t vluti4q_laneq_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-float16x8_t vluti4q_laneq_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-bfloat16x8_t vluti4q_laneq_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
-poly16x8_t vluti4q_laneq_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
 
-uint16x8_t vluti4q_lane_u16_x2(uint16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
 int16x8_t vluti4q_lane_s16_x2(int16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti4q_laneq_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
 float16x8_t vluti4q_lane_f16_x2(float16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti4q_laneq_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
 bfloat16x8_t vluti4q_lane_bf16_x2(bfloat16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti4q_laneq_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
 poly16x8_t vluti4q_lane_p16_x2(poly16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti4q_laneq_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
 
 float16x4_t vamax_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMAX Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
 float16x8_t vamaxq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMAX Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64

From e76281039eaaf1068e1dd86be779e94f159a1e7a Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Wed, 28 Aug 2024 10:44:18 +0100
Subject: [PATCH 10/10] [fixup] Update copyright year

---
 neon_intrinsics/advsimd.template.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/neon_intrinsics/advsimd.template.md b/neon_intrinsics/advsimd.template.md
index d61c4f4e..c8eb2968 100644
--- a/neon_intrinsics/advsimd.template.md
+++ b/neon_intrinsics/advsimd.template.md
@@ -12,7 +12,7 @@ toc: true
 ---
 
 <!--
-SPDX-FileCopyrightText: Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+SPDX-FileCopyrightText: Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 SPDX-FileCopyrightText: Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 CC-BY-SA-4.0 AND Apache-Patent-License
 See LICENSE.md file for details
@@ -107,7 +107,7 @@ for more information about Arm’s trademarks.
 
 ## Copyright
 
-* Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+* Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 * Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 
 ## Document history