intel · againull · Oct 26, 2023 · Mar 6, 2023 · Mar 6, 2023 · Mar 6, 2023
@@ -392,14 +392,11 @@ foreach( t ${LIBCLC_TARGETS_TO_BUILD} )
                 string(CONCAT CL_3_0_EXTENSIONS
                   "-cl-ext="
                   "+cl_khr_fp64,"
+                  "+cl_khr_fp16,"
                   "+__opencl_c_3d_image_writes,"
                   "+__opencl_c_images,"
                   "+cl_khr_3d_image_writes,"
                   "+__opencl_c_generic_address_space")
-                if ( NOT ${ARCH} STREQUAL amdgcn )
-                  string(APPEND CL_3_0_EXTENSIONS
-                    ",+cl_khr_fp16")
-                endif()
                 list( APPEND flags ${CL_3_0_EXTENSIONS})
 
 		# Add platform specific flags

@@ -51,6 +51,7 @@ __CLC_DECLARE_SHUFFLES(short, s);
 __CLC_DECLARE_SHUFFLES(unsigned short, t);
 __CLC_DECLARE_SHUFFLES(int, i);
 __CLC_DECLARE_SHUFFLES(unsigned int, j);
+__CLC_DECLARE_SHUFFLES(half, DF16_);
 __CLC_DECLARE_SHUFFLES(float, f);
 __CLC_DECLARE_SHUFFLES(long, l);
 __CLC_DECLARE_SHUFFLES(unsigned long, m);
@@ -116,6 +117,7 @@ __CLC_SUBGROUP_COLLECTIVE(IAdd, __CLC_ADD, int, i, 0)
 __CLC_SUBGROUP_COLLECTIVE(IAdd, __CLC_ADD, uint, j, 0)
 __CLC_SUBGROUP_COLLECTIVE(IAdd, __CLC_ADD, long, l, 0)
 __CLC_SUBGROUP_COLLECTIVE(IAdd, __CLC_ADD, ulong, m, 0)
+__CLC_SUBGROUP_COLLECTIVE(FAdd, __CLC_ADD, half, DF16_, 0)
 __CLC_SUBGROUP_COLLECTIVE(FAdd, __CLC_ADD, float, f, 0)
 __CLC_SUBGROUP_COLLECTIVE(FAdd, __CLC_ADD, double, d, 0)
 
@@ -127,6 +129,7 @@ __CLC_SUBGROUP_COLLECTIVE(IMulKHR, __CLC_MUL, int, i, 1)
 __CLC_SUBGROUP_COLLECTIVE(IMulKHR, __CLC_MUL, uint, j, 1)
 __CLC_SUBGROUP_COLLECTIVE(IMulKHR, __CLC_MUL, long, l, 1)
 __CLC_SUBGROUP_COLLECTIVE(IMulKHR, __CLC_MUL, ulong, m, 1)
+__CLC_SUBGROUP_COLLECTIVE(FMulKHR, __CLC_MUL, half, DF16_, 1)
 __CLC_SUBGROUP_COLLECTIVE(FMulKHR, __CLC_MUL, float, f, 1)
 __CLC_SUBGROUP_COLLECTIVE(FMulKHR, __CLC_MUL, double, d, 1)
 
@@ -138,6 +141,7 @@ __CLC_SUBGROUP_COLLECTIVE(SMin, __CLC_MIN, int, i, INT_MAX)
 __CLC_SUBGROUP_COLLECTIVE(UMin, __CLC_MIN, uint, j, UINT_MAX)
 __CLC_SUBGROUP_COLLECTIVE(SMin, __CLC_MIN, long, l, LONG_MAX)
 __CLC_SUBGROUP_COLLECTIVE(UMin, __CLC_MIN, ulong, m, ULONG_MAX)
+__CLC_SUBGROUP_COLLECTIVE(FMin, __CLC_MIN, half, DF16_, INFINITY)
 __CLC_SUBGROUP_COLLECTIVE(FMin, __CLC_MIN, float, f, INFINITY)
 __CLC_SUBGROUP_COLLECTIVE(FMin, __CLC_MIN, double, d, INFINITY)
 
@@ -149,6 +153,7 @@ __CLC_SUBGROUP_COLLECTIVE(SMax, __CLC_MAX, int, i, INT_MIN)
 __CLC_SUBGROUP_COLLECTIVE(UMax, __CLC_MAX, uint, j, 0)
 __CLC_SUBGROUP_COLLECTIVE(SMax, __CLC_MAX, long, l, LONG_MIN)
 __CLC_SUBGROUP_COLLECTIVE(UMax, __CLC_MAX, ulong, m, 0)
+__CLC_SUBGROUP_COLLECTIVE(FMax, __CLC_MAX, half, DF16_, -INFINITY)
 __CLC_SUBGROUP_COLLECTIVE(FMax, __CLC_MAX, float, f, -INFINITY)
 __CLC_SUBGROUP_COLLECTIVE(FMax, __CLC_MAX, double, d, -INFINITY)
 
@@ -265,6 +270,7 @@ __CLC_GROUP_COLLECTIVE(IAdd, __CLC_ADD, int, 0)
 __CLC_GROUP_COLLECTIVE(IAdd, __CLC_ADD, uint, 0)
 __CLC_GROUP_COLLECTIVE(IAdd, __CLC_ADD, long, 0)
 __CLC_GROUP_COLLECTIVE(IAdd, __CLC_ADD, ulong, 0)
+__CLC_GROUP_COLLECTIVE(FAdd, __CLC_ADD, half, 0)
 __CLC_GROUP_COLLECTIVE(FAdd, __CLC_ADD, float, 0)
 __CLC_GROUP_COLLECTIVE(FAdd, __CLC_ADD, double, 0)
 
@@ -276,6 +282,7 @@ __CLC_GROUP_COLLECTIVE(IMulKHR, __CLC_MUL, int, 1)
 __CLC_GROUP_COLLECTIVE(IMulKHR, __CLC_MUL, uint, 1)
 __CLC_GROUP_COLLECTIVE(IMulKHR, __CLC_MUL, long, 1)
 __CLC_GROUP_COLLECTIVE(IMulKHR, __CLC_MUL, ulong, 1)
+__CLC_GROUP_COLLECTIVE(FMulKHR, __CLC_MUL, half, 1)
 __CLC_GROUP_COLLECTIVE(FMulKHR, __CLC_MUL, float, 1)
 __CLC_GROUP_COLLECTIVE(FMulKHR, __CLC_MUL, double, 1)
 
@@ -287,6 +294,7 @@ __CLC_GROUP_COLLECTIVE(SMin, __CLC_MIN, int, INT_MAX)
 __CLC_GROUP_COLLECTIVE(UMin, __CLC_MIN, uint, UINT_MAX)
 __CLC_GROUP_COLLECTIVE(SMin, __CLC_MIN, long, LONG_MAX)
 __CLC_GROUP_COLLECTIVE(UMin, __CLC_MIN, ulong, ULONG_MAX)
+__CLC_GROUP_COLLECTIVE(FMin, __CLC_MIN, half, INFINITY)
 __CLC_GROUP_COLLECTIVE(FMin, __CLC_MIN, float, INFINITY)
 __CLC_GROUP_COLLECTIVE(FMin, __CLC_MIN, double, INFINITY)
 
@@ -298,6 +306,7 @@ __CLC_GROUP_COLLECTIVE(SMax, __CLC_MAX, int, INT_MIN)
 __CLC_GROUP_COLLECTIVE(UMax, __CLC_MAX, uint, 0)
 __CLC_GROUP_COLLECTIVE(SMax, __CLC_MAX, long, LONG_MIN)
 __CLC_GROUP_COLLECTIVE(UMax, __CLC_MAX, ulong, 0)
+__CLC_GROUP_COLLECTIVE(FMax, __CLC_MAX, half, -INFINITY)
 __CLC_GROUP_COLLECTIVE(FMax, __CLC_MAX, float, -INFINITY)
 __CLC_GROUP_COLLECTIVE(FMax, __CLC_MAX, double, -INFINITY)
 
@@ -332,6 +341,18 @@ __CLC_GROUP_COLLECTIVE(BitwiseXorKHR, __CLC_XOR, long, 0l)
 __CLC_GROUP_COLLECTIVE(LogicalOrKHR, __CLC_LOGICAL_OR, bool, false)
 __CLC_GROUP_COLLECTIVE(LogicalAndKHR, __CLC_LOGICAL_AND, bool, true)
 
+// half requires additional mangled entry points
+#define __CLC_GROUP_COLLECTIVE__DF16(MANGLED_NAME, SPIRV_DISPATCH)             \
+  _CLC_DEF _CLC_CONVERGENT half MANGLED_NAME(uint scope, uint op, half x) {    \
+    return SPIRV_DISPATCH(scope, op, x);                                       \
+  }
+__CLC_GROUP_COLLECTIVE__DF16(_Z17__spirv_GroupFAddjjDF16_, __spirv_GroupFAdd)
+__CLC_GROUP_COLLECTIVE__DF16(_Z17__spirv_GroupFMinjjDF16_, __spirv_GroupFMin)
+__CLC_GROUP_COLLECTIVE__DF16(_Z17__spirv_GroupFMaxjjDF16_, __spirv_GroupFMax)
+__CLC_GROUP_COLLECTIVE__DF16(_Z20__spirv_GroupFMulKHRjjDF16_,
+                             __spirv_GroupFMulKHR)
+#undef __CLC_GROUP_COLLECTIVE__DF16
+
 #undef __CLC_GROUP_COLLECTIVE_4
 #undef __CLC_GROUP_COLLECTIVE_5
 #undef DISPATCH_TO_CLC_GROUP_COLLECTIVE_MACRO
@@ -407,6 +428,7 @@ __CLC_GROUP_BROADCAST(int, i)
 __CLC_GROUP_BROADCAST(uint, j)
 __CLC_GROUP_BROADCAST(long, l)
 __CLC_GROUP_BROADCAST(ulong, m)
+__CLC_GROUP_BROADCAST(half, DF16_)
 __CLC_GROUP_BROADCAST(float, f)
 __CLC_GROUP_BROADCAST(double, d)
 

@@ -8,12 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_acos_f64(double);
-float __ocml_acos_f32(float);
-
+
 #define __CLC_FUNCTION __spirv_ocl_acos
 #define __CLC_BUILTIN __ocml_acos
+
+float __ocml_acos_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_acos_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_acos_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -8,12 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_acosh_f64(double);
-float __ocml_acosh_f32(float); 
-
+
 #define __CLC_FUNCTION __spirv_ocl_acosh
 #define __CLC_BUILTIN __ocml_acosh
+
+float __ocml_acosh_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_acosh_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_acosh_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -8,14 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_asin_f64(double);
-float __ocml_asin_f32(float);
 
-
 #define __CLC_FUNCTION __spirv_ocl_asin
 #define __CLC_BUILTIN __ocml_asin
 
+float __ocml_asin_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_asin_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_asin_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -8,12 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_asinh_f64(double);
-float __ocml_asinh_f32(float);
-
+
 #define __CLC_FUNCTION __spirv_ocl_asinh
 #define __CLC_BUILTIN __ocml_asinh
+
+float __ocml_asinh_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_asinh_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_asinh_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -9,11 +9,22 @@
 #include <clcmacro.h>
 #include <spirv/spirv.h>
 
-double __ocml_atan_f64(double);
-float __ocml_atan_f32(float);
-
 #define __CLC_FUNCTION __spirv_ocl_atan
 #define __CLC_BUILTIN __ocml_atan
+
+float __ocml_atan_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_atan_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_atan_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -8,12 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_atan2_f64(double,double);
-float __ocml_atan2_f32(float,float);
-
+
 #define __CLC_FUNCTION __spirv_ocl_atan2
 #define __CLC_BUILTIN __ocml_atan2
+
+float __ocml_atan2_f32(float, float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_atan2_f64(double, double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_atan2_f16(half, half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/binary_builtin.inc>
@@ -8,12 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_atanh_f64(double);
-float __ocml_atanh_f32(float);
-
+
 #define __CLC_FUNCTION __spirv_ocl_atanh
 #define __CLC_BUILTIN __ocml_atanh
+
+float __ocml_atanh_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_atanh_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_atanh_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -9,11 +9,22 @@
 #include <clcmacro.h>
 #include <spirv/spirv.h>
 
-double __ocml_cbrt_f64(double);
-float __ocml_cbrt_f32(float);
-
 #define __CLC_FUNCTION __spirv_ocl_cbrt
 #define __CLC_BUILTIN __ocml_cbrt
+
+float __ocml_cbrt_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_cbrt_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_cbrt_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -8,12 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_ceil_f64(double);
-float __ocml_ceil_f32(float);
-
+
 #define __CLC_FUNCTION __spirv_ocl_ceil
 #define __CLC_BUILTIN __ocml_ceil
+
+float __ocml_ceil_f32(float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_ceil_f64(double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_ceil_f16(half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/unary_builtin.inc>
@@ -8,12 +8,23 @@
 
 #include <clcmacro.h>
 #include <spirv/spirv.h>
-
-double __ocml_copysign_f64(double, double);
-float __ocml_copysign_f32(float, float);
-
+
 #define __CLC_FUNCTION __spirv_ocl_copysign
 #define __CLC_BUILTIN __ocml_copysign
+
+float __ocml_copysign_f32(float, float);
 #define __CLC_BUILTIN_F __CLC_XCONCAT(__CLC_BUILTIN, _f32)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+double __ocml_copysign_f64(double, double);
 #define __CLC_BUILTIN_D __CLC_XCONCAT(__CLC_BUILTIN, _f64)
+#endif // cl_khr_fp64
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+half __ocml_copysign_f16(half, half);
+#define __CLC_BUILTIN_H __CLC_XCONCAT(__CLC_BUILTIN, _f16)
+#endif // cl_khr_fp16
+
 #include <math/binary_builtin.inc>