intel · AndreiZibrov · Nov 21, 2024 · Nov 22, 2024 · Nov 24, 2024 · Nov 24, 2024
@@ -71,9 +71,9 @@ def AspectExt_oneapi_bindless_images_sample_1d_usm : Aspect<"ext_oneapi_bindless
 def AspectExt_oneapi_bindless_images_sample_2d_usm : Aspect<"ext_oneapi_bindless_images_sample_2d_usm">;
 def AspectExt_intel_esimd : Aspect<"ext_intel_esimd">;
 def AspectExt_oneapi_ballot_group : Aspect<"ext_oneapi_ballot_group">;
-def AspectExt_oneapi_fixed_size_group : Aspect<"ext_oneapi_fixed_size_group">;
+def AspectExt_oneapi_chunk : Aspect<"ext_oneapi_chunk">;
 def AspectExt_oneapi_opportunistic_group : Aspect<"ext_oneapi_opportunistic_group">;
-def AspectExt_oneapi_tangle_group : Aspect<"ext_oneapi_tangle_group">;
+def AspectExt_oneapi_tangle : Aspect<"ext_oneapi_tangle">;
 def AspectExt_intel_matrix : Aspect<"ext_intel_matrix">;
 def AspectExt_oneapi_is_composite : Aspect<"ext_oneapi_is_composite">;
 def AspectExt_oneapi_is_component : Aspect<"ext_oneapi_is_component">;
@@ -144,8 +144,8 @@ def : TargetInfo<"__TestAspectList",
     AspectExt_oneapi_bindless_sampled_image_fetch_2d_usm, AspectExt_oneapi_bindless_sampled_image_fetch_2d,
     AspectExt_oneapi_bindless_sampled_image_fetch_3d,
     AspectExt_intel_esimd,
-    AspectExt_oneapi_ballot_group, AspectExt_oneapi_fixed_size_group, AspectExt_oneapi_opportunistic_group,
-    AspectExt_oneapi_tangle_group, AspectExt_intel_matrix, AspectExt_oneapi_is_composite, AspectExt_oneapi_is_component,
+    AspectExt_oneapi_ballot_group, AspectExt_oneapi_chunk, AspectExt_oneapi_opportunistic_group,
+    AspectExt_oneapi_tangle, AspectExt_intel_matrix, AspectExt_oneapi_is_composite, AspectExt_oneapi_is_component,
     AspectExt_oneapi_graph, AspectExt_oneapi_limited_graph, AspectExt_oneapi_private_alloca, 
     AspectExt_oneapi_queue_profiling_tag, AspectExt_oneapi_virtual_mem, AspectExt_oneapi_cuda_cluster_group, 
     AspectExt_intel_fpga_task_sequence,
@@ -163,8 +163,8 @@ defvar IntelCpuAspects = [
     AspectCpu, AspectFp16, AspectFp64, AspectQueue_profiling, AspectAtomic64,
     AspectExt_oneapi_srgb, AspectExt_oneapi_native_assert,
     AspectExt_intel_legacy_image, AspectExt_oneapi_ballot_group,
-    AspectExt_oneapi_fixed_size_group, AspectExt_oneapi_opportunistic_group,
-    AspectExt_oneapi_tangle_group, AspectExt_oneapi_private_alloca
+    AspectExt_oneapi_chunk, AspectExt_oneapi_opportunistic_group,
+    AspectExt_oneapi_tangle, AspectExt_oneapi_private_alloca
 ] # AllUSMAspects;
 
 def : TargetInfo<"spir64", [], [], "", "", 1>;
@@ -231,7 +231,7 @@ class CudaTargetInfo<string targetName, list<Aspect> aspectList, int subGroupSiz
 defvar CudaMinAspects = !listconcat(AllUSMAspects, [AspectGpu, AspectFp64, AspectOnline_compiler, AspectOnline_linker,
     AspectQueue_profiling, AspectExt_intel_pci_address, AspectExt_intel_max_mem_bandwidth, AspectExt_intel_memory_bus_width,
     AspectExt_intel_device_info_uuid, AspectExt_oneapi_native_assert, AspectExt_intel_free_memory, AspectExt_intel_device_id,
-    AspectExt_intel_memory_clock_rate, AspectExt_oneapi_ballot_group, AspectExt_oneapi_fixed_size_group,
+    AspectExt_intel_memory_clock_rate, AspectExt_oneapi_ballot_group, AspectExt_oneapi_chunk,
     AspectExt_oneapi_opportunistic_group, AspectExt_oneapi_graph, AspectExt_oneapi_limited_graph]);
 // Bindless images aspects are partially supported on CUDA and disabled by default at the moment.
 defvar CudaBindlessImagesAspects = [AspectExt_oneapi_bindless_images, AspectExt_oneapi_bindless_images_shared_usm,

@@ -318,7 +318,7 @@ branches to safely communicate between all work-items executing the same
 control flow.
 
 NOTE: This differs from the `fragment` returned by `get_opportunistic_group()`
-because a `tangle_group` requires the implementation to track group membership.
+because a `tangle` requires the implementation to track group membership.
 Which group type to use will depend on a combination of
 implementation/backend/device and programmer preference.
 

@@ -26,9 +26,9 @@ namespace oneapi {
 struct sub_group;
 namespace experimental {
 template <typename ParentGroup> class ballot_group;
-template <size_t PartitionSize, typename ParentGroup> class fixed_size_group;
+template <size_t ChunkSize, typename ParentGroup> class chunk;
 template <int Dimensions> class root_group;
-template <typename ParentGroup> class tangle_group;
+template <typename ParentGroup> class tangle;
 class opportunistic_group;
 } // namespace experimental
 } // namespace oneapi
@@ -62,8 +62,7 @@ struct is_tangle_or_opportunistic_group : std::false_type {};
 
 template <typename ParentGroup>
 struct is_tangle_or_opportunistic_group<
-    sycl::ext::oneapi::experimental::tangle_group<ParentGroup>>
-    : std::true_type {};
+    sycl::ext::oneapi::experimental::tangle<ParentGroup>> : std::true_type {};
 
 template <>
 struct is_tangle_or_opportunistic_group<
@@ -76,11 +75,11 @@ struct is_ballot_group<
     sycl::ext::oneapi::experimental::ballot_group<ParentGroup>>
     : std::true_type {};
 
-template <typename Group> struct is_fixed_size_group : std::false_type {};
+template <typename Group> struct is_chunk : std::false_type {};
 
-template <size_t PartitionSize, typename ParentGroup>
-struct is_fixed_size_group<sycl::ext::oneapi::experimental::fixed_size_group<
-    PartitionSize, ParentGroup>> : std::true_type {};
+template <size_t ChunkSize, typename ParentGroup>
+struct is_chunk<sycl::ext::oneapi::experimental::chunk<ChunkSize, ParentGroup>>
+    : std::true_type {};
 
 template <typename Group> struct group_scope {};
 
@@ -105,14 +104,14 @@ struct group_scope<sycl::ext::oneapi::experimental::ballot_group<ParentGroup>> {
   static constexpr __spv::Scope::Flag value = group_scope<ParentGroup>::value;
 };
 
-template <size_t PartitionSize, typename ParentGroup>
-struct group_scope<sycl::ext::oneapi::experimental::fixed_size_group<
-    PartitionSize, ParentGroup>> {
+template <size_t ChunkSize, typename ParentGroup>
+struct group_scope<
+    sycl::ext::oneapi::experimental::chunk<ChunkSize, ParentGroup>> {
   static constexpr __spv::Scope::Flag value = group_scope<ParentGroup>::value;
 };
 
 template <typename ParentGroup>
-struct group_scope<sycl::ext::oneapi::experimental::tangle_group<ParentGroup>> {
+struct group_scope<sycl::ext::oneapi::experimental::tangle<ParentGroup>> {
   static constexpr __spv::Scope::Flag value = group_scope<ParentGroup>::value;
 };
 
@@ -174,18 +173,17 @@ bool GroupAll(ext::oneapi::experimental::ballot_group<ParentGroup> g,
     return __spirv_GroupNonUniformAll(group_scope<ParentGroup>::value, pred);
   }
 }
-template <size_t PartitionSize, typename ParentGroup>
-bool GroupAll(
-    ext::oneapi::experimental::fixed_size_group<PartitionSize, ParentGroup>,
-    bool pred) {
+template <size_t ChunkSize, typename ParentGroup>
+bool GroupAll(ext::oneapi::experimental::chunk<ChunkSize, ParentGroup>,
+              bool pred) {
   // GroupNonUniformAll doesn't support cluster size, so use a reduction
   return __spirv_GroupNonUniformBitwiseAnd(
       group_scope<ParentGroup>::value,
       static_cast<uint32_t>(__spv::GroupOperation::ClusteredReduce),
-      static_cast<uint32_t>(pred), PartitionSize);
+      static_cast<uint32_t>(pred), ChunkSize);
 }
 template <typename ParentGroup>
-bool GroupAll(ext::oneapi::experimental::tangle_group<ParentGroup>, bool pred) {
+bool GroupAll(ext::oneapi::experimental::tangle<ParentGroup>, bool pred) {
   return __spirv_GroupNonUniformAll(group_scope<ParentGroup>::value, pred);
 }
 
@@ -210,18 +208,17 @@ bool GroupAny(ext::oneapi::experimental::ballot_group<ParentGroup> g,
     return __spirv_GroupNonUniformAny(group_scope<ParentGroup>::value, pred);
   }
 }
-template <size_t PartitionSize, typename ParentGroup>
-bool GroupAny(
-    ext::oneapi::experimental::fixed_size_group<PartitionSize, ParentGroup>,
-    bool pred) {
+template <size_t ChunkSize, typename ParentGroup>
+bool GroupAny(ext::oneapi::experimental::chunk<ChunkSize, ParentGroup>,
+              bool pred) {
   // GroupNonUniformAny doesn't support cluster size, so use a reduction
   return __spirv_GroupNonUniformBitwiseOr(
       group_scope<ParentGroup>::value,
       static_cast<uint32_t>(__spv::GroupOperation::ClusteredReduce),
-      static_cast<uint32_t>(pred), PartitionSize);
+      static_cast<uint32_t>(pred), ChunkSize);
 }
 template <typename ParentGroup>
-bool GroupAny(ext::oneapi::experimental::tangle_group<ParentGroup>, bool pred) {
+bool GroupAny(ext::oneapi::experimental::tangle<ParentGroup>, bool pred) {
   return __spirv_GroupNonUniformAny(group_scope<ParentGroup>::value, pred);
 }
 bool GroupAny(const ext::oneapi::experimental::opportunistic_group &,
@@ -327,12 +324,12 @@ GroupBroadcast(sycl::ext::oneapi::experimental::ballot_group<ParentGroup> g,
                                             WideOCLX, OCLId);
   }
 }
-template <size_t PartitionSize, typename ParentGroup, typename T, typename IdT>
-EnableIfNativeBroadcast<T, IdT> GroupBroadcast(
-    ext::oneapi::experimental::fixed_size_group<PartitionSize, ParentGroup> g,
-    T x, IdT local_id) {
+template <size_t ChunkSize, typename ParentGroup, typename T, typename IdT>
+EnableIfNativeBroadcast<T, IdT>
+GroupBroadcast(ext::oneapi::experimental::chunk<ChunkSize, ParentGroup> g, T x,
+               IdT local_id) {
   // Remap local_id to its original numbering in ParentGroup
-  auto LocalId = g.get_group_linear_id() * PartitionSize + local_id;
+  auto LocalId = g.get_group_linear_id() * ChunkSize + local_id;
 
   // TODO: Refactor to avoid duplication after design settles.
   auto GroupLocalId = static_cast<typename GroupId<ParentGroup>::type>(LocalId);
@@ -341,15 +338,15 @@ EnableIfNativeBroadcast<T, IdT> GroupBroadcast(
   auto OCLId = detail::convertToOpenCLType(GroupLocalId);
 
   // NonUniformBroadcast requires Id to be dynamically uniform, which does not
-  // hold here; each partition is broadcasting a separate index. We could
+  // hold here; each chunk is broadcasting a separate index. We could
   // fallback to either NonUniformShuffle or a NonUniformBroadcast per
-  // partition, and it's unclear which will be faster in practice.
+  // chunk, and it's unclear which will be faster in practice.
   return __spirv_GroupNonUniformShuffle(group_scope<ParentGroup>::value,
                                         WideOCLX, OCLId);
 }
 template <typename ParentGroup, typename T, typename IdT>
 EnableIfNativeBroadcast<T, IdT>
-GroupBroadcast(ext::oneapi::experimental::tangle_group<ParentGroup> g, T x,
+GroupBroadcast(ext::oneapi::experimental::tangle<ParentGroup> g, T x,
                IdT local_id) {
   // Remap local_id to its original numbering in ParentGroup.
   auto LocalId = detail::IdToMaskPosition(g, local_id);
@@ -888,7 +885,7 @@ inline uint32_t MapShuffleID(GroupT g, id<1> local_id) {
   if constexpr (is_tangle_or_opportunistic_group<GroupT>::value ||
                 is_ballot_group<GroupT>::value)
     return detail::IdToMaskPosition(g, local_id);
-  else if constexpr (is_fixed_size_group<GroupT>::value)
+  else if constexpr (is_chunk<GroupT>::value)
     return g.get_group_linear_id() * g.get_local_range().size() + local_id;
   else
     return local_id.get(0);
@@ -983,7 +980,7 @@ EnableIfNativeShuffle<T> ShuffleXor(GroupT g, T x, id<1> mask) {
   if constexpr (ext::oneapi::experimental::is_user_constructed_group_v<
                     GroupT>) {
     auto MemberMask = detail::ExtractMask(detail::GetMask(g))[0];
-    if constexpr (is_fixed_size_group_v<GroupT>) {
+    if constexpr (is_chunk_v<GroupT>) {
       return cuda_shfl_sync_bfly_i32(MemberMask, x,
                                      static_cast<uint32_t>(mask.get(0)), 0x1f);
 
@@ -1031,7 +1028,7 @@ EnableIfNativeShuffle<T> ShuffleDown(GroupT g, T x, uint32_t delta) {
   if constexpr (ext::oneapi::experimental::is_user_constructed_group_v<
                     GroupT>) {
     auto MemberMask = detail::ExtractMask(detail::GetMask(g))[0];
-    if constexpr (is_fixed_size_group_v<GroupT>) {
+    if constexpr (is_chunk_v<GroupT>) {
       return cuda_shfl_sync_down_i32(MemberMask, x, delta, 31);
     } else {
       unsigned localSetBit = g.get_local_id()[0] + 1;
@@ -1075,7 +1072,7 @@ EnableIfNativeShuffle<T> ShuffleUp(GroupT g, T x, uint32_t delta) {
   if constexpr (ext::oneapi::experimental::is_user_constructed_group_v<
                     GroupT>) {
     auto MemberMask = detail::ExtractMask(detail::GetMask(g))[0];
-    if constexpr (is_fixed_size_group_v<GroupT>) {
+    if constexpr (is_chunk_v<GroupT>) {
       return cuda_shfl_sync_up_i32(MemberMask, x, delta, 0);
     } else {
       unsigned localSetBit = g.get_local_id()[0] + 1;
@@ -1298,12 +1295,10 @@ ControlBarrier(Group g, memory_scope FenceScope, memory_order Order) {
     }                                                                          \
   }                                                                            \
                                                                                \
-  template <__spv::GroupOperation Op, size_t PartitionSize,                    \
-            typename ParentGroup, typename T>                                  \
+  template <__spv::GroupOperation Op, size_t ChunkSize, typename ParentGroup,  \
+            typename T>                                                        \
   inline T Group##Instruction(                                                 \
-      ext::oneapi::experimental::fixed_size_group<PartitionSize, ParentGroup>  \
-          g,                                                                   \
-      T x) {                                                                   \
+      ext::oneapi::experimental::chunk<ChunkSize, ParentGroup> g, T x) {       \
     using ConvertedT = detail::ConvertToOpenCLType_t<T>;                       \
                                                                                \
     using OCLT = std::conditional_t<                                           \
@@ -1321,7 +1316,7 @@ ControlBarrier(Group g, memory_scope FenceScope, memory_order Order) {
       constexpr auto OpInt =                                                   \
           static_cast<unsigned int>(__spv::GroupOperation::ClusteredReduce);   \
       return __spirv_GroupNonUniform##Instruction(Scope, OpInt, Arg,           \
-                                                  PartitionSize);              \
+                                                  ChunkSize);                  \
     } else {                                                                   \
       T tmp;                                                                   \
       for (size_t Cluster = 0; Cluster < g.get_group_linear_range();           \

@@ -20,10 +20,9 @@
 namespace sycl {
 inline namespace _V1 {
 namespace detail {
-template <class T> struct is_fixed_size_group : std::false_type {};
+template <class T> struct is_chunk : std::false_type {};
 
-template <class T>
-inline constexpr bool is_fixed_size_group_v = is_fixed_size_group<T>::value;
+template <class T> inline constexpr bool is_chunk_v = is_chunk<T>::value;
 
 template <typename VecT, typename OperationLeftT, typename OperationRightT,
           template <typename> class OperationCurrentT, int... Indexes>
@@ -157,7 +156,7 @@ template <typename T, int N> struct get_elem_type_unqual<vec<T, N>> {
 template <typename VecT, typename OperationLeftT, typename OperationRightT,
           template <typename> class OperationCurrentT, int... Indexes>
 struct get_elem_type_unqual<SwizzleOp<VecT, OperationLeftT, OperationRightT,
-                               OperationCurrentT, Indexes...>> {
+                                      OperationCurrentT, Indexes...>> {
   using type = typename get_elem_type_unqual<std::remove_cv_t<VecT>>::type;
 };