codeplaysoftware · aacostadiaz · Jan 9, 2025 · Dec 9, 2024 · Dec 10, 2024 · Dec 12, 2024
diff --git a/include/cutlass/gpu_generics.h b/include/cutlass/gpu_generics.h
@@ -248,10 +248,11 @@ unsigned int byte_perm(unsigned int x, unsigned int y, unsigned int s) {
 
 // shfl
 
+template<typename T>
 CUTLASS_DEVICE
 unsigned int shfl_up_sync(
   unsigned int const mask,
-  unsigned int const var,
+  T const var,
   int const delta,
   int const width = NumThreadsPerWarp) {
 #if defined(__CUDA_ARCH__)
@@ -263,10 +264,11 @@ unsigned int shfl_up_sync(
 #endif
 }
 
+template<typename T>
 CUTLASS_DEVICE
-unsigned int shfl_down_sync(
+T shfl_down_sync(
   unsigned int const mask,
-  unsigned int const var,
+  T const var,
   int const delta,
   int const width = NumThreadsPerWarp) {
 #if defined(__CUDA_ARCH__)
@@ -278,10 +280,11 @@ unsigned int shfl_down_sync(
 #endif
 }
 
+template<typename T>
 CUTLASS_DEVICE
-unsigned int shfl_sync(
+T shfl_sync(
   unsigned int const mask,
-  unsigned int const var,
+  T const var,
   int const delta,
   int const width = NumThreadsPerWarp) {
 #if defined(__CUDA_ARCH__)
@@ -295,10 +298,11 @@ unsigned int shfl_sync(
 #endif
 }
 
+template<typename T>
 CUTLASS_DEVICE
-unsigned int shfl_xor_sync(
+T shfl_xor_sync(
   unsigned int const mask,
-  unsigned int const var,
+  T const var,
   int const laneMask,
   int const width = NumThreadsPerWarp) {
 #if defined(__CUDA_ARCH__)