NVIDIA · pggPL · Feb 5, 2026 · Feb 6, 2026 · Feb 19, 2026 · Mar 16, 2026
diff --git a/tests/cpp/operator/test_grouped_gemm.cu b/tests/cpp/operator/test_grouped_gemm.cu
diff --git a/tests/cpp/operator/test_swizzle.cu b/tests/cpp/operator/test_swizzle.cu
@@ -261,8 +261,10 @@ void performTestGroupedSwizzleMXFP8(const int num_tensors, const size_t M, const
     output_tensors.emplace_back(std::move(output));
   }
 
-  GroupedBuffers grouped_input = build_grouped_tensor(input_ptrs, NVTE_MXFP8_1D_SCALING);
-  GroupedBuffers grouped_output = build_grouped_tensor(output_ptrs, NVTE_MXFP8_1D_SCALING);
+  GroupedBuffers grouped_input = build_grouped_tensor(input_ptrs, NVTE_MXFP8_1D_SCALING,
+                                                      /*enforce_grouped_gemm_alignment=*/false);
+  GroupedBuffers grouped_output = build_grouped_tensor(output_ptrs, NVTE_MXFP8_1D_SCALING,
+                                                       /*enforce_grouped_gemm_alignment=*/false);
   const uint8_t input_swizzled = 0;
   nvte_set_grouped_tensor_param(grouped_input.get_handle(),
                                 kNVTEGroupedWithGEMMSwizzledScales,
@@ -369,8 +371,10 @@ void performTestGroupedUnswizzleMXFP8(const int num_tensors, const size_t M, con
     output_tensors.emplace_back(std::move(output));
   }
 
-  GroupedBuffers grouped_input = build_grouped_tensor(input_ptrs, NVTE_MXFP8_1D_SCALING);
-  GroupedBuffers grouped_output = build_grouped_tensor(output_ptrs, NVTE_MXFP8_1D_SCALING);
+  GroupedBuffers grouped_input = build_grouped_tensor(input_ptrs, NVTE_MXFP8_1D_SCALING,
+                                                      /*enforce_grouped_gemm_alignment=*/false);
+  GroupedBuffers grouped_output = build_grouped_tensor(output_ptrs, NVTE_MXFP8_1D_SCALING,
+                                                       /*enforce_grouped_gemm_alignment=*/false);
   const uint8_t input_swizzled = 1;
   nvte_set_grouped_tensor_param(grouped_input.get_handle(),
                                 kNVTEGroupedWithGEMMSwizzledScales,
@@ -459,9 +463,12 @@ void performTestGroupedSwizzleUnswizzleRoundtrip(const int num_tensors, const si
     final_tensors.emplace_back(std::move(fin));
   }
 
-  GroupedBuffers grouped_orig = build_grouped_tensor(orig_ptrs, NVTE_MXFP8_1D_SCALING);
-  GroupedBuffers grouped_mid = build_grouped_tensor(mid_ptrs, NVTE_MXFP8_1D_SCALING);
-  GroupedBuffers grouped_fin = build_grouped_tensor(final_ptrs, NVTE_MXFP8_1D_SCALING);
+  GroupedBuffers grouped_orig = build_grouped_tensor(orig_ptrs, NVTE_MXFP8_1D_SCALING,
+                                                     /*enforce_grouped_gemm_alignment=*/false);
+  GroupedBuffers grouped_mid = build_grouped_tensor(mid_ptrs, NVTE_MXFP8_1D_SCALING,
+                                                    /*enforce_grouped_gemm_alignment=*/false);
+  GroupedBuffers grouped_fin = build_grouped_tensor(final_ptrs, NVTE_MXFP8_1D_SCALING,
+                                                    /*enforce_grouped_gemm_alignment=*/false);
 
   const NVTEShape row_shape = orig_tensors[0]->rowwise_scale_inv_shape();
   const NVTEShape col_shape = orig_tensors[0]->columnwise_scale_inv_shape();

diff --git a/tests/cpp/test_common.cu b/tests/cpp/test_common.cu
diff --git a/tests/cpp/test_common.h b/tests/cpp/test_common.h
@@ -593,6 +593,8 @@ struct GroupedBuffers {
   CudaPtr<int64_t> last_dims_dev;
   CudaPtr<int64_t> offsets_dev;
   CudaPtr<> columnwise_data;
+  CudaPtr<> amax_dev;              // Per-tensor amax for NVFP4 grouped GEMM
+  CudaPtr<> columnwise_amax_dev;   // Per-tensor columnwise amax for NVFP4 grouped GEMM
   NVTEShape logical_shape{};
   std::vector<int64_t> offsets_host;
   std::vector<size_t> tensor_bytes;
@@ -614,7 +616,8 @@ struct GroupedBuffers {
 };
 
 GroupedBuffers build_grouped_tensor(const std::vector<Tensor*>& tensors,
-                                    const NVTEScalingMode scaling_mode);
+                                    const NVTEScalingMode scaling_mode,
+                                    bool enforce_grouped_gemm_alignment = true);
 
 }  // namespace test
 

diff --git a/tests/pytorch/test_numerics.py b/tests/pytorch/test_numerics.py
@@ -2883,10 +2883,13 @@ def _apply_grouped_bias_ref(
 @pytest.mark.parametrize("accumulate", [False, True])
 @pytest.mark.parametrize("use_bias_scale", [False, True])
 def test_grouped_gemm_grouped_tensor(z, m, n, k, case, layout, accumulate, use_bias_scale) -> None:
+    if torch.cuda.get_device_capability() < (9, 0):
+        pytest.skip("Grouped GEMM requires Hopper (SM90) or newer.")
+    if torch.cuda.get_device_capability() < (10, 0):
+        if tex.get_cublasLt_version() < 130400:
+            pytest.skip("Grouped GEMM on Hopper requires cuBLAS 13.4+.")
     if tex.get_cublasLt_version() < 130300:
         pytest.skip("Grouped GEMM requires cuBLAS 13.3+.")
-    if torch.cuda.get_device_capability() < (10, 0):
-        pytest.skip("Grouped GEMM requires Blackwell (SM100) or newer.")
     if not is_bf16_available():
         pytest.skip("bfloat16 is required for grouped GEMM test.")
 

diff --git a/transformer_engine/common/common.h b/transformer_engine/common/common.h
@@ -91,6 +91,10 @@ inline bool is_mxfp_scaling(const NVTEScalingMode &mode) { return mode == NVTE_M
 
 inline bool is_nvfp_scaling(const NVTEScalingMode &mode) { return mode == NVTE_NVFP4_1D_SCALING; }
 
+inline bool is_fp8_block_scaling(const NVTEScalingMode &mode) {
+  return mode == NVTE_BLOCK_SCALING_1D || mode == NVTE_BLOCK_SCALING_2D;
+}
+
 inline size_t product(const std::vector<size_t> &shape, const size_t begin, const size_t end) {
   NVTE_CHECK(begin <= end && end <= shape.size(), "Attempted to access entries ", begin, " to ",
              end, " in a vector with ", shape.size(), " entries");