Add fp8 attn knobs

Layali Rashid · mmarcinkiewicz · commit d33919011c70 · 2025-10-01T10:31:46.000Z
diff --git a/megatron/core/fp4_utils.py b/megatron/core/fp4_utils.py
@@ -63,7 +63,9 @@ def get_fp4_recipe(config: TransformerConfig):
         if is_te_min_version("2.7.0.dev0"):
             if config.fp4_recipe == Fp4Recipe.nvfp4:
                 try:
-                    fp4_recipe = transformer_engine.common.recipe.NVFP4BlockScaling()
+                    fp4_recipe = transformer_engine.common.recipe.NVFP4BlockScaling(
+                        fp8_dpa=config.fp8_dot_product_attention,
+                    )
                 except AttributeError:
                     raise ValueError(
                         """NVFP4BlockScaling recipe is not available in this version of 
diff --git a/megatron/core/fp8_utils.py b/megatron/core/fp8_utils.py
@@ -437,6 +437,7 @@ def get_fp8_recipe(config: TransformerConfig):
                 )
             elif config.fp8_recipe == Fp8Recipe.tensorwise and is_te_min_version("2.2.0.dev0"):
                 fp8_recipe = transformer_engine.common.recipe.Float8CurrentScaling(
+                    fp8_dpa=config.fp8_dot_product_attention,
                     fp8_format=fp8_format
                 )
             elif config.fp8_recipe == Fp8Recipe.blockwise and is_te_min_version("2.3.0.dev0"):

Original file line number	Diff line number	Diff line change
`@@ -437,6 +437,7 @@ def get_fp8_recipe(config: TransformerConfig):`
`437`	`437`	`)`
`438`	`438`	`elif config.fp8_recipe == Fp8Recipe.tensorwise and is_te_min_version("2.2.0.dev0"):`
`439`	`439`	`fp8_recipe = transformer_engine.common.recipe.Float8CurrentScaling(`
	`440`	`+ fp8_dpa=config.fp8_dot_product_attention,`
`440`	`441`	`fp8_format=fp8_format`
`441`	`442`	`)`
`442`	`443`	`elif config.fp8_recipe == Fp8Recipe.blockwise and is_te_min_version("2.3.0.dev0"):`