nemotron-h 56b auto backend

malay-nagda · malay-nagda · commit afee1b7eb82f · 2025-12-09T16:15:53.000+05:30
Signed-off-by: Malay Nagda &lt;malayn@nvidia.com&gt;
diff --git a/src/megatron/bridge/models/nemotronh/nemotron_h_provider.py b/src/megatron/bridge/models/nemotronh/nemotron_h_provider.py
@@ -18,6 +18,7 @@
 from typing import Callable
 
 from megatron.core.activations import squared_relu
+from megatron.core.transformer.enums import AttnBackend
 
 from megatron.bridge.models.mamba.mamba_provider import MambaModelProvider
 from megatron.bridge.utils.common_utils import get_rank_safe
@@ -102,6 +103,8 @@ class NemotronHModelProvider56B(NemotronHModelProvider):
     ffn_hidden_size: int = 32768
     num_attention_heads: int = 64
 
+    attention_backend: AttnBackend = AttnBackend.auto
+
 
 @dataclass
 class NemotronNanoModelProvider9Bv2(NemotronHModelProvider):