*This model was published in HF papers on 2025-04-04 and contributed to Hugging Face Transformers on 2026-03-03.*

# NemotronH [NemotronH](https://huggingface.co/papers/2504.03624) is a hybrid architecture combining attention and state-space layers for efficient long-context language modeling. It interleaves Mamba2 and transformer blocks, using a fixed ratio to balance expressiveness with linear-time sequence processing. The example below demonstrates how to generate text with [`Pipeline`] or the [`AutoModelForCausalLM`] class. ```python from transformers import pipeline pipe = pipeline( task="text-generation", model="nvidia/Nemotron-H-8B-Reasoning-128K", ) pipe("Plants create energy through a process known as") ``` ```python from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-8B-Reasoning-128K") model = AutoModelForCausalLM.from_pretrained( "nvidia/Nemotron-H-8B-Reasoning-128K", device_map="auto", ) input_ids = tokenizer("Plants create energy through a process known as", return_tensors="pt").to(model.device) output = model.generate(**input_ids, max_new_tokens=50) print(tokenizer.decode(output[0], skip_special_tokens=True)) ``` ## NemotronHConfig [[autodoc]] NemotronHConfig ## NemotronHModel [[autodoc]] NemotronHModel - forward ## NemotronHForCausalLM [[autodoc]] NemotronHForCausalLM - forward