Move `original_max_position_embeddings` to rope params #42513

zucchini-nlp · 2025-12-01T12:01:41Z

What does this PR do?

As per title, resolves the TODO from Joao and moves patching for original_max_position_embeddings inside rope dict standardization. That way, original_max_position_embeddings is moved to the correct field once at init time and we can delete similar patches from individual rope func. Note that this is not a breaking change, instead we move near-duplicate code to a single place

cc @hmellor

…e TODs from Joao

HuggingFaceDocBuilderDev · 2025-12-01T12:10:20Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

…me we init rope comute fn

zucchini-nlp · 2025-12-02T10:04:53Z

run-slow: phi3, phi, llama, mistral, mistral, qwen2_vl, deepseek_v3, qwen2, gemma2, gemma3

github-actions · 2025-12-02T10:05:56Z

This comment contains run-slow, running the specified jobs:

models: ["models/deepseek_v3", "models/gemma2", "models/gemma3", "models/llama", "models/mistral", "models/phi", "models/phi3", "models/qwen2", "models/qwen2_vl"]
quantizations: []

zucchini-nlp · 2025-12-02T10:49:39Z

run-slow: phi3, phi, llama, mistral, mistral, qwen2_vl, deepseek_v3, qwen2, gemma2, gemma3

github-actions · 2025-12-02T12:44:26Z

CI Results

Workflow Run ⚙️

Model CI Report

❌ Failed tests

gemma3:
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_can_load_with_global_device_set
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_can_load_with_global_device_set
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_bc_torch_dtype
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_can_load_ignoring_mismatched_shapes
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_can_load_with_device_context_manager
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_can_use_safetensors
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_cannot_load_with_meta_device_context_manager
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_causal_lm_can_accept_training_kwargs
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_config
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_config_attn_implementation_setter
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_correct_missing_keys
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_cpu_offload
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_disk_offload_bin
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_disk_offload_safetensors
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_generate
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_00_fp16_pad_left_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_01_fp16_pad_left
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_02_fp16_pad_left_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_03_fp16_pad_left_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_04_fp16_pad_right_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_05_fp16_pad_right
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_06_fp16_pad_right_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_07_fp16_pad_right_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_08_fp32_pad_left_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_09_fp32_pad_left
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_10_fp32_pad_left_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_11_fp32_pad_left_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_12_fp32_pad_right_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_13_fp32_pad_right
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_14_fp32_pad_right_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_15_fp32_pad_right_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_16_bf16_pad_left_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_17_bf16_pad_left
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_18_bf16_pad_left_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_19_bf16_pad_left_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_20_bf16_pad_right_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_21_bf16_pad_right
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_22_bf16_pad_right_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_23_bf16_pad_right_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_eager_matches_sdpa_inference_24_fp32_pad_left_output_attentions
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_generation_beyond_sliding_window_tiny_model
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_load_save_without_tied_weights
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_model_rope_scaling_frequencies
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_model_weights_reload_no_missing_tied_weights
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_save_load
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_sdpa_can_compile_dynamic
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_sdpa_can_dispatch_non_composite_models
tests/models/gemma3/test_modeling_gemma3.py::Gemma3TextModelTest::test_sdpa_can_dispatch_on_flash
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_automodelforcausallm
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_bc_torch_dtype
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_can_load_from_already_mapped_keys
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_can_load_ignoring_mismatched_shapes
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_can_load_with_device_context_manager
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_can_use_safetensors
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_cannot_load_with_meta_device_context_manager
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_config_attn_implementation_setter
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_generate
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_00_fp16_pad_left_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_01_fp16_pad_left
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_02_fp16_pad_left_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_03_fp16_pad_left_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_04_fp16_pad_right_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_05_fp16_pad_right
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_06_fp16_pad_right_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_07_fp16_pad_right_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_08_fp32_pad_left_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_09_fp32_pad_left
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_10_fp32_pad_left_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_11_fp32_pad_left_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_12_fp32_pad_right_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_13_fp32_pad_right
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_14_fp32_pad_right_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_15_fp32_pad_right_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_16_bf16_pad_left_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_17_bf16_pad_left
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_18_bf16_pad_left_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_19_bf16_pad_left_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_20_bf16_pad_right_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_21_bf16_pad_right
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_22_bf16_pad_right_no_attn_mask_sdpa_kernels
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_23_bf16_pad_right_no_attn_mask
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_eager_matches_sdpa_inference_24_fp32_pad_left_output_attentions
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_load_save_without_tied_weights
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_model_weights_reload_no_missing_tied_weights
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_reverse_loading_mapping
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_save_load
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_sdpa_can_compile_dynamic
tests/models/gemma3/test_modeling_gemma3.py::Gemma3Vision2TextModelTest::test_sdpa_can_dispatch_non_composite_models
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_dynamic_sliding_window_is_default
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_export_text_only
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_generation_beyond_sliding_window_1_sdpa
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_generation_beyond_sliding_window_2_eager
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_model_1b_text_only
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_model_4b_batch
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_model_4b_batch_crops
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_model_4b_bf16
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_model_4b_crops
tests/models/gemma3/test_modeling_gemma3.py::Gemma3IntegrationTest::test_model_4b_multiimage
phi3:
tests/models/phi3/test_modeling_phi3.py::Phi3IntegrationTest::test_model_phi3_mini_128k_instruct_logits

…ith these types

zucchini-nlp · 2025-12-02T13:19:39Z

src/transformers/modeling_rope_utils.py

        original_max_position_embeddings (`int`, *optional*):
-            Used with 'dynamic', 'longrope' and 'llama3'. The original max position embeddings used during
+            Used with 'yarn', 'longrope' and 'llama3'. The original max position embeddings used during
            pretraining.


dynamic uses config.max_position_embedding and doesn't require us to set explicit original_max_position_embeddings in rope dict

zucchini-nlp · 2025-12-02T13:22:16Z

tests/models/gemma3/test_modeling_gemma3.py

    def test_model_rope_scaling_frequencies(self):
        """Tests the frequency properties of the different RoPE scaling types on the model RoPE layer."""
        config, _ = self.model_tester.prepare_config_and_inputs_for_common()
+        config.layer_types = ["full_attention", "sliding_attention"]


the below code sets rope params for two layer types, but the dummy config doesn't always get init with both. This line makes sure that layer types are in line with rope params

zucchini-nlp · 2025-12-02T13:23:05Z

src/transformers/modeling_rope_utils.py

            rope_type = self.rope_type
            original_inv_freq = self.original_inv_freq
            prefix = ""
+            original_max_position_embeddings = self.config.rope_parameters["original_max_position_embeddings"]


safe to assume it already exists. We move original_max_position_embeddings to its correct location at config init time

zucchini-nlp · 2025-12-02T13:23:33Z

run-slow: phi3, phi, llama, mistral, mistral, qwen2_vl, deepseek_v3, qwen2, gemma2, gemma3

github-actions · 2025-12-02T14:08:20Z

[For maintainers] Suggested jobs to run (before merge)

run-slow: gemma3

zucchini-nlp · 2025-12-02T14:22:16Z

run-slow: phi3, phi, llama, mistral, mistral, qwen2_vl, deepseek_v3, qwen2, gemma2, gemma3

move original_max_position_embeddings to rope param dict and resolv…

f2d6567

…e TODs from Joao

zucchini-nlp mentioned this pull request Dec 2, 2025

gpt-oss is not working with flash-attention #42533

Open

4 tasks

zucchini-nlp added 2 commits December 2, 2025 10:13

bring back truncate in yarn

ac2ca7a

move the patch to standardize helper, this one gets called every ti…

58b4b96

…me we init rope comute fn

my bad

84a190e

silly typo, I should read the code I write!

d6dd1a2

force the tester to use specific layer types, because rope is built w…

4bba0e7

…ith these types

zucchini-nlp commented Dec 2, 2025

View reviewed changes

revert, whyhow did it get deleted?!

f8e2a50

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Move `original_max_position_embeddings` to rope params #42513

Move `original_max_position_embeddings` to rope params #42513

zucchini-nlp commented Dec 1, 2025 •

edited

Loading

Uh oh!

HuggingFaceDocBuilderDev commented Dec 1, 2025

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

github-actions bot commented Dec 2, 2025

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

github-actions bot commented Dec 2, 2025

Uh oh!

zucchini-nlp Dec 2, 2025

Uh oh!

zucchini-nlp Dec 2, 2025

Uh oh!

zucchini-nlp Dec 2, 2025 •

edited

Loading

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

github-actions bot commented Dec 2, 2025

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Move original_max_position_embeddings to rope params #42513

Are you sure you want to change the base?

Move original_max_position_embeddings to rope params #42513

Conversation

zucchini-nlp commented Dec 1, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

What does this PR do?

Uh oh!

HuggingFaceDocBuilderDev commented Dec 1, 2025

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

github-actions bot commented Dec 2, 2025

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

github-actions bot commented Dec 2, 2025

CI Results

Model CI Report

❌ Failed tests

Uh oh!

zucchini-nlp Dec 2, 2025

Choose a reason for hiding this comment

Uh oh!

zucchini-nlp Dec 2, 2025

Choose a reason for hiding this comment

Uh oh!

zucchini-nlp Dec 2, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

github-actions bot commented Dec 2, 2025

Uh oh!

zucchini-nlp commented Dec 2, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Move `original_max_position_embeddings` to rope params #42513

Move `original_max_position_embeddings` to rope params #42513

zucchini-nlp commented Dec 1, 2025 •

edited

Loading

zucchini-nlp Dec 2, 2025 •

edited

Loading