Merge branch 'main' into update-kernel-hub-repos

[gguf][torch.compile time] Convert to plain tensor earlier in dequantize_gguf_tensor (#13166 )
[gguf] Convert to plain tensor earlier in dequantize_gguf_tensor Once dequantize_gguf_tensor fetches the quant_type attributed from the GGUFParamter tensor subclass, there is no further need of running the actual dequantize operations on the Tensor subclass, we can just convert to plain tensor right away. This not only makes PyTorch eager faster, but reduces torch.compile tracer compile time from 36 seconds to 10 seconds, because there is lot less code to trace now.
2026-02-21 10:20:35 +08:00 · 2026-02-20 16:20:11 +05:30 · 2026-02-20 09:31:52 +05:30 · 2026-02-20 09:01:20 +05:30 · 2026-02-19 18:22:49 +05:30 · 2026-02-19 18:00:01 +05:30
4 changed files with 36 additions and 6 deletions
--- a/src/diffusers/models/attention_dispatch.py
+++ b/src/diffusers/models/attention_dispatch.py
@@ -38,6 +38,7 @@ from ..utils import (
    is_flash_attn_available,
    is_flash_attn_version,
    is_kernels_available,
+    is_kernels_version,
    is_sageattention_available,
    is_sageattention_version,
    is_torch_npu_available,
@@ -265,6 +266,7 @@ class _HubKernelConfig:
    repo_id: str
    function_attr: str
    revision: str | None = None
+    version: int | None = None
    kernel_fn: Callable | None = None
    wrapped_forward_attr: str | None = None
    wrapped_backward_attr: str | None = None
@@ -274,27 +276,31 @@ class _HubKernelConfig:

 # Registry for hub-based attention kernels
 _HUB_KERNELS_REGISTRY: dict["AttentionBackendName", _HubKernelConfig] = {
-    # TODO: temporary revision for now. Remove when merged upstream into `main`.
    AttentionBackendName._FLASH_3_HUB: _HubKernelConfig(
-        repo_id="kernels-community/flash-attn3", function_attr="flash_attn_func", revision="fake-ops-return-probs"
+        repo_id="kernels-community/flash-attn3", function_attr="flash_attn_func", version=1
    ),
    AttentionBackendName._FLASH_3_VARLEN_HUB: _HubKernelConfig(
        repo_id="kernels-community/flash-attn3",
        function_attr="flash_attn_varlen_func",
-        # revision="fake-ops-return-probs",
+        version=1,
    ),
    AttentionBackendName.FLASH_HUB: _HubKernelConfig(
        repo_id="kernels-community/flash-attn2",
        function_attr="flash_attn_func",
+        version=1,
        revision=None,
        wrapped_forward_attr="flash_attn_interface._wrapped_flash_attn_forward",
        wrapped_backward_attr="flash_attn_interface._wrapped_flash_attn_backward",
    ),
    AttentionBackendName.FLASH_VARLEN_HUB: _HubKernelConfig(
-        repo_id="kernels-community/flash-attn2", function_attr="flash_attn_varlen_func", revision=None
+        repo_id="kernels-community/flash-attn2",
+        function_attr="flash_attn_varlen_func",
+        version=1,
    ),
    AttentionBackendName.SAGE_HUB: _HubKernelConfig(
-        repo_id="kernels-community/sage_attention", function_attr="sageattn", revision=None
+        repo_id="kernels-community/sage-attention",
+        function_attr="sageattn",
+        version=1,
    ),
 }

@@ -464,6 +470,10 @@ def _check_attention_backend_requirements(backend: AttentionBackendName) -> None
            raise RuntimeError(
                f"Backend '{backend.value}' is not usable because the `kernels` package isn't available. Please install it with `pip install kernels`."
            )
+        if not is_kernels_version(">=", "0.12"):
+            raise RuntimeError(
+                f"Backend '{backend.value}' needs to be used with a `kernels` version of at least 0.12. Please update with `pip install -U kernels`."
+            )

    elif backend == AttentionBackendName.AITER:
        if not _CAN_USE_AITER_ATTN:
--- a/src/diffusers/quantizers/gguf/utils.py
+++ b/src/diffusers/quantizers/gguf/utils.py
@@ -516,6 +516,9 @@ def dequantize_gguf_tensor(tensor):

    block_size, type_size = GGML_QUANT_SIZES[quant_type]

+    # Conver to plain tensor to avoid unnecessary __torch_function__ overhead.
+    tensor = tensor.as_tensor()
+
    tensor = tensor.view(torch.uint8)
    shape = _quant_shape_from_byte_shape(tensor.shape, type_size, block_size)

@@ -525,7 +528,7 @@ def dequantize_gguf_tensor(tensor):
    dequant = dequant_fn(blocks, block_size, type_size)
    dequant = dequant.reshape(shape)

-    return dequant.as_tensor()
+    return dequant


 class GGUFParameter(torch.nn.Parameter):
--- a/src/diffusers/utils/init.py
+++ b/src/diffusers/utils/init.py
@@ -86,6 +86,7 @@ from .import_utils import (
    is_inflect_available,
    is_invisible_watermark_available,
    is_kernels_available,
+    is_kernels_version,
    is_kornia_available,
    is_librosa_available,
    is_matplotlib_available,
--- a/src/diffusers/utils/import_utils.py
+++ b/src/diffusers/utils/import_utils.py
@@ -724,6 +724,22 @@ def is_transformers_version(operation: str, version: str):
    return compare_versions(parse(_transformers_version), operation, version)


+@cache
+def is_kernels_version(operation: str, version: str):
+    """
+    Compares the current Kernels version to a given reference with an operation.
+
+    Args:
+        operation (`str`):
+            A string representation of an operator, such as `">"` or `"<="`
+        version (`str`):
+            A version string
+    """
+    if not _kernels_available:
+        return False
+    return compare_versions(parse(_kernels_version), operation, version)
+
+
@cache
 def is_hf_hub_version(operation: str, version: str):
    """
Author	SHA1	Message	Date
Sayak Paul	2b7ed4c8dc	Merge branch 'main' into update-kernel-hub-repos	2026-02-20 16:20:11 +05:30
Animesh Jain	01de02e8b4	[gguf][torch.compile time] Convert to plain tensor earlier in dequantize_gguf_tensor (#13166 ) [gguf] Convert to plain tensor earlier in dequantize_gguf_tensor Once dequantize_gguf_tensor fetches the quant_type attributed from the GGUFParamter tensor subclass, there is no further need of running the actual dequantize operations on the Tensor subclass, we can just convert to plain tensor right away. This not only makes PyTorch eager faster, but reduces torch.compile tracer compile time from 36 seconds to 10 seconds, because there is lot less code to trace now.	2026-02-20 09:31:52 +05:30
Dhruv Nair	db2d7e7bc4	[CI] Fix new LoRAHotswap tests (#13163 ) update Co-authored-by: Sayak Paul <spsayakpaul@gmail.com>	2026-02-20 09:01:20 +05:30
sayakpaul	67f4691cab	resolve conflicts.	2026-02-19 18:22:49 +05:30
sayakpaul	e10fe61303	fix version and force updated kernels.	2026-02-19 18:00:01 +05:30
Sayak Paul	348350cf24	Merge branch 'main' into update-kernel-hub-repos	2026-02-19 17:53:46 +05:30
Sayak Paul	af35e3806c	Merge branch 'main' into update-kernel-hub-repos	2026-02-19 09:35:15 +05:30
sayakpaul	d6bc647932	change to updated repo and version.	2026-02-18 23:46:06 +05:30