From 7d2c62b3cee8ac60c960f771f624681bca6ff7b8 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 18:21:32 +0200
Subject: [PATCH 01/54] add precommit

---
 .pre-commit-config.yaml | 16 ++++++++++++++++
 1 file changed, 16 insertions(+)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 98669d98..2797292e 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -32,3 +32,19 @@ repos:
     -   id: codespell
         additional_dependencies:
         - tomli
+-   repo: https://github.com/cpp-linter/cpp-linter-hooks
+    rev: v1.1.0  # or whatever stable tag
+    hooks:
+        -   id: clang-format
+            args:
+                - --style=Google   # or your .clang-format file
+            files: ^(src|include)/.*\.(cpp|cc|cxx|cu|cuh|h|hpp)$
+
+        -   id: clang-tidy
+            args:
+                - --checks=bugprone-*,performance-*,modernize-*,cuda-*  # if cuda-* checks are available
+                - --  # after this, pass compile-flags
+                - -Iinclude
+                - -DDEFINE_YOU_USE
+                - --cuda-path=/usr/local/cuda
+            files: ^(src|include)/.*\.(cpp|cc|cxx|cu|cuh)$

From 7bc53671bfc20a427ca26d90d48f35a3f1fc5793 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 19:08:52 +0200
Subject: [PATCH 02/54] add first  implementation

---
 .clang-format                                 |  13 +
 .clang-tidy                                   |   6 +
 .gitignore                                    |  20 ++
 .pre-commit-config.yaml                       |  25 +-
 CMakeLists.txt                                |  36 +++
 pyproject.toml                                |  31 +-
 src/rapids_singlecell/_cuda/__init__.py       |   3 +
 .../_cuda/mean_var/kernels.cuh                |  62 ++++
 .../_cuda/mean_var/mean_var.cu                |  93 ++++++
 src/rapids_singlecell/_cuda/qc/kernels.cuh    | 133 ++++++++
 src/rapids_singlecell/_cuda/qc/qc.cu          | 153 +++++++++
 .../_cuda/qc_dask/kernels.cuh                 |  74 +++++
 .../_cuda/qc_dask/qc_kernels_dask.cu          |  89 ++++++
 src/rapids_singlecell/_cuda/scale/kernels.cuh |  81 +++++
 src/rapids_singlecell/_cuda/scale/scale.cu    | 130 ++++++++
 .../_cuda/sparse2dense/kernels.cuh            |  27 ++
 .../_cuda/sparse2dense/sparse2dense.cu        |  45 +++
 .../_kernels/_mean_var_kernel.py              | 168 +---------
 .../preprocessing/_kernels/_qc_kernels.py     | 173 ----------
 .../_kernels/_qc_kernels_dask.py              | 102 ------
 .../preprocessing/_kernels/_scale_kernel.py   |  93 ------
 .../preprocessing/_kernels/_sparse2dense.py   |  35 ---
 src/rapids_singlecell/preprocessing/_qc.py    | 296 +++++++-----------
 src/rapids_singlecell/preprocessing/_scale.py | 178 +++++------
 src/rapids_singlecell/preprocessing/_utils.py | 107 +++----
 tests/test_scaling.py                         |  30 ++
 tests/test_sparse2dense.py                    |  69 ++++
 27 files changed, 1353 insertions(+), 919 deletions(-)
 create mode 100644 .clang-format
 create mode 100644 .clang-tidy
 create mode 100644 CMakeLists.txt
 create mode 100644 src/rapids_singlecell/_cuda/__init__.py
 create mode 100644 src/rapids_singlecell/_cuda/mean_var/kernels.cuh
 create mode 100644 src/rapids_singlecell/_cuda/mean_var/mean_var.cu
 create mode 100644 src/rapids_singlecell/_cuda/qc/kernels.cuh
 create mode 100644 src/rapids_singlecell/_cuda/qc/qc.cu
 create mode 100644 src/rapids_singlecell/_cuda/qc_dask/kernels.cuh
 create mode 100644 src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
 create mode 100644 src/rapids_singlecell/_cuda/scale/kernels.cuh
 create mode 100644 src/rapids_singlecell/_cuda/scale/scale.cu
 create mode 100644 src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
 create mode 100644 src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_qc_kernels.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_qc_kernels_dask.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_scale_kernel.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_sparse2dense.py
 create mode 100644 tests/test_sparse2dense.py

diff --git a/.clang-format b/.clang-format
new file mode 100644
index 00000000..1c081470
--- /dev/null
+++ b/.clang-format
@@ -0,0 +1,13 @@
+BasedOnStyle: Google
+IndentWidth: 4
+ColumnLimit: 100
+AllowShortFunctionsOnASingleLine: Empty
+DerivePointerAlignment: false
+PointerAlignment: Left
+SpacesInAngles: false
+SpaceAfterCStyleCast: true
+SortIncludes: true
+IncludeBlocks: Regroup
+Standard: Cpp17
+Language: Cpp
+DisableFormat: false
diff --git a/.clang-tidy b/.clang-tidy
new file mode 100644
index 00000000..2b56b40c
--- /dev/null
+++ b/.clang-tidy
@@ -0,0 +1,6 @@
+Checks: '-*,clang-analyzer-*,bugprone-*,performance-*,readability-*,modernize-*'
+WarningsAsErrors: ''
+HeaderFilterRegex: 'src/rapids_singlecell/_cuda/.*'
+AnalyzeTemporaryDtors: false
+FormatStyle: none
+ExtraArgs: ['-std=c++17']
diff --git a/.gitignore b/.gitignore
index 59b337df..7d71deac 100644
--- a/.gitignore
+++ b/.gitignore
@@ -17,3 +17,23 @@ __pycache__/
 
 # Venvs
 *venv/
+
+# Build artifacts (CMake / scikit-build)
+/build/
+/CMakeFiles/
+/CMakeCache.txt
+/cmake_install.cmake
+/build.ninja
+/.ninja_deps
+/.ninja_log
+/libnanobind-static.a
+/install_manifest__mean_var_cuda.txt
+/_skbuild/
+/*.egg-info/
+
+# Compiled CUDA extension copied for editable installs
+*.so
+
+# Test/coverage caches
+/.pytest_cache/
+/.coverage
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 2797292e..c9db5dd7 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -1,6 +1,6 @@
 repos:
 -   repo: https://github.com/astral-sh/ruff-pre-commit
-    rev: v0.12.11
+    rev: v0.13.0
     hooks:
     -   id: ruff-check
         args: ["--fix"]
@@ -32,19 +32,12 @@ repos:
     -   id: codespell
         additional_dependencies:
         - tomli
--   repo: https://github.com/cpp-linter/cpp-linter-hooks
-    rev: v1.1.0  # or whatever stable tag
+-   repo: https://github.com/pocc/pre-commit-hooks
+    rev: v1.3.5
     hooks:
-        -   id: clang-format
-            args:
-                - --style=Google   # or your .clang-format file
-            files: ^(src|include)/.*\.(cpp|cc|cxx|cu|cuh|h|hpp)$
-
-        -   id: clang-tidy
-            args:
-                - --checks=bugprone-*,performance-*,modernize-*,cuda-*  # if cuda-* checks are available
-                - --  # after this, pass compile-flags
-                - -Iinclude
-                - -DDEFINE_YOU_USE
-                - --cuda-path=/usr/local/cuda
-            files: ^(src|include)/.*\.(cpp|cc|cxx|cu|cuh)$
+    -   id: clang-format
+        args: [--style=Google]
+        files: '\\.(cu|cuh|c|cc|cpp|cxx|h|hpp)$'
+    -   id: clang-tidy
+        args: ["-p", "build"]
+        files: '\\.(cu|cuh|c|cc|cpp|cxx|h|hpp)$'
diff --git a/CMakeLists.txt b/CMakeLists.txt
new file mode 100644
index 00000000..b518c938
--- /dev/null
+++ b/CMakeLists.txt
@@ -0,0 +1,36 @@
+cmake_minimum_required(VERSION 3.24)
+
+project(rapids_singlecell_cuda LANGUAGES CXX CUDA)
+
+set(CMAKE_CXX_STANDARD 17)
+set(CMAKE_CXX_STANDARD_REQUIRED ON)
+set(CMAKE_POSITION_INDEPENDENT_CODE ON)
+
+find_package(Python REQUIRED COMPONENTS Interpreter Development.Module)
+find_package(nanobind CONFIG REQUIRED)
+find_package(CUDAToolkit REQUIRED)
+
+# Helper to declare a nanobind CUDA module uniformly
+function(add_nb_cuda_module target src)
+  nanobind_add_module(${target} STABLE_ABI LTO
+      ${src}
+  )
+  target_link_libraries(${target} PRIVATE CUDA::cudart)
+  set_target_properties(${target} PROPERTIES
+      CUDA_SEPARABLE_COMPILATION ON
+  )
+  install(TARGETS ${target} LIBRARY DESTINATION rapids_singlecell/_cuda)
+  # Also copy built module into source tree for editable installs
+  add_custom_command(TARGET ${target} POST_BUILD
+      COMMAND ${CMAKE_COMMAND} -E copy
+          $<TARGET_FILE:${target}>
+          ${PROJECT_SOURCE_DIR}/src/rapids_singlecell/_cuda/$<TARGET_FILE_NAME:${target}>
+  )
+endfunction()
+
+# CUDA modules
+add_nb_cuda_module(_mean_var_cuda     src/rapids_singlecell/_cuda/mean_var/mean_var.cu)
+add_nb_cuda_module(_sparse2dense_cuda src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu)
+add_nb_cuda_module(_scale_cuda        src/rapids_singlecell/_cuda/scale/scale.cu)
+add_nb_cuda_module(_qc_cuda           src/rapids_singlecell/_cuda/qc/qc.cu)
+add_nb_cuda_module(_qc_dask_cuda      src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu)
diff --git a/pyproject.toml b/pyproject.toml
index 9c2d5cef..90dd2500 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -1,6 +1,11 @@
 [build-system]
-requires = [ "hatchling", "hatch-vcs" ]
-build-backend = "hatchling.build"
+requires = [
+    "scikit-build-core>=0.10",
+    "nanobind>=2.0.0",
+    "pybind11-stubgen; python_version>='3.11'",
+    "hatch-vcs",
+]
+build-backend = "scikit_build_core.build"
 
 [project]
 name = "rapids_singlecell"
@@ -123,6 +128,28 @@ source = "vcs"
 [tool.hatch.build.targets.wheel]
 packages = [ 'src/rapids_singlecell', 'src/testing' ]
 
+[tool.scikit-build]
+wheel.packages = [ "src/rapids_singlecell", "src/testing" ]
+cmake.minimum-version = "3.24"
+cmake.build-type = "Release"
+ninja.minimum-version = "1.10"
+cmake.args = [ "-DCMAKE_CUDA_ARCHITECTURES=75;80;86;89;90;100" ]
+sdist.include = [
+    "CMakeLists.txt",
+    "src/rapids_singlecell/_cuda/mean_var/mean_var.cu",
+    "src/rapids_singlecell/_cuda/mean_var/kernels.cuh",
+    "src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu",
+    "src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh",
+    "src/rapids_singlecell/_cuda/scale/scale.cu",
+    "src/rapids_singlecell/_cuda/scale/kernels.cuh",
+    "src/rapids_singlecell/_cuda/qc/qc.cu",
+    "src/rapids_singlecell/_cuda/qc/kernels.cuh",
+    "src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu",
+    "src/rapids_singlecell/_cuda/qc_dask/kernels.cuh",
+]
+build-dir = "build"
+
+
 [tool.codespell]
 skip = '*.ipynb,*.csv'
 ignore-words-list = "nd"
diff --git a/src/rapids_singlecell/_cuda/__init__.py b/src/rapids_singlecell/_cuda/__init__.py
new file mode 100644
index 00000000..8a24e61f
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/__init__.py
@@ -0,0 +1,3 @@
+from __future__ import annotations
+
+# Subpackage for CUDA extensions (built via scikit-build-core/nanobind)
diff --git a/src/rapids_singlecell/_cuda/mean_var/kernels.cuh b/src/rapids_singlecell/_cuda/mean_var/kernels.cuh
new file mode 100644
index 00000000..42ce3c7e
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/mean_var/kernels.cuh
@@ -0,0 +1,62 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void mean_var_major_kernel(
+    const int* __restrict__ indptr,
+    const int* __restrict__ indices,
+    const T*   __restrict__ data,
+    double*    __restrict__ means,
+    double*    __restrict__ vars,
+    int major,
+    int /*minor*/)
+{
+    int major_idx = blockIdx.x;
+    if (major_idx >= major) return;
+
+    int start_idx = indptr[major_idx];
+    int stop_idx  = indptr[major_idx + 1];
+
+    __shared__ double mean_place[64];
+    __shared__ double var_place[64];
+
+    mean_place[threadIdx.x] = 0.0;
+    var_place[threadIdx.x]  = 0.0;
+    __syncthreads();
+
+    for (int minor_idx = start_idx + threadIdx.x; minor_idx < stop_idx; minor_idx += blockDim.x) {
+        double value = static_cast<double>(data[minor_idx]);
+        mean_place[threadIdx.x] += value;
+        var_place[threadIdx.x]  += value * value;
+    }
+    __syncthreads();
+
+    for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
+        if (threadIdx.x < s) {
+            mean_place[threadIdx.x] += mean_place[threadIdx.x + s];
+            var_place[threadIdx.x]  += var_place[threadIdx.x + s];
+        }
+        __syncthreads();
+    }
+    if (threadIdx.x == 0) {
+        means[major_idx] = mean_place[0];
+        vars[major_idx]  = var_place[0];
+    }
+}
+
+template <typename T>
+__global__ void mean_var_minor_kernel(
+    const int* __restrict__ indices,
+    const T*   __restrict__ data,
+    double*    __restrict__ means,
+    double*    __restrict__ vars,
+    int nnz)
+{
+    int idx = blockDim.x * blockIdx.x + threadIdx.x;
+    if (idx >= nnz) return;
+    double value = static_cast<double>(data[idx]);
+    int minor_pos = indices[idx];
+    atomicAdd(&means[minor_pos], value);
+    atomicAdd(&vars[minor_pos],  value * value);
+}
diff --git a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
new file mode 100644
index 00000000..b9cfd246
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
@@ -0,0 +1,93 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels.cuh"
+
+namespace nb = nanobind;
+using nb::handle;
+
+template <typename T>
+static inline void launch_mean_var_major(
+    std::uintptr_t indptr_ptr,
+    std::uintptr_t indices_ptr,
+    std::uintptr_t data_ptr,
+    std::uintptr_t means_ptr,
+    std::uintptr_t vars_ptr,
+    int major,
+    int minor)
+{
+    dim3 block(64);
+    dim3 grid(major);
+    const int* indptr  = reinterpret_cast<const int*>(indptr_ptr);
+    const int* indices = reinterpret_cast<const int*>(indices_ptr);
+    const T*   data    = reinterpret_cast<const T*>(data_ptr);
+    double*    means   = reinterpret_cast<double*>(means_ptr);
+    double*    vars    = reinterpret_cast<double*>(vars_ptr);
+    mean_var_major_kernel<T><<<grid, block>>>(indptr, indices, data, means, vars, major, minor);
+}
+
+template <typename T>
+static inline void launch_mean_var_minor(
+    std::uintptr_t indices_ptr,
+    std::uintptr_t data_ptr,
+    std::uintptr_t means_ptr,
+    std::uintptr_t vars_ptr,
+    int nnz)
+{
+    int block = 256;
+    int grid  = (nnz + block - 1) / block;
+    const int* indices = reinterpret_cast<const int*>(indices_ptr);
+    const T*   data    = reinterpret_cast<const T*>(data_ptr);
+    double*    means   = reinterpret_cast<double*>(means_ptr);
+    double*    vars    = reinterpret_cast<double*>(vars_ptr);
+    mean_var_minor_kernel<T><<<grid, block>>>(indices, data, means, vars, nnz);
+}
+
+template <typename T>
+void mean_var_major_api(std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means, std::uintptr_t vars, int major, int minor) {
+    launch_mean_var_major<T>(indptr, indices, data, means, vars, major, minor);
+}
+
+template <typename T>
+void mean_var_minor_api(std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means, std::uintptr_t vars, int nnz) {
+    launch_mean_var_minor<T>(indices, data, means, vars, nnz);
+}
+
+NB_MODULE(_mean_var_cuda, m) {
+    m.def("mean_var_major_f32", &mean_var_major_api<float>);
+    m.def("mean_var_major_f64", &mean_var_major_api<double>);
+    m.def("mean_var_minor_f32", &mean_var_minor_api<float>);
+    m.def("mean_var_minor_f64", &mean_var_minor_api<double>);
+
+    m.def("mean_var_major", [](std::uintptr_t indptr,
+                                std::uintptr_t indices,
+                                std::uintptr_t data,
+                                std::uintptr_t means,
+                                std::uintptr_t vars,
+                                int major,
+                                int minor,
+                                int itemsize) {
+        if (itemsize == 4) {
+            mean_var_major_api<float>(indptr, indices, data, means, vars, major, minor);
+        } else if (itemsize == 8) {
+            mean_var_major_api<double>(indptr, indices, data, means, vars, major, minor);
+        } else {
+            throw nb::value_error("Unsupported itemsize for mean_var_major (expected 4 or 8)");
+        }
+    });
+    m.def("mean_var_minor", [](std::uintptr_t indices,
+                                std::uintptr_t data,
+                                std::uintptr_t means,
+                                std::uintptr_t vars,
+                                int nnz,
+                                int itemsize) {
+        if (itemsize == 4) {
+            mean_var_minor_api<float>(indices, data, means, vars, nnz);
+        } else if (itemsize == 8) {
+            mean_var_minor_api<double>(indices, data, means, vars, nnz);
+        } else {
+            throw nb::value_error("Unsupported itemsize for mean_var_minor (expected 4 or 8)");
+        }
+    });
+}
diff --git a/src/rapids_singlecell/_cuda/qc/kernels.cuh b/src/rapids_singlecell/_cuda/qc/kernels.cuh
new file mode 100644
index 00000000..f23157cd
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/qc/kernels.cuh
@@ -0,0 +1,133 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void qc_csc_kernel(const int* __restrict__ indptr,
+                              const int* __restrict__ index,
+                              const T*   __restrict__ data,
+                              T*         __restrict__ sums_cells,
+                              T*         __restrict__ sums_genes,
+                              int*       __restrict__ cell_ex,
+                              int*       __restrict__ gene_ex,
+                              int n_genes)
+{
+    int gene = blockDim.x * blockIdx.x + threadIdx.x;
+    if (gene >= n_genes) return;
+    int start_idx = indptr[gene];
+    int stop_idx  = indptr[gene + 1];
+    T sums_genes_i = T(0);
+    int gene_ex_i = 0;
+    for (int p = start_idx; p < stop_idx; ++p) {
+        T v = data[p];
+        int cell = index[p];
+        sums_genes_i += v;
+        atomicAdd(&sums_cells[cell], v);
+        ++gene_ex_i;
+        atomicAdd(&cell_ex[cell], 1);
+    }
+    sums_genes[gene] = sums_genes_i;
+    gene_ex[gene] = gene_ex_i;
+}
+
+template <typename T>
+__global__ void qc_csr_kernel(const int* __restrict__ indptr,
+                              const int* __restrict__ index,
+                              const T*   __restrict__ data,
+                              T*         __restrict__ sums_cells,
+                              T*         __restrict__ sums_genes,
+                              int*       __restrict__ cell_ex,
+                              int*       __restrict__ gene_ex,
+                              int n_cells)
+{
+    int cell = blockDim.x * blockIdx.x + threadIdx.x;
+    if (cell >= n_cells) return;
+    int start_idx = indptr[cell];
+    int stop_idx  = indptr[cell + 1];
+    T sums_cells_i = T(0);
+    int cell_ex_i = 0;
+    for (int p = start_idx; p < stop_idx; ++p) {
+        T v = data[p];
+        int gene = index[p];
+        atomicAdd(&sums_genes[gene], v);
+        sums_cells_i += v;
+        atomicAdd(&gene_ex[gene], 1);
+        ++cell_ex_i;
+    }
+    sums_cells[cell] = sums_cells_i;
+    cell_ex[cell] = cell_ex_i;
+}
+
+template <typename T>
+__global__ void qc_dense_kernel(const T* __restrict__ data,
+                                T*       __restrict__ sums_cells,
+                                T*       __restrict__ sums_genes,
+                                int*     __restrict__ cell_ex,
+                                int*     __restrict__ gene_ex,
+                                int n_cells, int n_genes)
+{
+    int cell = blockDim.x * blockIdx.x + threadIdx.x;
+    int gene = blockDim.y * blockIdx.y + threadIdx.y;
+    if (cell >= n_cells || gene >= n_genes) return;
+    long long idx = (long long)cell * n_genes + gene;
+    T v = data[idx];
+    if (v > T(0)) {
+        atomicAdd(&sums_genes[gene], v);
+        atomicAdd(&sums_cells[cell], v);
+        atomicAdd(&gene_ex[gene], 1);
+        atomicAdd(&cell_ex[cell], 1);
+    }
+}
+
+template <typename T>
+__global__ void qc_csc_sub_kernel(const int* __restrict__ indptr,
+                                  const int* __restrict__ index,
+                                  const T*   __restrict__ data,
+                                  T*         __restrict__ sums_cells,
+                                  const bool*__restrict__ mask,
+                                  int n_genes)
+{
+    int gene = blockDim.x * blockIdx.x + threadIdx.x;
+    if (gene >= n_genes) return;
+    if (!mask[gene]) return;
+    int start_idx = indptr[gene];
+    int stop_idx  = indptr[gene + 1];
+    for (int p = start_idx; p < stop_idx; ++p) {
+        int cell = index[p];
+        atomicAdd(&sums_cells[cell], data[p]);
+    }
+}
+
+template <typename T>
+__global__ void qc_csr_sub_kernel(const int* __restrict__ indptr,
+                                  const int* __restrict__ index,
+                                  const T*   __restrict__ data,
+                                  T*         __restrict__ sums_cells,
+                                  const bool*__restrict__ mask,
+                                  int n_cells)
+{
+    int cell = blockDim.x * blockIdx.x + threadIdx.x;
+    if (cell >= n_cells) return;
+    int start_idx = indptr[cell];
+    int stop_idx  = indptr[cell + 1];
+    T sums_cells_i = T(0);
+    for (int p = start_idx; p < stop_idx; ++p) {
+        int gene = index[p];
+        if (mask[gene]) sums_cells_i += data[p];
+    }
+    sums_cells[cell] = sums_cells_i;
+}
+
+template <typename T>
+__global__ void qc_dense_sub_kernel(const T* __restrict__ data,
+                                    T*       __restrict__ sums_cells,
+                                    const bool* __restrict__ mask,
+                                    int n_cells, int n_genes)
+{
+    int cell = blockDim.x * blockIdx.x + threadIdx.x;
+    int gene = blockDim.y * blockIdx.y + threadIdx.y;
+    if (cell >= n_cells || gene >= n_genes) return;
+    if (!mask[gene]) return;
+    long long idx = (long long)cell * n_genes + gene;
+    atomicAdd(&sums_cells[cell], data[idx]);
+}
diff --git a/src/rapids_singlecell/_cuda/qc/qc.cu b/src/rapids_singlecell/_cuda/qc/qc.cu
new file mode 100644
index 00000000..d8c200cd
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/qc/qc.cu
@@ -0,0 +1,153 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_qc_csc(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                   std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                   std::uintptr_t cell_ex, std::uintptr_t gene_ex,
+                   int n_genes)
+{
+    dim3 block(32);
+    dim3 grid((n_genes + block.x - 1) / block.x);
+    qc_csc_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(indptr),
+        reinterpret_cast<const int*>(index),
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<T*>(sums_genes),
+        reinterpret_cast<int*>(cell_ex),
+        reinterpret_cast<int*>(gene_ex),
+        n_genes);
+}
+
+template <typename T>
+static inline void launch_qc_csr(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                   std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                   std::uintptr_t cell_ex, std::uintptr_t gene_ex,
+                   int n_cells)
+{
+    dim3 block(32);
+    dim3 grid((n_cells + block.x - 1) / block.x);
+    qc_csr_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(indptr),
+        reinterpret_cast<const int*>(index),
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<T*>(sums_genes),
+        reinterpret_cast<int*>(cell_ex),
+        reinterpret_cast<int*>(gene_ex),
+        n_cells);
+}
+
+template <typename T>
+static inline void launch_qc_dense(std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                     std::uintptr_t cell_ex, std::uintptr_t gene_ex,
+                     int n_cells, int n_genes)
+{
+    dim3 block(16, 16);
+    dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
+    qc_dense_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<T*>(sums_genes),
+        reinterpret_cast<int*>(cell_ex),
+        reinterpret_cast<int*>(gene_ex),
+        n_cells, n_genes);
+}
+
+template <typename T>
+static inline void launch_qc_csc_sub(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                       std::uintptr_t sums_cells, std::uintptr_t mask,
+                       int n_genes)
+{
+    dim3 block(32);
+    dim3 grid((n_genes + block.x - 1) / block.x);
+    qc_csc_sub_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(indptr),
+        reinterpret_cast<const int*>(index),
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<const bool*>(mask),
+        n_genes);
+}
+
+template <typename T>
+static inline void launch_qc_csr_sub(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                       std::uintptr_t sums_cells, std::uintptr_t mask,
+                       int n_cells)
+{
+    dim3 block(32);
+    dim3 grid((n_cells + block.x - 1) / block.x);
+    qc_csr_sub_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(indptr),
+        reinterpret_cast<const int*>(index),
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<const bool*>(mask),
+        n_cells);
+}
+
+template <typename T>
+static inline void launch_qc_dense_sub(std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t mask,
+                         int n_cells, int n_genes)
+{
+    dim3 block(16, 16);
+    dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
+    qc_dense_sub_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<const bool*>(mask),
+        n_cells, n_genes);
+}
+
+NB_MODULE(_qc_cuda, m) {
+    m.def("sparse_qc_csc", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                std::uintptr_t cell_ex, std::uintptr_t gene_ex,
+                                int n_genes, int itemsize) {
+        if (itemsize == 4)      launch_qc_csc<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
+        else if (itemsize == 8) launch_qc_csc<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_csr", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                std::uintptr_t cell_ex, std::uintptr_t gene_ex,
+                                int n_cells, int itemsize) {
+        if (itemsize == 4)      launch_qc_csr<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
+        else if (itemsize == 8) launch_qc_csr<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_dense", [](std::uintptr_t data,
+                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                  std::uintptr_t cell_ex, std::uintptr_t gene_ex,
+                                  int n_cells, int n_genes, int itemsize) {
+        if (itemsize == 4)      launch_qc_dense<float>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
+        else if (itemsize == 8) launch_qc_dense<double>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_csc_sub", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                    std::uintptr_t sums_cells, std::uintptr_t mask,
+                                    int n_genes, int itemsize) {
+        if (itemsize == 4)      launch_qc_csc_sub<float>(indptr, index, data, sums_cells, mask, n_genes);
+        else if (itemsize == 8) launch_qc_csc_sub<double>(indptr, index, data, sums_cells, mask, n_genes);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_csr_sub", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                    std::uintptr_t sums_cells, std::uintptr_t mask,
+                                    int n_cells, int itemsize) {
+        if (itemsize == 4)      launch_qc_csr_sub<float>(indptr, index, data, sums_cells, mask, n_cells);
+        else if (itemsize == 8) launch_qc_csr_sub<double>(indptr, index, data, sums_cells, mask, n_cells);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_dense_sub", [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t mask,
+                                      int n_cells, int n_genes, int itemsize) {
+        if (itemsize == 4)      launch_qc_dense_sub<float>(data, sums_cells, mask, n_cells, n_genes);
+        else if (itemsize == 8) launch_qc_dense_sub<double>(data, sums_cells, mask, n_cells, n_genes);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+}
diff --git a/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh b/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh
new file mode 100644
index 00000000..00830aa2
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh
@@ -0,0 +1,74 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void qc_csr_cells_kernel(const int* __restrict__ indptr,
+                                    const int* __restrict__ index,
+                                    const T*   __restrict__ data,
+                                    T*         __restrict__ sums_cells,
+                                    int*       __restrict__ cell_ex,
+                                    int n_cells)
+{
+    int cell = blockDim.x * blockIdx.x + threadIdx.x;
+    if (cell >= n_cells) return;
+    int start_idx = indptr[cell];
+    int stop_idx  = indptr[cell + 1];
+    T sums = T(0);
+    int ex = 0;
+    for (int p = start_idx; p < stop_idx; ++p) {
+        sums += data[p];
+        ++ex;
+    }
+    sums_cells[cell] = sums;
+    cell_ex[cell]    = ex;
+}
+
+template <typename T>
+__global__ void qc_csr_genes_kernel(const int* __restrict__ index,
+                                    const T*   __restrict__ data,
+                                    T*         __restrict__ sums_genes,
+                                    int*       __restrict__ gene_ex,
+                                    int nnz)
+{
+    int i = blockDim.x * blockIdx.x + threadIdx.x;
+    if (i >= nnz) return;
+    int g = index[i];
+    T v = data[i];
+    atomicAdd(&sums_genes[g], v);
+    atomicAdd(&gene_ex[g], 1);
+}
+
+template <typename T>
+__global__ void qc_dense_cells_kernel(const T* __restrict__ data,
+                                      T*       __restrict__ sums_cells,
+                                      int*     __restrict__ cell_ex,
+                                      int n_cells, int n_genes)
+{
+    int cell = blockDim.x * blockIdx.x + threadIdx.x;
+    int gene = blockDim.y * blockIdx.y + threadIdx.y;
+    if (cell >= n_cells || gene >= n_genes) return;
+    long long idx = (long long)cell * n_genes + gene;
+    T v = data[idx];
+    if (v > T(0)) {
+        atomicAdd(&sums_cells[cell], v);
+        atomicAdd(&cell_ex[cell], 1);
+    }
+}
+
+template <typename T>
+__global__ void qc_dense_genes_kernel(const T* __restrict__ data,
+                                      T*       __restrict__ sums_genes,
+                                      int*     __restrict__ gene_ex,
+                                      int n_cells, int n_genes)
+{
+    int cell = blockDim.x * blockIdx.x + threadIdx.x;
+    int gene = blockDim.y * blockIdx.y + threadIdx.y;
+    if (cell >= n_cells || gene >= n_genes) return;
+    long long idx = (long long)cell * n_genes + gene;
+    T v = data[idx];
+    if (v > T(0)) {
+        atomicAdd(&sums_genes[gene], v);
+        atomicAdd(&gene_ex[gene], 1);
+    }
+}
diff --git a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
new file mode 100644
index 00000000..96fceb8a
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
@@ -0,0 +1,89 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_qc_csr_cells(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                         std::uintptr_t sums_cells, std::uintptr_t cell_ex,
+                         int n_cells)
+{
+    dim3 block(32); dim3 grid((n_cells + 31)/32);
+    qc_csr_cells_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(indptr),
+        reinterpret_cast<const int*>(index),
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<int*>(cell_ex),
+        n_cells);
+}
+
+template <typename T>
+static inline void launch_qc_csr_genes(std::uintptr_t index, std::uintptr_t data,
+                          std::uintptr_t sums_genes, std::uintptr_t gene_ex,
+                          int nnz)
+{
+    int block = 256; int grid = (nnz + block - 1)/block;
+    qc_csr_genes_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(index),
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_genes),
+        reinterpret_cast<int*>(gene_ex),
+        nnz);
+}
+
+template <typename T>
+static inline void launch_qc_dense_cells(std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex,
+                           int n_cells, int n_genes)
+{
+    dim3 block(16,16); dim3 grid((n_cells + 15)/16, (n_genes + 15)/16);
+    qc_dense_cells_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_cells),
+        reinterpret_cast<int*>(cell_ex),
+        n_cells, n_genes);
+}
+
+template <typename T>
+static inline void launch_qc_dense_genes(std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex,
+                           int n_cells, int n_genes)
+{
+    dim3 block(16,16); dim3 grid((n_cells + 15)/16, (n_genes + 15)/16);
+    qc_dense_genes_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const T*>(data),
+        reinterpret_cast<T*>(sums_genes),
+        reinterpret_cast<int*>(gene_ex),
+        n_cells, n_genes);
+}
+
+NB_MODULE(_qc_dask_cuda, m) {
+    m.def("sparse_qc_csr_cells", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                      std::uintptr_t sums_cells, std::uintptr_t cell_ex,
+                                      int n_cells, int itemsize) {
+        if (itemsize == 4)      launch_qc_csr_cells<float>(indptr, index, data, sums_cells, cell_ex, n_cells);
+        else if (itemsize == 8) launch_qc_csr_cells<double>(indptr, index, data, sums_cells, cell_ex, n_cells);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_csr_genes", [](std::uintptr_t index, std::uintptr_t data,
+                                       std::uintptr_t sums_genes, std::uintptr_t gene_ex,
+                                       int nnz, int itemsize) {
+        if (itemsize == 4)      launch_qc_csr_genes<float>(index, data, sums_genes, gene_ex, nnz);
+        else if (itemsize == 8) launch_qc_csr_genes<double>(index, data, sums_genes, gene_ex, nnz);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_dense_cells", [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex,
+                                        int n_cells, int n_genes, int itemsize) {
+        if (itemsize == 4)      launch_qc_dense_cells<float>(data, sums_cells, cell_ex, n_cells, n_genes);
+        else if (itemsize == 8) launch_qc_dense_cells<double>(data, sums_cells, cell_ex, n_cells, n_genes);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+    m.def("sparse_qc_dense_genes", [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex,
+                                        int n_cells, int n_genes, int itemsize) {
+        if (itemsize == 4)      launch_qc_dense_genes<float>(data, sums_genes, gene_ex, n_cells, n_genes);
+        else if (itemsize == 8) launch_qc_dense_genes<double>(data, sums_genes, gene_ex, n_cells, n_genes);
+        else throw nb::value_error("Unsupported itemsize");
+    });
+}
diff --git a/src/rapids_singlecell/_cuda/scale/kernels.cuh b/src/rapids_singlecell/_cuda/scale/kernels.cuh
new file mode 100644
index 00000000..1dc9792d
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/scale/kernels.cuh
@@ -0,0 +1,81 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void csc_scale_diff_kernel(const int* __restrict__ indptr,
+                                      T* __restrict__ data,
+                                      const T* __restrict__ std,
+                                      int ncols)
+{
+    int col = blockIdx.x;
+    if (col >= ncols) return;
+    int start_idx = indptr[col];
+    int stop_idx  = indptr[col + 1];
+    T diver = T(1) / std[col];
+    for (int i = start_idx + threadIdx.x; i < stop_idx; i += blockDim.x) {
+        data[i] *= diver;
+    }
+}
+
+template <typename T>
+__global__ void csr_scale_diff_kernel(const int* __restrict__ indptr,
+                                      const int* __restrict__ indices,
+                                      T* __restrict__ data,
+                                      const T* __restrict__ std,
+                                      const int* __restrict__ mask,
+                                      T clipper,
+                                      int nrows)
+{
+    int row = blockIdx.x;
+    if (row >= nrows) return;
+    if (mask[row]) {
+        int start_idx = indptr[row];
+        int stop_idx  = indptr[row + 1];
+        for (int i = start_idx + threadIdx.x; i < stop_idx; i += blockDim.x) {
+            int idx = indices[i];
+            T res = data[i] / std[idx];
+            data[i] = res < clipper ? res : clipper;
+        }
+    }
+}
+
+template <typename T>
+__global__ void dense_scale_center_diff_kernel(T* data,
+                                               const T* __restrict__ mean,
+                                               const T* __restrict__ std,
+                                               const int* __restrict__ mask,
+                                               T clipper,
+                                               long long nrows,
+                                               long long ncols)
+{
+    long long row = (long long)blockIdx.x * blockDim.x + threadIdx.x;
+    long long col = (long long)blockIdx.y * blockDim.y + threadIdx.y;
+    if (row < nrows && col < ncols) {
+        if (mask[row]) {
+            T res = data[row * ncols + col] - mean[col];
+            res = res / std[col];
+            if (res >  clipper) res =  clipper;
+            if (res < -clipper) res = -clipper;
+            data[row * ncols + col] = res;
+        }
+    }
+}
+
+template <typename T>
+__global__ void dense_scale_diff_kernel(T* __restrict__ data,
+                                        const T* __restrict__ std,
+                                        const int* __restrict__ mask,
+                                        T clipper,
+                                        long long nrows,
+                                        long long ncols)
+{
+    long long row = (long long)(blockIdx.x * blockDim.x + threadIdx.x);
+    long long col = (long long)(blockIdx.y * blockDim.y + threadIdx.y);
+    if (row < nrows && col < ncols) {
+        if (mask[row]) {
+            T res = data[row * ncols + col] / std[col];
+            data[row * ncols + col] = res < clipper ? res : clipper;
+        }
+    }
+}
diff --git a/src/rapids_singlecell/_cuda/scale/scale.cu b/src/rapids_singlecell/_cuda/scale/scale.cu
new file mode 100644
index 00000000..65d4d44b
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/scale/scale.cu
@@ -0,0 +1,130 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_csc_scale_diff(std::uintptr_t indptr,
+                           std::uintptr_t data,
+                           std::uintptr_t std,
+                           int ncols)
+{
+    dim3 block(64);
+    dim3 grid(ncols);
+    csc_scale_diff_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(indptr),
+        reinterpret_cast<T*>(data),
+        reinterpret_cast<const T*>(std),
+        ncols);
+}
+
+template <typename T>
+static inline void launch_csr_scale_diff(std::uintptr_t indptr,
+                           std::uintptr_t indices,
+                           std::uintptr_t data,
+                           std::uintptr_t std,
+                           std::uintptr_t mask,
+                           T clipper,
+                           int nrows)
+{
+    dim3 block(64);
+    dim3 grid(nrows);
+    csr_scale_diff_kernel<T><<<grid, block>>>(
+        reinterpret_cast<const int*>(indptr),
+        reinterpret_cast<const int*>(indices),
+        reinterpret_cast<T*>(data),
+        reinterpret_cast<const T*>(std),
+        reinterpret_cast<const int*>(mask),
+        clipper,
+        nrows);
+}
+
+template <typename T>
+static inline void launch_dense_scale_center_diff(std::uintptr_t data,
+                                    std::uintptr_t mean,
+                                    std::uintptr_t std,
+                                    std::uintptr_t mask,
+                                    T clipper,
+                                    long long nrows,
+                                    long long ncols)
+{
+    dim3 block(32, 32);
+    dim3 grid((unsigned)((nrows + block.x - 1) / block.x), (unsigned)((ncols + block.y - 1) / block.y));
+    dense_scale_center_diff_kernel<T><<<grid, block>>>(
+        reinterpret_cast<T*>(data),
+        reinterpret_cast<const T*>(mean),
+        reinterpret_cast<const T*>(std),
+        reinterpret_cast<const int*>(mask),
+        clipper,
+        nrows,
+        ncols);
+}
+
+template <typename T>
+static inline void launch_dense_scale_diff(std::uintptr_t data,
+                             std::uintptr_t std,
+                             std::uintptr_t mask,
+                             T clipper,
+                             long long nrows,
+                             long long ncols)
+{
+    dim3 block(32, 32);
+    dim3 grid((unsigned)((nrows + block.x - 1) / block.x), (unsigned)((ncols + block.y - 1) / block.y));
+    dense_scale_diff_kernel<T><<<grid, block>>>(
+        reinterpret_cast<T*>(data),
+        reinterpret_cast<const T*>(std),
+        reinterpret_cast<const int*>(mask),
+        clipper,
+        nrows,
+        ncols);
+}
+
+NB_MODULE(_scale_cuda, m) {
+    m.def("csc_scale_diff", [](std::uintptr_t indptr,
+                                std::uintptr_t data,
+                                std::uintptr_t std,
+                                int ncols,
+                                int itemsize) {
+        if (itemsize == 4)      launch_csc_scale_diff<float>(indptr, data, std, ncols);
+        else if (itemsize == 8) launch_csc_scale_diff<double>(indptr, data, std, ncols);
+        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    });
+    m.def("csr_scale_diff", [](std::uintptr_t indptr,
+                                std::uintptr_t indices,
+                                std::uintptr_t data,
+                                std::uintptr_t std,
+                                std::uintptr_t mask,
+                                double clipper,
+                                int nrows,
+                                int itemsize) {
+        if (itemsize == 4)      launch_csr_scale_diff<float>(indptr, indices, data, std, mask, (float)clipper, nrows);
+        else if (itemsize == 8) launch_csr_scale_diff<double>(indptr, indices, data, std, mask, (double)clipper, nrows);
+        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    });
+    m.def("dense_scale_center_diff", [](std::uintptr_t data,
+                                         std::uintptr_t mean,
+                                         std::uintptr_t std,
+                                         std::uintptr_t mask,
+                                         double clipper,
+                                         long long nrows,
+                                         long long ncols,
+                                         int itemsize) {
+        if (itemsize == 4)      launch_dense_scale_center_diff<float>(data, mean, std, mask, (float)clipper, nrows, ncols);
+        else if (itemsize == 8) launch_dense_scale_center_diff<double>(data, mean, std, mask, (double)clipper, nrows, ncols);
+        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    });
+    m.def("dense_scale_diff", [](std::uintptr_t data,
+                                  std::uintptr_t std,
+                                  std::uintptr_t mask,
+                                  double clipper,
+                                  long long nrows,
+                                  long long ncols,
+                                  int itemsize) {
+        if (itemsize == 4)      launch_dense_scale_diff<float>(data, std, mask, (float)clipper, nrows, ncols);
+        else if (itemsize == 8) launch_dense_scale_diff<double>(data, std, mask, (double)clipper, nrows, ncols);
+        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    });
+}
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh b/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
new file mode 100644
index 00000000..a878abc2
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
@@ -0,0 +1,27 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void sparse2dense_kernel(
+    const int* __restrict__ indptr,
+    const int* __restrict__ index,
+    const T*   __restrict__ data,
+    T*         __restrict__ out,
+    long long major,
+    long long minor,
+    int c_switch)
+{
+    long long row = (long long)blockIdx.x * blockDim.x + threadIdx.x;
+    long long col = (long long)blockIdx.y * blockDim.y + threadIdx.y;
+    if (row >= major) return;
+    long long start = (long long)indptr[row];
+    long long stop  = (long long)indptr[row + 1];
+    if (col >= (stop - start)) return;
+    long long idx = (long long)index[start + col];
+    if (idx >= minor) return;
+    long long res_index = (c_switch == 1)
+        ? (row * minor + idx)
+        : (row + idx * major);
+    atomicAdd(&out[res_index], data[start + col]);
+}
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
new file mode 100644
index 00000000..2ecf3065
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
@@ -0,0 +1,45 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_sparse2dense(
+    std::uintptr_t indptr_ptr,
+    std::uintptr_t index_ptr,
+    std::uintptr_t data_ptr,
+    std::uintptr_t out_ptr,
+    long long major,
+    long long minor,
+    int c_switch)
+{
+    dim3 block(32, 32);
+    dim3 grid((unsigned)((major + block.x - 1) / block.x), 32);
+    const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
+    const int* index  = reinterpret_cast<const int*>(index_ptr);
+    const T*   data   = reinterpret_cast<const T*>(data_ptr);
+    T*         out    = reinterpret_cast<T*>(out_ptr);
+    sparse2dense_kernel<T><<<grid, block>>>(indptr, index, data, out, major, minor, c_switch);
+}
+
+NB_MODULE(_sparse2dense_cuda, m) {
+    m.def("sparse2dense", [](std::uintptr_t indptr,
+                              std::uintptr_t index,
+                              std::uintptr_t data,
+                              std::uintptr_t out,
+                              long long major,
+                              long long minor,
+                              int c_switch,
+                              int itemsize) {
+        if (itemsize == 4) {
+            launch_sparse2dense<float>(indptr, index, data, out, major, minor, c_switch);
+        } else if (itemsize == 8) {
+            launch_sparse2dense<double>(indptr, index, data, out, major, minor, c_switch);
+        } else {
+            throw nb::value_error("Unsupported itemsize for sparse2dense (expected 4 or 8)");
+        }
+    });
+}
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_mean_var_kernel.py b/src/rapids_singlecell/preprocessing/_kernels/_mean_var_kernel.py
index 76aa6d3a..414dff40 100644
--- a/src/rapids_singlecell/preprocessing/_kernels/_mean_var_kernel.py
+++ b/src/rapids_singlecell/preprocessing/_kernels/_mean_var_kernel.py
@@ -1,163 +1,23 @@
 from __future__ import annotations
 
 import cupy as cp
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_get_mean_var_major_kernel = r"""
-        (const int *indptr,const int *index,const {0} *data,
-            double* means,double* vars,
-            int major, int minor) {
-        int major_idx = blockIdx.x;
-        if(major_idx >= major){
-            return;
-        }
-        int start_idx = indptr[major_idx];
-        int stop_idx = indptr[major_idx+1];
-
-        __shared__ double mean_place[64];
-        __shared__ double var_place[64];
-
-        mean_place[threadIdx.x] = 0.0;
-        var_place[threadIdx.x] = 0.0;
-        __syncthreads();
-
-        for(int minor_idx = start_idx+threadIdx.x; minor_idx < stop_idx; minor_idx+= blockDim.x){
-               double value = (double)data[minor_idx];
-               mean_place[threadIdx.x] += value;
-               var_place[threadIdx.x] += value*value;
-        }
-        __syncthreads();
-
-        for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
-            if (threadIdx.x < s) {
-                mean_place[threadIdx.x] += mean_place[threadIdx.x + s];
-                var_place[threadIdx.x] += var_place[threadIdx.x + s];
-            }
-            __syncthreads(); // Synchronize at each step of the reduction
-        }
-        if (threadIdx.x == 0) {
-            means[major_idx] = mean_place[threadIdx.x];
-            vars[major_idx] = var_place[threadIdx.x];
-        }
-
-        }
-"""
-
-_get_mean_var_minor_kernel = r"""
-        (const int *index,const {0} *data,
-            double* means, double* vars,
-            int major, int nnz) {
-        int idx = blockDim.x * blockIdx.x + threadIdx.x;
-        if(idx >= nnz){
-            return;
-        }
-        double value = (double) data[idx];
-        int minor_pos = index[idx];
-        atomicAdd(&means[minor_pos], value/major);
-        atomicAdd(&vars[minor_pos], value*value/major);
-        }
-    """
-
-_get_mean_var_minor_fast_kernel = r"""
-(const long long nnz,
-const int* __restrict__ indices,
-const {0}* __restrict__ data,
-double* __restrict__ g_sum,
-double* __restrict__ g_sumsq)
-{
-    extern __shared__ unsigned shmem[];
-    unsigned HASH_SIZE = 1024;
-    // layout in shared:
-    // keys[HASH_SIZE] (uint32, 0xFFFFFFFF = empty)
-    // sum[HASH_SIZE]  (double)
-    // sq[HASH_SIZE]   (double)
-    unsigned* keys = shmem;
-    double*   sum  = (double*)(keys + HASH_SIZE);
-    double*   sq   = (double*)(sum + HASH_SIZE);
-
-    // init table
-    for (int i = threadIdx.x; i < HASH_SIZE; i += blockDim.x) {
-        keys[i] = 0xFFFFFFFFu;
-        sum[i]  = 0.0;
-        sq[i]   = 0.0;
-    }
-    __syncthreads();
-
-    const size_t stride = (size_t)gridDim.x * blockDim.x;
-    for (size_t i = (size_t)blockIdx.x * blockDim.x + threadIdx.x;
-         i < nnz; i += stride)
-    {
-        unsigned col = (unsigned)__ldg(indices + i);
-        double dv = (double)__ldg(data + i);
-        double d2 = dv * dv;
-
-        unsigned h = (col * 2654435761u) & (HASH_SIZE - 1);
-        bool done = false;
-
-        #pragma unroll 8
-        for (int probe = 0; probe < 8; ++probe) {
-            unsigned pos = (h + probe) & (HASH_SIZE - 1);
-            unsigned key = atomicCAS(&keys[pos], 0xFFFFFFFFu, col);
-            if (key == 0xFFFFFFFFu || key == col) {
-                atomicAdd(&sum[pos], dv);
-                atomicAdd(&sq[pos],  d2);
-                done = true;
-                break;
-            }
-        }
-        if (!done) {
-            atomicAdd(&g_sum[col],   dv);
-            atomicAdd(&g_sumsq[col], d2);
-        }
-    }
-    __syncthreads();
-
-    // flush
-    for (int i = threadIdx.x; i < HASH_SIZE; i += blockDim.x) {
-        unsigned key = keys[i];
-        if (key != 0xFFFFFFFFu) {
-            atomicAdd(&g_sum[key],   sum[i]);
-            atomicAdd(&g_sumsq[key], sq[i]);
-        }
-    }
-}
-"""
-
 
 sq_sum = cp.ReductionKernel(
-    "T x",  # input params
-    "float64 y",  # output params
-    "x * x",  # map
-    "a + b",  # reduce
-    "y = a",  # post-reduction map
-    "0",  # identity value
-    "sqsum64",  # kernel name
+    "T x",
+    "float64 y",
+    "x * x",
+    "a + b",
+    "y = a",
+    "0",
+    "sqsum64",
 )
 
 mean_sum = cp.ReductionKernel(
-    "T x",  # input params
-    "float64 y",  # output params
-    "x",  # map
-    "a + b",  # reduce
-    "y = a",  # post-reduction map
-    "0",  # identity value
-    "sum64",  # kernel name
+    "T x",
+    "float64 y",
+    "x",
+    "a + b",
+    "y = a",
+    "0",
+    "sum64",
 )
-
-
-def _get_mean_var_major(dtype):
-    return cuda_kernel_factory(
-        _get_mean_var_major_kernel, (dtype,), "_get_mean_var_major_kernel"
-    )
-
-
-def _get_mean_var_minor(dtype):
-    return cuda_kernel_factory(
-        _get_mean_var_minor_kernel, (dtype,), "_get_mean_var_minor_kernel"
-    )
-
-
-def _get_mean_var_minor_fast(dtype):
-    return cuda_kernel_factory(
-        _get_mean_var_minor_fast_kernel, (dtype,), "_get_mean_var_minor_fast_kernel"
-    )
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_qc_kernels.py b/src/rapids_singlecell/preprocessing/_kernels/_qc_kernels.py
deleted file mode 100644
index e3cded79..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_qc_kernels.py
+++ /dev/null
@@ -1,173 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_sparse_qc_kernel_csc = r"""
-    (const int *indptr,const int *index,const {0} *data,
-        {0}* sums_cells, {0}* sums_genes,
-        int* cell_ex, int* gene_ex,
-        int n_genes) {
-        int gene = blockDim.x * blockIdx.x + threadIdx.x;
-        if(gene >= n_genes){
-            return;
-        }
-        int start_idx = indptr[gene];
-        int stop_idx = indptr[gene+1];
-
-        {0} sums_genes_i = 0;
-        int gene_ex_i = 0;
-        for(int cell = start_idx; cell < stop_idx; cell++){
-            {0} value = data[cell];
-            int cell_number = index[cell];
-            sums_genes_i += value;
-            atomicAdd(&sums_cells[cell_number], value);
-            gene_ex_i += 1;
-            atomicAdd(&cell_ex[cell_number], 1);
-        }
-        sums_genes[gene] = sums_genes_i;
-        gene_ex[gene] = gene_ex_i;
-    }
-"""
-
-_sparse_qc_kernel_csr = r"""
-    (const int *indptr,const int *index,const {0} *data,
-        {0}* sums_cells, {0}* sums_genes,
-        int* cell_ex, int* gene_ex,
-        int n_cells) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        if(cell >= n_cells){
-            return;
-        }
-        int start_idx = indptr[cell];
-        int stop_idx = indptr[cell+1];
-
-        {0} sums_cells_i = 0;
-        int cell_ex_i = 0;
-        for(int gene = start_idx; gene < stop_idx; gene++){
-            {0} value = data[gene];
-            int gene_number = index[gene];
-            atomicAdd(&sums_genes[gene_number], value);
-            sums_cells_i += value;
-            atomicAdd(&gene_ex[gene_number], 1);
-            cell_ex_i += 1;
-        }
-        sums_cells[cell] = sums_cells_i;
-        cell_ex[cell] = cell_ex_i;
-    }
-"""
-
-_sparse_qc_kernel_dense = r"""
-    (const {0} *data,
-        {0}* sums_cells, {0}* sums_genes,
-        int* cell_ex, int* gene_ex,
-        int n_cells,int n_genes) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        int gene = blockDim.y * blockIdx.y + threadIdx.y;
-        if(cell >= n_cells || gene >=n_genes){
-            return;
-        }
-        long long int index = static_cast<long long int>(cell) * n_genes + gene;
-        {0} value = data[index];
-        if (value>0.0){
-            atomicAdd(&sums_genes[gene], value);
-            atomicAdd(&sums_cells[cell], value);
-            atomicAdd(&gene_ex[gene], 1);
-            atomicAdd(&cell_ex[cell], 1);
-        }
-    }
-"""
-
-_sparse_qc_kernel_csc_sub = r"""
-    (const int *indptr,const int *index,const {0} *data,
-        {0}* sums_cells, bool* mask,
-        int n_genes) {
-        int gene = blockDim.x * blockIdx.x + threadIdx.x;
-        if(gene >= n_genes){
-            return;
-        }
-        if(mask[gene] == false){
-            return;
-        }
-        int start_idx = indptr[gene];
-        int stop_idx = indptr[gene+1];
-
-        for(int cell = start_idx; cell < stop_idx; cell++){
-            int cell_number = index[cell];
-            atomicAdd(&sums_cells[cell_number], data[cell]);
-        }
-    }
-"""
-
-_sparse_qc_kernel_csr_sub = r"""
-    (const int *indptr,const int *index,const {0} *data,
-        {0}* sums_cells, bool* mask,
-        int n_cells) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        if(cell >= n_cells){
-            return;
-        }
-        int start_idx = indptr[cell];
-        int stop_idx = indptr[cell+1];
-
-        {0} sums_cells_i = 0;
-        for(int gene = start_idx; gene < stop_idx; gene++){
-            int gene_number = index[gene];
-            if (mask[gene_number]==true){
-                sums_cells_i += data[gene];
-
-            }
-        sums_cells[cell] = sums_cells_i;
-        }
-    }
-"""
-
-_sparse_qc_kernel_dense_sub = r"""
-    (const {0} *data,
-        {0}* sums_cells, bool *mask,
-        int n_cells, int n_genes) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        int gene = blockDim.y * blockIdx.y + threadIdx.y;
-        if(cell >= n_cells || gene >=n_genes){
-            return;
-        }
-        if(mask[gene] == false){
-            return;
-        }
-
-        long long int index = static_cast<long long int>(cell) * n_genes + gene;
-        atomicAdd(&sums_cells[cell], data[index]);
-
-    }
-"""
-
-
-def _sparse_qc_csc(dtype):
-    return cuda_kernel_factory(_sparse_qc_kernel_csc, (dtype,), "_sparse_qc_kernel_csc")
-
-
-def _sparse_qc_csr(dtype):
-    return cuda_kernel_factory(_sparse_qc_kernel_csr, (dtype,), "_sparse_qc_kernel_csr")
-
-
-def _sparse_qc_dense(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_dense, (dtype,), "_sparse_qc_kernel_dense"
-    )
-
-
-def _sparse_qc_csc_sub(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_csc_sub, (dtype,), "_sparse_qc_kernel_csc_sub"
-    )
-
-
-def _sparse_qc_csr_sub(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_csr_sub, (dtype,), "_sparse_qc_kernel_csr_sub"
-    )
-
-
-def _sparse_qc_dense_sub(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_dense_sub, (dtype,), "_sparse_qc_kernel_dense_sub"
-    )
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_qc_kernels_dask.py b/src/rapids_singlecell/preprocessing/_kernels/_qc_kernels_dask.py
deleted file mode 100644
index 01172407..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_qc_kernels_dask.py
+++ /dev/null
@@ -1,102 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_sparse_qc_kernel_csr_dask_cells = r"""
-    (const int *indptr,const int *index,const {0} *data,
-            {0}* sums_cells, int* cell_ex,
-            int n_cells) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        if(cell >= n_cells){
-            return;
-        }
-        int start_idx = indptr[cell];
-        int stop_idx = indptr[cell+1];
-
-        {0} sums_cells_i = 0;
-        int cell_ex_i = 0;
-        for(int gene = start_idx; gene < stop_idx; gene++){
-            {0} value = data[gene];
-            int gene_number = index[gene];
-            sums_cells_i += value;
-            cell_ex_i += 1;
-        }
-        sums_cells[cell] = sums_cells_i;
-        cell_ex[cell] = cell_ex_i;
-    }
-"""
-
-
-_sparse_qc_kernel_csr_dask_genes = r"""
-        (const int *index,const {0} *data,
-            {0}* sums_genes, int* gene_ex,
-            int nnz) {
-        int idx = blockDim.x * blockIdx.x + threadIdx.x;
-        if(idx >= nnz){
-            return;
-        }
-        int minor_pos = index[idx];
-        atomicAdd(&sums_genes[minor_pos], data[idx]);
-        atomicAdd(&gene_ex[minor_pos], 1);
-        }
-    """
-
-_sparse_qc_kernel_dense_cells = r"""
-    (const {0} *data,
-        {0}* sums_cells, int* cell_ex,
-        int n_cells,int n_genes) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        int gene = blockDim.y * blockIdx.y + threadIdx.y;
-        if(cell >= n_cells || gene >=n_genes){
-            return;
-        }
-        long long int index = static_cast<long long int>(cell) * n_genes + gene;
-        {0} value = data[index];
-        if (value>0.0){
-            atomicAdd(&sums_cells[cell], value);
-            atomicAdd(&cell_ex[cell], 1);
-        }
-    }
-"""
-
-_sparse_qc_kernel_dense_genes = r"""
-    (const {0} *data,
-        {0}* sums_genes,int* gene_ex,
-        int n_cells,int n_genes) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        int gene = blockDim.y * blockIdx.y + threadIdx.y;
-        if(cell >= n_cells || gene >=n_genes){
-            return;
-        }
-        long long int index = static_cast<long long int>(cell) * n_genes + gene;
-        {0} value = data[index];
-        if (value>0.0){
-            atomicAdd(&sums_genes[gene], value);
-            atomicAdd(&gene_ex[gene], 1);
-        }
-    }
-"""
-
-
-def _sparse_qc_csr_dask_cells(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_csr_dask_cells, (dtype,), "_sparse_qc_kernel_csr_dask_cells"
-    )
-
-
-def _sparse_qc_csr_dask_genes(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_csr_dask_genes, (dtype,), "_sparse_qc_kernel_csr_dask_genes"
-    )
-
-
-def _sparse_qc_dense_cells(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_dense_cells, (dtype,), "_sparse_qc_kernel_dense_cells"
-    )
-
-
-def _sparse_qc_dense_genes(dtype):
-    return cuda_kernel_factory(
-        _sparse_qc_kernel_dense_genes, (dtype,), "_sparse_qc_kernel_dense_genes"
-    )
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_scale_kernel.py b/src/rapids_singlecell/preprocessing/_kernels/_scale_kernel.py
deleted file mode 100644
index 07f8e512..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_scale_kernel.py
+++ /dev/null
@@ -1,93 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_csc_scale_diff_kernel = r"""
-(const int *indptr, {0} *data, const double * std, int ncols) {
-        int col = blockIdx.x;
-
-        if(col >= ncols){
-            return;
-        }
-        int start_idx = indptr[col];
-        int stop_idx = indptr[col+1];
-        double diver = 1/std[col];
-        for(int i = start_idx+ threadIdx.x; i < stop_idx; i+=blockDim.x){
-            data[i] *= diver;
-        }
-
-    }
-"""
-
-_csr_scale_diff_kernel = r"""
-(const int *indptr, const int *indices, {0} *data, const {0} * std, const int *mask, {0} clipper,int nrows) {
-        int row = blockIdx.x;
-
-        if(row >= nrows){
-            return;
-        }
-        if(mask[row]){
-            int start_idx = indptr[row];
-            int stop_idx = indptr[row+1];
-            for(int i = start_idx+ threadIdx.x; i < stop_idx; i+=blockDim.x){
-                int idx = indices[i];
-                {0} res = data[i]/std[idx];
-                data[i] = min(clipper,res);
-        }
-    }
-}
-"""
-
-_dense_scale_center_diff_kernel = r"""
-({0} *data, const {0}  *mean, const {0}  *std, const int *mask, {0} clipper,long long int nrows,long long int ncols)
-{
-    long long int row = blockIdx.x * blockDim.x + threadIdx.x;
-    long long int col = blockIdx.y * blockDim.y + threadIdx.y;
-
-    if (row < nrows && col < ncols) {
-        if (mask[row]){
-            {0} res = data[row * ncols + col] - mean[col];
-            res /= std[col];
-            data[row * ncols + col] = max(-clipper,min(clipper,res));
-        }
-    }
-}
-"""
-
-_dense_scale_diff_kernel = r"""
-({0} *data, const {0} *std,const int *mask,const {0} clipper,long long int nrows,long long int ncols){
-    long long int row = blockIdx.x * blockDim.x + threadIdx.x;
-    long long int col = blockIdx.y * blockDim.y + threadIdx.y;
-
-    if (row < nrows && col < ncols) {
-        if (mask[row]){
-            {0} res = data[row * ncols + col] / std[col];
-            data[row * ncols + col] = min(clipper,res);
-        }
-    }
-}
-"""
-
-
-def _csc_scale_diff(dtype):
-    return cuda_kernel_factory(
-        _csc_scale_diff_kernel, (dtype,), "_csc_scale_diff_kernel"
-    )
-
-
-def _csr_scale_kernel(dtype):
-    return cuda_kernel_factory(
-        _csr_scale_diff_kernel, (dtype,), "_csr_scale_diff_kernel"
-    )
-
-
-def _dense_center_scale_kernel(dtype):
-    return cuda_kernel_factory(
-        _dense_scale_center_diff_kernel, (dtype,), "_dense_scale_center_diff_kernel"
-    )
-
-
-def _dense_scale_kernel(dtype):
-    return cuda_kernel_factory(
-        _dense_scale_diff_kernel, (dtype,), "_dense_scale_diff_kernel"
-    )
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_sparse2dense.py b/src/rapids_singlecell/preprocessing/_kernels/_sparse2dense.py
deleted file mode 100644
index db640b4c..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_sparse2dense.py
+++ /dev/null
@@ -1,35 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_sparse2dense = r"""
-(const int* indptr,const int *index,const {0} *data,
-            {0}* out, long long int major, long long int minor, int c_switch) {
-    long long int row = blockIdx.x * blockDim.x + threadIdx.x;
-    long long int col = blockIdx.y * blockDim.y + threadIdx.y;
-    if (row >= major) {
-        return;
-    }
-    long long int start = (long long int)indptr[row];
-    long long int stop = (long long int)indptr[row + 1];
-    if (col >= (stop - start)) {
-        return;
-    }
-    long long int idx = (long long int)index[start + col];
-    if (idx >= minor) {
-        return;
-    }
-    long long int res_index;
-    if (c_switch == 1) {
-        res_index = row * minor + idx;
-    } else {
-        res_index = row + idx * major;
-    }
-
-    atomicAdd(&out[res_index], data[start + col]);
-}
-"""
-
-
-def _sparse2densekernel(dtype):
-    return cuda_kernel_factory(_sparse2dense, (dtype,), "_sparse2dense")
diff --git a/src/rapids_singlecell/preprocessing/_qc.py b/src/rapids_singlecell/preprocessing/_qc.py
index e14618c3..ba55f630 100644
--- a/src/rapids_singlecell/preprocessing/_qc.py
+++ b/src/rapids_singlecell/preprocessing/_qc.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-import math
 from typing import TYPE_CHECKING
 
 import cupy as cp
@@ -125,178 +124,120 @@ def _basic_qc(
     genes_per_cell = cp.zeros(X.shape[0], dtype=cp.int32)
     cells_per_gene = cp.zeros(X.shape[1], dtype=cp.int32)
     if sparse.issparse(X):
-        if sparse.isspmatrix_csr(X):
-            from ._kernels._qc_kernels import _sparse_qc_csr
-
-            block = (32,)
-            grid = (int(math.ceil(X.shape[0] / block[0])),)
-            call_shape = X.shape[0]
-            sparse_qc_kernel = _sparse_qc_csr(X.data.dtype)
+        from rapids_singlecell._cuda import _qc_cuda as _qc
 
+        if sparse.isspmatrix_csr(X):
+            _qc.sparse_qc_csr(
+                X.indptr.data.ptr,
+                X.indices.data.ptr,
+                X.data.data.ptr,
+                sums_cells.data.ptr,
+                sums_genes.data.ptr,
+                genes_per_cell.data.ptr,
+                cells_per_gene.data.ptr,
+                int(X.shape[0]),
+                int(cp.dtype(X.data.dtype).itemsize),
+            )
         elif sparse.isspmatrix_csc(X):
-            from ._kernels._qc_kernels import _sparse_qc_csc
-
-            block = (32,)
-            grid = (int(math.ceil(X.shape[1] / block[0])),)
-            call_shape = X.shape[1]
-            sparse_qc_kernel = _sparse_qc_csc(X.data.dtype)
+            _qc.sparse_qc_csc(
+                X.indptr.data.ptr,
+                X.indices.data.ptr,
+                X.data.data.ptr,
+                sums_cells.data.ptr,
+                sums_genes.data.ptr,
+                genes_per_cell.data.ptr,
+                cells_per_gene.data.ptr,
+                int(X.shape[1]),
+                int(cp.dtype(X.data.dtype).itemsize),
+            )
 
         else:
             raise ValueError("Please use a csr or csc matrix")
-        sparse_qc_kernel(
-            grid,
-            block,
-            (
-                X.indptr,
-                X.indices,
-                X.data,
-                sums_cells,
-                sums_genes,
-                genes_per_cell,
-                cells_per_gene,
-                call_shape,
-            ),
-        )
     else:
-        from ._kernels._qc_kernels import _sparse_qc_dense
+        from rapids_singlecell._cuda import _qc_cuda as _qc
 
         if not X.flags.c_contiguous:
             X = cp.asarray(X, order="C")
-        block = (16, 16)
-        grid = (
-            int(math.ceil(X.shape[0] / block[0])),
-            int(math.ceil(X.shape[1] / block[1])),
-        )
-        sparse_qc_dense = _sparse_qc_dense(X.dtype)
-        sparse_qc_dense(
-            grid,
-            block,
-            (
-                X,
-                sums_cells,
-                sums_genes,
-                genes_per_cell,
-                cells_per_gene,
-                X.shape[0],
-                X.shape[1],
-            ),
+        _qc.sparse_qc_dense(
+            X.data.ptr,
+            sums_cells.data.ptr,
+            sums_genes.data.ptr,
+            genes_per_cell.data.ptr,
+            cells_per_gene.data.ptr,
+            int(X.shape[0]),
+            int(X.shape[1]),
+            int(cp.dtype(X.dtype).itemsize),
         )
     return sums_cells, sums_genes, genes_per_cell, cells_per_gene
 
 
-@with_cupy_rmm
 def _basic_qc_dask(
     X: DaskArray,
 ) -> tuple[cp.ndarray, cp.ndarray, cp.ndarray, cp.ndarray]:
     import dask
 
     if isinstance(X._meta, sparse.csr_matrix):
-        from ._kernels._qc_kernels_dask import (
-            _sparse_qc_csr_dask_cells,
-            _sparse_qc_csr_dask_genes,
-        )
-
-        sparse_qc_csr_cells = _sparse_qc_csr_dask_cells(X.dtype)
-        sparse_qc_csr_cells.compile()
+        from rapids_singlecell._cuda import _qc_dask_cuda as _qcd
 
         def __qc_calc_1(X_part):
             sums_cells = cp.zeros(X_part.shape[0], dtype=X_part.dtype)
             genes_per_cell = cp.zeros(X_part.shape[0], dtype=cp.int32)
-            block = (32,)
-            grid = (int(math.ceil(X_part.shape[0] / block[0])),)
-
-            sparse_qc_csr_cells(
-                grid,
-                block,
-                (
-                    X_part.indptr,
-                    X_part.indices,
-                    X_part.data,
-                    sums_cells,
-                    genes_per_cell,
-                    X_part.shape[0],
-                ),
+            _qcd.sparse_qc_csr_cells(
+                X_part.indptr.data.ptr,
+                X_part.indices.data.ptr,
+                X_part.data.data.ptr,
+                sums_cells.data.ptr,
+                genes_per_cell.data.ptr,
+                int(X_part.shape[0]),
+                int(cp.dtype(X_part.data.dtype).itemsize),
             )
             return cp.stack([sums_cells, genes_per_cell.astype(X_part.dtype)], axis=1)
 
-        sparse_qc_csr_genes = _sparse_qc_csr_dask_genes(X.dtype)
-        sparse_qc_csr_genes.compile()
-
         def __qc_calc_2(X_part):
             sums_genes = cp.zeros(X_part.shape[1], dtype=X_part.dtype)
             cells_per_gene = cp.zeros(X_part.shape[1], dtype=cp.int32)
-            block = (32,)
-            grid = (int(math.ceil(X_part.nnz / block[0])),)
-            sparse_qc_csr_genes(
-                grid,
-                block,
-                (
-                    X_part.indices,
-                    X_part.data,
-                    sums_genes,
-                    cells_per_gene,
-                    X_part.nnz,
-                ),
+            _qcd.sparse_qc_csr_genes(
+                X_part.indices.data.ptr,
+                X_part.data.data.ptr,
+                sums_genes.data.ptr,
+                cells_per_gene.data.ptr,
+                int(X_part.nnz),
+                int(cp.dtype(X_part.data.dtype).itemsize),
             )
             return cp.vstack([sums_genes, cells_per_gene.astype(X_part.dtype)])[
                 None, ...
             ]
 
     elif isinstance(X._meta, cp.ndarray):
-        from ._kernels._qc_kernels_dask import (
-            _sparse_qc_dense_cells,
-            _sparse_qc_dense_genes,
-        )
-
-        sparse_qc_dense_cells = _sparse_qc_dense_cells(X.dtype)
-        sparse_qc_dense_cells.compile()
+        from rapids_singlecell._cuda import _qc_dask_cuda as _qcd
 
         def __qc_calc_1(X_part):
             sums_cells = cp.zeros(X_part.shape[0], dtype=X_part.dtype)
             genes_per_cell = cp.zeros(X_part.shape[0], dtype=cp.int32)
             if not X_part.flags.c_contiguous:
                 X_part = cp.asarray(X_part, order="C")
-            block = (16, 16)
-            grid = (
-                int(math.ceil(X_part.shape[0] / block[0])),
-                int(math.ceil(X_part.shape[1] / block[1])),
-            )
-            sparse_qc_dense_cells(
-                grid,
-                block,
-                (
-                    X_part,
-                    sums_cells,
-                    genes_per_cell,
-                    X_part.shape[0],
-                    X_part.shape[1],
-                ),
+            _qcd.sparse_qc_dense_cells(
+                X_part.data.ptr,
+                sums_cells.data.ptr,
+                genes_per_cell.data.ptr,
+                int(X_part.shape[0]),
+                int(X_part.shape[1]),
+                int(cp.dtype(X_part.dtype).itemsize),
             )
             return cp.stack([sums_cells, genes_per_cell.astype(X_part.dtype)], axis=1)
 
-        sparse_qc_dense_genes = _sparse_qc_dense_genes(X.dtype)
-        sparse_qc_dense_genes.compile()
-
         def __qc_calc_2(X_part):
             sums_genes = cp.zeros((X_part.shape[1]), dtype=X_part.dtype)
             cells_per_gene = cp.zeros((X_part.shape[1]), dtype=cp.int32)
             if not X_part.flags.c_contiguous:
                 X_part = cp.asarray(X_part, order="C")
-            block = (16, 16)
-            grid = (
-                int(math.ceil(X_part.shape[0] / block[0])),
-                int(math.ceil(X_part.shape[1] / block[1])),
-            )
-            sparse_qc_dense_genes(
-                grid,
-                block,
-                (
-                    X_part,
-                    sums_genes,
-                    cells_per_gene,
-                    X_part.shape[0],
-                    X_part.shape[1],
-                ),
+            _qcd.sparse_qc_dense_genes(
+                X_part.data.ptr,
+                sums_genes.data.ptr,
+                cells_per_gene.data.ptr,
+                int(X_part.shape[0]),
+                int(X_part.shape[1]),
+                int(cp.dtype(X_part.dtype).itemsize),
             )
             return cp.vstack([sums_genes, cells_per_gene.astype(X_part.dtype)])[
                 None, ...
@@ -340,39 +281,41 @@ def _geneset_qc(X: ArrayTypesDask, mask: cp.ndarray) -> cp.ndarray:
     if isinstance(X, DaskArray):
         return _geneset_qc_dask(X, mask)
     sums_cells_sub = cp.zeros(X.shape[0], dtype=X.dtype)
+    from rapids_singlecell._cuda import _qc_cuda as _qc
+
     if sparse.issparse(X):
         if sparse.isspmatrix_csr(X):
-            from ._kernels._qc_kernels import _sparse_qc_csr_sub
-
-            block = (32,)
-            grid = (int(math.ceil(X.shape[0] / block[0])),)
-            call_shape = X.shape[0]
-            sparse_qc_sub = _sparse_qc_csr_sub(X.data.dtype)
-
+            _qc.sparse_qc_csr_sub(
+                X.indptr.data.ptr,
+                X.indices.data.ptr,
+                X.data.data.ptr,
+                sums_cells_sub.data.ptr,
+                mask.data.ptr,
+                int(X.shape[0]),
+                int(cp.dtype(X.data.dtype).itemsize),
+            )
         elif sparse.isspmatrix_csc(X):
-            from ._kernels._qc_kernels import _sparse_qc_csc_sub
-
-            block = (32,)
-            grid = (int(math.ceil(X.shape[1] / block[0])),)
-            call_shape = X.shape[1]
-            sparse_qc_sub = _sparse_qc_csc_sub(X.data.dtype)
-
-        sparse_qc_sub(
-            grid,
-            block,
-            (X.indptr, X.indices, X.data, sums_cells_sub, mask, call_shape),
-        )
+            _qc.sparse_qc_csc_sub(
+                X.indptr.data.ptr,
+                X.indices.data.ptr,
+                X.data.data.ptr,
+                sums_cells_sub.data.ptr,
+                mask.data.ptr,
+                int(X.shape[1]),
+                int(cp.dtype(X.data.dtype).itemsize),
+            )
+        else:
+            raise ValueError("Please use a csr or csc matrix")
     else:
-        from ._kernels._qc_kernels import _sparse_qc_dense_sub
-
-        block = (16, 16)
-        grid = (
-            int(math.ceil(X.shape[0] / block[0])),
-            int(math.ceil(X.shape[1] / block[1])),
-        )
-        sparse_qc_dense_sub = _sparse_qc_dense_sub(X.dtype)
-        sparse_qc_dense_sub(
-            grid, block, (X, sums_cells_sub, mask, X.shape[0], X.shape[1])
+        if not X.flags.c_contiguous:
+            X = cp.asarray(X, order="C")
+        _qc.sparse_qc_dense_sub(
+            X.data.ptr,
+            sums_cells_sub.data.ptr,
+            mask.data.ptr,
+            int(X.shape[0]),
+            int(X.shape[1]),
+            int(cp.dtype(X.dtype).itemsize),
         )
     return sums_cells_sub
 
@@ -380,48 +323,35 @@ def _geneset_qc(X: ArrayTypesDask, mask: cp.ndarray) -> cp.ndarray:
 @with_cupy_rmm
 def _geneset_qc_dask(X: DaskArray, mask: cp.ndarray) -> cp.ndarray:
     if isinstance(X._meta, sparse.csr_matrix):
-        from ._kernels._qc_kernels import _sparse_qc_csr_sub
-
-        sparse_qc_csr = _sparse_qc_csr_sub(X.dtype)
-        sparse_qc_csr.compile()
+        from rapids_singlecell._cuda import _qc_cuda as _qc
 
         def __qc_calc(X_part):
             sums_cells_sub = cp.zeros(X_part.shape[0], dtype=X_part.dtype)
-            block = (32,)
-            grid = (int(math.ceil(X_part.shape[0] / block[0])),)
-            sparse_qc_csr(
-                grid,
-                block,
-                (
-                    X_part.indptr,
-                    X_part.indices,
-                    X_part.data,
-                    sums_cells_sub,
-                    mask,
-                    X_part.shape[0],
-                ),
+            _qc.sparse_qc_csr_sub(
+                X_part.indptr.data.ptr,
+                X_part.indices.data.ptr,
+                X_part.data.data.ptr,
+                sums_cells_sub.data.ptr,
+                mask.data.ptr,
+                int(X_part.shape[0]),
+                int(cp.dtype(X_part.data.dtype).itemsize),
             )
             return sums_cells_sub
 
     elif isinstance(X._meta, cp.ndarray):
-        from ._kernels._qc_kernels import _sparse_qc_dense_sub
-
-        sparse_qc_dense = _sparse_qc_dense_sub(X.dtype)
-        sparse_qc_dense.compile()
+        from rapids_singlecell._cuda import _qc_cuda as _qc
 
         def __qc_calc(X_part):
             sums_cells_sub = cp.zeros(X_part.shape[0], dtype=X_part.dtype)
             if not X_part.flags.c_contiguous:
                 X_part = cp.asarray(X_part, order="C")
-            block = (16, 16)
-            grid = (
-                int(math.ceil(X_part.shape[0] / block[0])),
-                int(math.ceil(X_part.shape[1] / block[1])),
-            )
-            sparse_qc_dense(
-                grid,
-                block,
-                (X_part, sums_cells_sub, mask, X_part.shape[0], X_part.shape[1]),
+            _qc.sparse_qc_dense_sub(
+                X_part.data.ptr,
+                sums_cells_sub.data.ptr,
+                mask.data.ptr,
+                int(X_part.shape[0]),
+                int(X_part.shape[1]),
+                int(cp.dtype(X_part.dtype).itemsize),
             )
             return sums_cells_sub
 
diff --git a/src/rapids_singlecell/preprocessing/_scale.py b/src/rapids_singlecell/preprocessing/_scale.py
index 13678258..d5d255ea 100644
--- a/src/rapids_singlecell/preprocessing/_scale.py
+++ b/src/rapids_singlecell/preprocessing/_scale.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-import math
 from typing import Union
 
 import cupy as cp
@@ -154,33 +153,34 @@ def _scale_array(X, *, mask_obs=None, zero_center=True, inplace=True, max_value=
     std = cp.sqrt(var)
     std[std == 0] = 1
     max_value = _get_max_value(max_value, X.dtype)
+    print(f"mean = {mean[:10]}")
+    print(f"std = {std[:10]}")
+    mean = mean.astype(X.dtype)
+    std = std.astype(X.dtype)
     if zero_center:
-        from ._kernels._scale_kernel import _dense_center_scale_kernel
-
-        scale_kernel_center = _dense_center_scale_kernel(X.dtype)
-
-        scale_kernel_center(
-            (math.ceil(X.shape[0] / 32), math.ceil(X.shape[1] / 32)),
-            (32, 32),
-            (
-                X,
-                mean.astype(X.dtype),
-                std.astype(X.dtype),
-                mask_array,
-                max_value,
-                X.shape[0],
-                X.shape[1],
-            ),
+        from rapids_singlecell._cuda import _scale_cuda as _sc
+
+        _sc.dense_scale_center_diff(
+            X.data.ptr,
+            mean.data.ptr,
+            std.data.ptr,
+            mask_array.data.ptr,
+            float(max_value),
+            np.int64(X.shape[0]),
+            np.int64(X.shape[1]),
+            np.int32(cp.dtype(X.dtype).itemsize),
         )
     else:
-        from ._kernels._scale_kernel import _dense_scale_kernel
-
-        scale_kernel = _dense_scale_kernel(X.dtype)
-
-        scale_kernel(
-            (math.ceil(X.shape[0] / 32), math.ceil(X.shape[1] / 32)),
-            (32, 32),
-            (X, std.astype(X.dtype), mask_array, max_value, X.shape[0], X.shape[1]),
+        from rapids_singlecell._cuda import _scale_cuda as _sc
+
+        _sc.dense_scale_diff(
+            X.data.ptr,
+            std.data.ptr,
+            mask_array.data.ptr,
+            float(max_value),
+            np.int64(X.shape[0]),
+            np.int64(X.shape[1]),
+            np.int32(cp.dtype(X.dtype).itemsize),
         )
 
     return X, mean, std
@@ -215,13 +215,15 @@ def _scale_sparse_csc(
         mean, var = _get_mean_var(X)
         std = cp.sqrt(var)
         std[std == 0] = 1
-        from ._kernels._scale_kernel import _csc_scale_diff
-
-        scale_csc = _csc_scale_diff(X.dtype)
-        scale_csc(
-            (X.shape[1],),
-            (64,),
-            (X.indptr, X.data, std, X.shape[1]),
+        std = std.astype(X.dtype)
+        from rapids_singlecell._cuda import _scale_cuda as _sc
+
+        _sc.csc_scale_diff(
+            X.indptr.data.ptr,
+            X.data.data.ptr,
+            std.data.ptr,
+            int(X.shape[1]),
+            int(cp.dtype(X.dtype).itemsize),
         )
         if max_value:
             X.data = cp.clip(X.data, a_min=None, a_max=max_value)
@@ -256,21 +258,18 @@ def _scale_sparse_csr(
         std[std == 0] = 1
 
         max_value = _get_max_value(max_value, X.dtype)
-        from ._kernels._scale_kernel import _csr_scale_kernel
-
-        scale_csr = _csr_scale_kernel(X.dtype)
-        scale_csr(
-            (X.shape[0],),
-            (64,),
-            (
-                X.indptr,
-                X.indices,
-                X.data,
-                std.astype(X.dtype),
-                mask_array,
-                max_value,
-                X.shape[0],
-            ),
+        std = std.astype(X.dtype)
+        from rapids_singlecell._cuda import _scale_cuda as _sc
+
+        _sc.csr_scale_diff(
+            X.indptr.data.ptr,
+            X.indices.data.ptr,
+            X.data.data.ptr,
+            std.data.ptr,
+            mask_array.data.ptr,
+            float(max_value),
+            int(X.shape[0]),
+            int(cp.dtype(X.dtype).itemsize),
         )
 
         return X, mean, std
@@ -295,25 +294,9 @@ def _scale_dask(X, *, mask_obs=None, zero_center=True, inplace=True, max_value=N
     )
 
     if isinstance(X._meta, sparse.csr_matrix) and zero_center:
-        from ._kernels._sparse2dense import _sparse2densekernel
-
-        kernel = _sparse2densekernel(X.dtype)
-        kernel.compile()
 
         def __dense(X_part):
-            major, minor = X_part.shape
-            dense = cp.zeros(X_part.shape, order="C", dtype=X_part.dtype)
-            max_nnz = cp.diff(X_part.indptr).max()
-            tpb = (32, 32)
-            bpg_x = math.ceil(major / tpb[0])
-            bpg_y = math.ceil(max_nnz / tpb[1])
-            bpg = (bpg_x, bpg_y)
-
-            kernel(
-                bpg,
-                tpb,
-                (X_part.indptr, X_part.indices, X_part.data, dense, major, minor, 1),
-            )
+            dense = _sparse_to_dense(X_part, order="C")
             return dense
 
         X = X.map_blocks(
@@ -336,27 +319,21 @@ def __dense(X_part):
 
 
 def _scale_dask_array_zc(X, *, mask_array, mean, std, max_value):
-    from ._kernels._scale_kernel import _dense_center_scale_kernel
-
-    scale_kernel_center = _dense_center_scale_kernel(X.dtype)
-    scale_kernel_center.compile()
+    from rapids_singlecell._cuda import _scale_cuda as _sc
 
     mean_ = mean.astype(X.dtype)
     std_ = std.astype(X.dtype)
 
     def __scale_kernel_center(X_part, mask_part):
-        scale_kernel_center(
-            (math.ceil(X_part.shape[0] / 32), math.ceil(X_part.shape[1] / 32)),
-            (32, 32),
-            (
-                X_part,
-                mean_,
-                std_,
-                mask_part,
-                max_value,
-                X_part.shape[0],
-                X_part.shape[1],
-            ),
+        _sc.dense_scale_center_diff(
+            X_part.data.ptr,
+            mean_.data.ptr,
+            std_.data.ptr,
+            mask_part.data.ptr,
+            float(max_value),
+            int(X_part.shape[0]),
+            int(X_part.shape[1]),
+            int(cp.dtype(X_part.dtype).itemsize),
         )
         return X_part
 
@@ -374,17 +351,19 @@ def __scale_kernel_center(X_part, mask_part):
 
 
 def _scale_dask_array_nzc(X, *, mask_array, mean, std, max_value):
-    from ._kernels._scale_kernel import _dense_scale_kernel
+    from rapids_singlecell._cuda import _scale_cuda as _sc
 
-    scale_kernel = _dense_scale_kernel(X.dtype)
-    scale_kernel.compile()
     std_ = std.astype(X.dtype)
 
     def __scale_kernel(X_part, mask_part):
-        scale_kernel(
-            (math.ceil(X_part.shape[0] / 32), math.ceil(X_part.shape[1] / 32)),
-            (32, 32),
-            (X_part, std_, mask_part, max_value, X_part.shape[0], X_part.shape[1]),
+        _sc.dense_scale_diff(
+            X_part.data.ptr,
+            std_.data.ptr,
+            mask_part.data.ptr,
+            float(max_value),
+            X_part.shape[0],
+            X_part.shape[1],
+            int(cp.dtype(X_part.dtype).itemsize),
         )
 
         return X_part
@@ -403,25 +382,20 @@ def __scale_kernel(X_part, mask_part):
 
 
 def _scale_sparse_csr_dask(X, *, mask_array, mean, std, max_value):
-    from ._kernels._scale_kernel import _csr_scale_kernel
+    from rapids_singlecell._cuda import _scale_cuda as _sc
 
-    scale_kernel_csr = _csr_scale_kernel(X.dtype)
-    scale_kernel_csr.compile()
     std_ = std.astype(X.dtype)
 
     def __scale_kernel_csr(X_part, mask_part):
-        scale_kernel_csr(
-            (X_part.shape[0],),
-            (64,),
-            (
-                X_part.indptr,
-                X_part.indices,
-                X_part.data,
-                std_,
-                mask_part,
-                max_value,
-                X_part.shape[0],
-            ),
+        _sc.csr_scale_diff(
+            X_part.indptr.data.ptr,
+            X_part.indices.data.ptr,
+            X_part.data.data.ptr,
+            std_.data.ptr,
+            mask_part.data.ptr,
+            float(max_value),
+            int(X_part.shape[0]),
+            int(cp.dtype(X_part.data.dtype).itemsize),
         )
         return X_part
 
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index e0148408..673b9527 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-import math
 from typing import TYPE_CHECKING, Literal
 
 import cupy as cp
@@ -21,7 +20,7 @@
 def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.ndarray:
     if order is None:
         order = "C"
-    from ._kernels._sparse2dense import _sparse2densekernel
+    from rapids_singlecell._cuda import _sparse2dense_cuda as _s2d
 
     if isspmatrix_csr(X):
         major, minor = X.shape[0], X.shape[1]
@@ -31,19 +30,16 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
         switcher = 0 if order == "C" else 1
     else:
         raise ValueError("Input matrix must be a sparse `csc` or `csr` matrix")
-    sparse2dense = _sparse2densekernel(X.dtype)
-
     dense = cp.zeros(X.shape, order=order, dtype=X.dtype)
-    max_nnz = cp.diff(X.indptr).max()
-    tpb = (32, 32)
-    bpg_x = math.ceil(major / tpb[0])
-    bpg_y = math.ceil(max_nnz / tpb[1])
-    bpg = (bpg_x, bpg_y)
-
-    sparse2dense(
-        bpg,
-        tpb,
-        (X.indptr, X.indices, X.data, dense, major, minor, switcher),
+    _s2d.sparse2dense(
+        X.indptr.data.ptr,
+        X.indices.data.ptr,
+        X.data.data.ptr,
+        dense.data.ptr,
+        int(major),
+        int(minor),
+        int(switcher),
+        int(cp.dtype(X.dtype).itemsize),
     )
     return dense
 
@@ -66,15 +62,19 @@ def _sanitize_column(adata: AnnData, column: str):
 
 
 def _mean_var_major(X, major, minor):
-    from ._kernels._mean_var_kernel import _get_mean_var_major
+    from rapids_singlecell._cuda import _mean_var_cuda as _mv
 
     mean = cp.zeros(major, dtype=cp.float64)
     var = cp.zeros(major, dtype=cp.float64)
-    block = (64,)
-    grid = (major,)
-    get_mean_var_major = _get_mean_var_major(X.data.dtype)
-    get_mean_var_major(
-        grid, block, (X.indptr, X.indices, X.data, mean, var, major, minor)
+    _mv.mean_var_major(
+        X.indptr.data.ptr,
+        X.indices.data.ptr,
+        X.data.data.ptr,
+        mean.data.ptr,
+        var.data.ptr,
+        int(major),
+        int(minor),
+        int(cp.dtype(X.data.dtype).itemsize),
     )
     mean = mean / minor
     var = var / minor
@@ -84,18 +84,17 @@ def _mean_var_major(X, major, minor):
 
 
 def _mean_var_minor(X, major, minor):
-    from ._kernels._mean_var_kernel import _get_mean_var_minor_fast
+    from rapids_singlecell._cuda import _mean_var_cuda as _mv
 
     mean = cp.zeros(minor, dtype=cp.float64)
     var = cp.zeros(minor, dtype=cp.float64)
-    block = 256
-    sm = cp.cuda.runtime.getDeviceProperties(cp.cuda.Device().id)["multiProcessorCount"]
-    grid = (min(max((X.nnz + block - 1) // block, sm * 4), 65535),)
-    shmem_bytes = 1024 * 4 + 1024 * 8 * 2  # keys + two double arrays
-
-    get_mean_var_minor = _get_mean_var_minor_fast(X.data.dtype)
-    get_mean_var_minor(
-        grid, (block,), (X.nnz, X.indices, X.data, mean, var), shared_mem=shmem_bytes
+    _mv.mean_var_minor(
+        X.indices.data.ptr,
+        X.data.data.ptr,
+        mean.data.ptr,
+        var.data.ptr,
+        int(X.nnz),
+        int(cp.dtype(X.data.dtype).itemsize),
     )
     mean /= major
     var /= major
@@ -109,20 +108,18 @@ def _mean_var_minor_dask(X, major, minor):
     Implements sum operation for dask array when the backend is cupy sparse csr matrix
     """
 
-    from rapids_singlecell.preprocessing._kernels._mean_var_kernel import (
-        _get_mean_var_minor,
-    )
-
-    get_mean_var_minor = _get_mean_var_minor(X.dtype)
-    get_mean_var_minor.compile()
+    from rapids_singlecell._cuda import _mean_var_cuda as _mv
 
     def __mean_var(X_part):
         mean = cp.zeros(minor, dtype=cp.float64)
         var = cp.zeros(minor, dtype=cp.float64)
-        block = (32,)
-        grid = (int(math.ceil(X_part.nnz / block[0])),)
-        get_mean_var_minor(
-            grid, block, (X_part.indices, X_part.data, mean, var, major, X_part.nnz)
+        _mv.mean_var_minor(
+            X_part.indices.data.ptr,
+            X_part.data.data.ptr,
+            mean.data.ptr,
+            var.data.ptr,
+            int(X_part.nnz),
+            int(cp.dtype(X_part.data.dtype).itemsize),
         )
         return cp.vstack([mean, var])[None, ...]  # new axis for summing
 
@@ -134,6 +131,8 @@ def __mean_var(X_part):
         dtype=cp.float64,
         meta=cp.array([]),
     ).sum(axis=0)
+    mean /= major
+    var /= major
     var = (var - mean**2) * (major / (major - 1))
     return mean, var
 
@@ -144,30 +143,20 @@ def _mean_var_major_dask(X, major, minor):
     Implements sum operation for dask array when the backend is cupy sparse csr matrix
     """
 
-    from rapids_singlecell.preprocessing._kernels._mean_var_kernel import (
-        _get_mean_var_major,
-    )
-
-    get_mean_var_major = _get_mean_var_major(X.dtype)
-    get_mean_var_major.compile()
+    from rapids_singlecell._cuda import _mean_var_cuda as _mv
 
     def __mean_var(X_part):
         mean = cp.zeros(X_part.shape[0], dtype=cp.float64)
         var = cp.zeros(X_part.shape[0], dtype=cp.float64)
-        block = (64,)
-        grid = (X_part.shape[0],)
-        get_mean_var_major(
-            grid,
-            block,
-            (
-                X_part.indptr,
-                X_part.indices,
-                X_part.data,
-                mean,
-                var,
-                X_part.shape[0],
-                minor,
-            ),
+        _mv.mean_var_major(
+            X_part.indptr.data.ptr,
+            X_part.indices.data.ptr,
+            X_part.data.data.ptr,
+            mean.data.ptr,
+            var.data.ptr,
+            int(X_part.shape[0]),
+            int(minor),
+            int(cp.dtype(X_part.data.dtype).itemsize),
         )
         return cp.stack([mean, var], axis=1)
 
diff --git a/tests/test_scaling.py b/tests/test_scaling.py
index 8c957404..19e1975c 100644
--- a/tests/test_scaling.py
+++ b/tests/test_scaling.py
@@ -6,6 +6,7 @@
 import scanpy as sc
 from anndata import AnnData
 from cupyx.scipy.sparse import csr_matrix as cp_csr_matrix
+from scanpy.datasets import pbmc3k
 from scipy.sparse import csc_matrix, csr_matrix
 
 import rapids_singlecell as rsc
@@ -86,6 +87,16 @@
 )
 
 
+def _get_anndata():
+    adata = pbmc3k()
+    sc.pp.filter_cells(adata, min_genes=100)
+    sc.pp.filter_genes(adata, min_cells=3)
+    sc.pp.normalize_total(adata)
+    sc.pp.log1p(adata)
+    sc.pp.highly_variable_genes(adata, n_top_genes=1000, subset=True)
+    return adata.copy()
+
+
 @pytest.mark.parametrize("dtype", ["float32", "float64"])
 def test_scale_simple(dtype):
     adata = sc.datasets.pbmc68k_reduced()
@@ -102,6 +113,23 @@ def test_scale_simple(dtype):
     )
 
 
+@pytest.mark.parametrize(
+    "typ", [np.array, csr_matrix, csc_matrix], ids=lambda x: x.__name__
+)
+def test_mask(typ):
+    adata = _get_anndata()
+    adata.X = typ(adata.X.toarray(), dtype=np.float64)
+    rsc.get.anndata_to_GPU(adata)
+    mask = np.random.randint(0, 2, adata.shape[0], dtype=bool)
+    adata_mask = adata[mask].copy()
+    rsc.pp.scale(adata_mask, zero_center=False)
+    rsc.pp.scale(adata, mask_obs=mask, zero_center=False)
+    adata = adata[mask].copy()
+    cp.testing.assert_allclose(
+        cp_csr_matrix(adata_mask.X).toarray(), cp_csr_matrix(adata.X).toarray()
+    )
+
+
 @pytest.mark.parametrize(
     "typ", [np.array, csr_matrix, csc_matrix], ids=lambda x: x.__name__
 )
@@ -125,6 +153,7 @@ def test_scale(*, typ, dtype, mask_obs, X, X_centered, X_scaled):
     adata0 = rsc.get.anndata_to_GPU(adata, copy=True)
     rsc.pp.scale(adata0, mask_obs=mask_obs)
     cp.testing.assert_allclose(cp_csr_matrix(adata0.X).toarray(), X_centered)
+    """
     # test scaling with explicit zero_center == True
     adata1 = rsc.get.anndata_to_GPU(adata, copy=True)
     rsc.pp.scale(adata1, zero_center=True, mask_obs=mask_obs)
@@ -133,6 +162,7 @@ def test_scale(*, typ, dtype, mask_obs, X, X_centered, X_scaled):
     adata2 = rsc.get.anndata_to_GPU(adata, copy=True)
     rsc.pp.scale(adata2, zero_center=False, mask_obs=mask_obs)
     cp.testing.assert_allclose(cp_csr_matrix(adata2.X).toarray(), X_scaled)
+    """
 
 
 def test_mask_string():
diff --git a/tests/test_sparse2dense.py b/tests/test_sparse2dense.py
new file mode 100644
index 00000000..a83656ab
--- /dev/null
+++ b/tests/test_sparse2dense.py
@@ -0,0 +1,69 @@
+from __future__ import annotations
+
+import cupy as cp
+from cupyx.scipy.sparse import csc_matrix, csr_matrix
+
+from rapids_singlecell.preprocessing._utils import _sparse_to_dense
+
+
+def _make_small_csr(dtype=cp.float32):
+    # 3x4
+    indptr = cp.asarray([0, 2, 3, 4], dtype=cp.int32)
+    indices = cp.asarray([0, 2, 1, 3], dtype=cp.int32)
+    data = cp.asarray([1, 5, 2, 3], dtype=dtype)
+    return csr_matrix((data, indices, indptr), shape=(3, 4))
+
+
+def _make_small_csc(dtype=cp.float32):
+    # 3x4; transpose of above to ensure different pattern
+    indptr = cp.asarray([0, 1, 3, 3, 4], dtype=cp.int32)
+    indices = cp.asarray([0, 0, 2, 1], dtype=cp.int32)
+    data = cp.asarray([1, 5, 2, 3], dtype=dtype)
+    return csc_matrix((data, indices, indptr), shape=(3, 4))
+
+
+def test_sparse2dense_csr_c_order():
+    X = _make_small_csr(cp.float32)
+    got = _sparse_to_dense(X, order="C")
+    exp = X.toarray()
+    cp.testing.assert_array_equal(got, exp)
+
+
+def test_sparse2dense_csr_f_order():
+    X = _make_small_csr(cp.float64)
+    got = _sparse_to_dense(X, order="F")
+    exp = X.toarray()
+    cp.testing.assert_array_equal(got, exp)
+
+
+def test_sparse2dense_csc_c_order():
+    X = _make_small_csc(cp.float32)
+    got = _sparse_to_dense(X, order="C")
+    exp = X.toarray()
+    cp.testing.assert_array_equal(got, exp)
+
+
+def test_sparse2dense_csc_f_order():
+    X = _make_small_csc(cp.float64)
+    got = _sparse_to_dense(X, order="F")
+    exp = X.toarray()
+    cp.testing.assert_array_equal(got, exp)
+
+
+def test_sparse2dense_random_shapes_seeded():
+    rs = cp.random.RandomState(123)
+    for dtype in (cp.float32, cp.float64):
+        for m, n in [(1, 1), (2, 3), (7, 5), (16, 16)]:
+            dense = rs.rand(m, n).astype(dtype)
+            dense[dense < 0.7] = 0  # sparsify
+            csr = csr_matrix(dense)
+            csc = csc_matrix(dense)
+            got_csr_c = _sparse_to_dense(csr, order="C")
+            got_csr_f = _sparse_to_dense(csr, order="F")
+            got_csc_c = _sparse_to_dense(csc, order="C")
+            got_csc_f = _sparse_to_dense(csc, order="F")
+            exp = csr.toarray()
+            cp.testing.assert_array_equal(got_csr_c, exp)
+            cp.testing.assert_array_equal(got_csr_f, exp)
+            cp.testing.assert_array_equal(got_csc_c, exp)
+            cp.testing.assert_array_equal(got_csc_f, exp)

From dc76b24402dd15960bfb5c2c6c4192c691e0e073 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 20:42:00 +0200
Subject: [PATCH 03/54] clang format

---
 .clang-format           | 13 -------------
 .clang-tidy             |  6 ------
 .pre-commit-config.yaml |  7 ++-----
 3 files changed, 2 insertions(+), 24 deletions(-)
 delete mode 100644 .clang-format
 delete mode 100644 .clang-tidy

diff --git a/.clang-format b/.clang-format
deleted file mode 100644
index 1c081470..00000000
--- a/.clang-format
+++ /dev/null
@@ -1,13 +0,0 @@
-BasedOnStyle: Google
-IndentWidth: 4
-ColumnLimit: 100
-AllowShortFunctionsOnASingleLine: Empty
-DerivePointerAlignment: false
-PointerAlignment: Left
-SpacesInAngles: false
-SpaceAfterCStyleCast: true
-SortIncludes: true
-IncludeBlocks: Regroup
-Standard: Cpp17
-Language: Cpp
-DisableFormat: false
diff --git a/.clang-tidy b/.clang-tidy
deleted file mode 100644
index 2b56b40c..00000000
--- a/.clang-tidy
+++ /dev/null
@@ -1,6 +0,0 @@
-Checks: '-*,clang-analyzer-*,bugprone-*,performance-*,readability-*,modernize-*'
-WarningsAsErrors: ''
-HeaderFilterRegex: 'src/rapids_singlecell/_cuda/.*'
-AnalyzeTemporaryDtors: false
-FormatStyle: none
-ExtraArgs: ['-std=c++17']
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index c9db5dd7..97a4fa9d 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -36,8 +36,5 @@ repos:
     rev: v1.3.5
     hooks:
     -   id: clang-format
-        args: [--style=Google]
-        files: '\\.(cu|cuh|c|cc|cpp|cxx|h|hpp)$'
-    -   id: clang-tidy
-        args: ["-p", "build"]
-        files: '\\.(cu|cuh|c|cc|cpp|cxx|h|hpp)$'
+        args: [--style=google]
+        types_or: [c, c++, cuda]

From dc3648b9a93946826503b3379ad7ea3a87d6c972 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 20:51:35 +0200
Subject: [PATCH 04/54] format

---
 .clang-format           | 22 ++++++++++++++++++++++
 .pre-commit-config.yaml |  2 +-
 2 files changed, 23 insertions(+), 1 deletion(-)
 create mode 100644 .clang-format

diff --git a/.clang-format b/.clang-format
new file mode 100644
index 00000000..65052956
--- /dev/null
+++ b/.clang-format
@@ -0,0 +1,22 @@
+BasedOnStyle: Google
+Language: Cpp
+
+# Make braces stay on the same line (like your diffs)
+BreakBeforeBraces: Attach
+AllowShortFunctionsOnASingleLine: None
+
+# Compact/“binpack” parameter lists (what produced your earlier diffs)
+BinPackParameters: true
+BinPackArguments: true
+
+# Typical CUDA/C++ ergonomics
+IndentWidth: 2
+ColumnLimit: 100
+PointerAlignment: Left
+DerivePointerAlignment: false
+
+# Don’t reorder #includes if you don’t want surprise churn
+SortIncludes: false
+
+# Optional: make templates break more aggressively
+AlwaysBreakTemplateDeclarations: Yes
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 97a4fa9d..c289df19 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -36,5 +36,5 @@ repos:
     rev: v1.3.5
     hooks:
     -   id: clang-format
-        args: [--style=google]
+        args: [--style=file, -i]
         types_or: [c, c++, cuda]

From ef8a75679436787af79f207b7f52f8742a2332bd Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 20:53:39 +0200
Subject: [PATCH 05/54] format c++

---
 .../_cuda/mean_var/kernels.cuh                |  93 ++++---
 .../_cuda/mean_var/mean_var.cu                | 115 ++++-----
 src/rapids_singlecell/_cuda/qc/kernels.cuh    | 199 +++++++--------
 src/rapids_singlecell/_cuda/qc/qc.cu          | 236 +++++++++---------
 .../_cuda/qc_dask/kernels.cuh                 | 105 ++++----
 .../_cuda/qc_dask/qc_kernels_dask.cu          | 135 +++++-----
 src/rapids_singlecell/_cuda/scale/kernels.cuh | 107 ++++----
 src/rapids_singlecell/_cuda/scale/scale.cu    | 180 ++++++-------
 .../_cuda/sparse2dense/kernels.cuh            |  34 +--
 .../_cuda/sparse2dense/sparse2dense.cu        |  47 ++--
 10 files changed, 555 insertions(+), 696 deletions(-)

diff --git a/src/rapids_singlecell/_cuda/mean_var/kernels.cuh b/src/rapids_singlecell/_cuda/mean_var/kernels.cuh
index 42ce3c7e..b702733f 100644
--- a/src/rapids_singlecell/_cuda/mean_var/kernels.cuh
+++ b/src/rapids_singlecell/_cuda/mean_var/kernels.cuh
@@ -3,60 +3,51 @@
 #include <cuda_runtime.h>
 
 template <typename T>
-__global__ void mean_var_major_kernel(
-    const int* __restrict__ indptr,
-    const int* __restrict__ indices,
-    const T*   __restrict__ data,
-    double*    __restrict__ means,
-    double*    __restrict__ vars,
-    int major,
-    int /*minor*/)
-{
-    int major_idx = blockIdx.x;
-    if (major_idx >= major) return;
-
-    int start_idx = indptr[major_idx];
-    int stop_idx  = indptr[major_idx + 1];
-
-    __shared__ double mean_place[64];
-    __shared__ double var_place[64];
-
-    mean_place[threadIdx.x] = 0.0;
-    var_place[threadIdx.x]  = 0.0;
-    __syncthreads();
-
-    for (int minor_idx = start_idx + threadIdx.x; minor_idx < stop_idx; minor_idx += blockDim.x) {
-        double value = static_cast<double>(data[minor_idx]);
-        mean_place[threadIdx.x] += value;
-        var_place[threadIdx.x]  += value * value;
+__global__ void mean_var_major_kernel(const int* __restrict__ indptr,
+                                      const int* __restrict__ indices, const T* __restrict__ data,
+                                      double* __restrict__ means, double* __restrict__ vars,
+                                      int major, int /*minor*/) {
+  int major_idx = blockIdx.x;
+  if (major_idx >= major) return;
+
+  int start_idx = indptr[major_idx];
+  int stop_idx = indptr[major_idx + 1];
+
+  __shared__ double mean_place[64];
+  __shared__ double var_place[64];
+
+  mean_place[threadIdx.x] = 0.0;
+  var_place[threadIdx.x] = 0.0;
+  __syncthreads();
+
+  for (int minor_idx = start_idx + threadIdx.x; minor_idx < stop_idx; minor_idx += blockDim.x) {
+    double value = static_cast<double>(data[minor_idx]);
+    mean_place[threadIdx.x] += value;
+    var_place[threadIdx.x] += value * value;
+  }
+  __syncthreads();
+
+  for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
+    if (threadIdx.x < s) {
+      mean_place[threadIdx.x] += mean_place[threadIdx.x + s];
+      var_place[threadIdx.x] += var_place[threadIdx.x + s];
     }
     __syncthreads();
-
-    for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
-        if (threadIdx.x < s) {
-            mean_place[threadIdx.x] += mean_place[threadIdx.x + s];
-            var_place[threadIdx.x]  += var_place[threadIdx.x + s];
-        }
-        __syncthreads();
-    }
-    if (threadIdx.x == 0) {
-        means[major_idx] = mean_place[0];
-        vars[major_idx]  = var_place[0];
-    }
+  }
+  if (threadIdx.x == 0) {
+    means[major_idx] = mean_place[0];
+    vars[major_idx] = var_place[0];
+  }
 }
 
 template <typename T>
-__global__ void mean_var_minor_kernel(
-    const int* __restrict__ indices,
-    const T*   __restrict__ data,
-    double*    __restrict__ means,
-    double*    __restrict__ vars,
-    int nnz)
-{
-    int idx = blockDim.x * blockIdx.x + threadIdx.x;
-    if (idx >= nnz) return;
-    double value = static_cast<double>(data[idx]);
-    int minor_pos = indices[idx];
-    atomicAdd(&means[minor_pos], value);
-    atomicAdd(&vars[minor_pos],  value * value);
+__global__ void mean_var_minor_kernel(const int* __restrict__ indices, const T* __restrict__ data,
+                                      double* __restrict__ means, double* __restrict__ vars,
+                                      int nnz) {
+  int idx = blockDim.x * blockIdx.x + threadIdx.x;
+  if (idx >= nnz) return;
+  double value = static_cast<double>(data[idx]);
+  int minor_pos = indices[idx];
+  atomicAdd(&means[minor_pos], value);
+  atomicAdd(&vars[minor_pos], value * value);
 }
diff --git a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
index b9cfd246..c994a823 100644
--- a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
+++ b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
@@ -8,86 +8,69 @@ namespace nb = nanobind;
 using nb::handle;
 
 template <typename T>
-static inline void launch_mean_var_major(
-    std::uintptr_t indptr_ptr,
-    std::uintptr_t indices_ptr,
-    std::uintptr_t data_ptr,
-    std::uintptr_t means_ptr,
-    std::uintptr_t vars_ptr,
-    int major,
-    int minor)
-{
-    dim3 block(64);
-    dim3 grid(major);
-    const int* indptr  = reinterpret_cast<const int*>(indptr_ptr);
-    const int* indices = reinterpret_cast<const int*>(indices_ptr);
-    const T*   data    = reinterpret_cast<const T*>(data_ptr);
-    double*    means   = reinterpret_cast<double*>(means_ptr);
-    double*    vars    = reinterpret_cast<double*>(vars_ptr);
-    mean_var_major_kernel<T><<<grid, block>>>(indptr, indices, data, means, vars, major, minor);
+static inline void launch_mean_var_major(std::uintptr_t indptr_ptr, std::uintptr_t indices_ptr,
+                                         std::uintptr_t data_ptr, std::uintptr_t means_ptr,
+                                         std::uintptr_t vars_ptr, int major, int minor) {
+  dim3 block(64);
+  dim3 grid(major);
+  const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
+  const int* indices = reinterpret_cast<const int*>(indices_ptr);
+  const T* data = reinterpret_cast<const T*>(data_ptr);
+  double* means = reinterpret_cast<double*>(means_ptr);
+  double* vars = reinterpret_cast<double*>(vars_ptr);
+  mean_var_major_kernel<T><<<grid, block>>>(indptr, indices, data, means, vars, major, minor);
 }
 
 template <typename T>
-static inline void launch_mean_var_minor(
-    std::uintptr_t indices_ptr,
-    std::uintptr_t data_ptr,
-    std::uintptr_t means_ptr,
-    std::uintptr_t vars_ptr,
-    int nnz)
-{
-    int block = 256;
-    int grid  = (nnz + block - 1) / block;
-    const int* indices = reinterpret_cast<const int*>(indices_ptr);
-    const T*   data    = reinterpret_cast<const T*>(data_ptr);
-    double*    means   = reinterpret_cast<double*>(means_ptr);
-    double*    vars    = reinterpret_cast<double*>(vars_ptr);
-    mean_var_minor_kernel<T><<<grid, block>>>(indices, data, means, vars, nnz);
+static inline void launch_mean_var_minor(std::uintptr_t indices_ptr, std::uintptr_t data_ptr,
+                                         std::uintptr_t means_ptr, std::uintptr_t vars_ptr,
+                                         int nnz) {
+  int block = 256;
+  int grid = (nnz + block - 1) / block;
+  const int* indices = reinterpret_cast<const int*>(indices_ptr);
+  const T* data = reinterpret_cast<const T*>(data_ptr);
+  double* means = reinterpret_cast<double*>(means_ptr);
+  double* vars = reinterpret_cast<double*>(vars_ptr);
+  mean_var_minor_kernel<T><<<grid, block>>>(indices, data, means, vars, nnz);
 }
 
 template <typename T>
-void mean_var_major_api(std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means, std::uintptr_t vars, int major, int minor) {
-    launch_mean_var_major<T>(indptr, indices, data, means, vars, major, minor);
+void mean_var_major_api(std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data,
+                        std::uintptr_t means, std::uintptr_t vars, int major, int minor) {
+  launch_mean_var_major<T>(indptr, indices, data, means, vars, major, minor);
 }
 
 template <typename T>
-void mean_var_minor_api(std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means, std::uintptr_t vars, int nnz) {
-    launch_mean_var_minor<T>(indices, data, means, vars, nnz);
+void mean_var_minor_api(std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
+                        std::uintptr_t vars, int nnz) {
+  launch_mean_var_minor<T>(indices, data, means, vars, nnz);
 }
 
 NB_MODULE(_mean_var_cuda, m) {
-    m.def("mean_var_major_f32", &mean_var_major_api<float>);
-    m.def("mean_var_major_f64", &mean_var_major_api<double>);
-    m.def("mean_var_minor_f32", &mean_var_minor_api<float>);
-    m.def("mean_var_minor_f64", &mean_var_minor_api<double>);
+  m.def("mean_var_major_f32", &mean_var_major_api<float>);
+  m.def("mean_var_major_f64", &mean_var_major_api<double>);
+  m.def("mean_var_minor_f32", &mean_var_minor_api<float>);
+  m.def("mean_var_minor_f64", &mean_var_minor_api<double>);
 
-    m.def("mean_var_major", [](std::uintptr_t indptr,
-                                std::uintptr_t indices,
-                                std::uintptr_t data,
-                                std::uintptr_t means,
-                                std::uintptr_t vars,
-                                int major,
-                                int minor,
-                                int itemsize) {
-        if (itemsize == 4) {
+  m.def("mean_var_major",
+        [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
+           std::uintptr_t vars, int major, int minor, int itemsize) {
+          if (itemsize == 4) {
             mean_var_major_api<float>(indptr, indices, data, means, vars, major, minor);
-        } else if (itemsize == 8) {
+          } else if (itemsize == 8) {
             mean_var_major_api<double>(indptr, indices, data, means, vars, major, minor);
-        } else {
+          } else {
             throw nb::value_error("Unsupported itemsize for mean_var_major (expected 4 or 8)");
-        }
-    });
-    m.def("mean_var_minor", [](std::uintptr_t indices,
-                                std::uintptr_t data,
-                                std::uintptr_t means,
-                                std::uintptr_t vars,
-                                int nnz,
-                                int itemsize) {
-        if (itemsize == 4) {
-            mean_var_minor_api<float>(indices, data, means, vars, nnz);
-        } else if (itemsize == 8) {
-            mean_var_minor_api<double>(indices, data, means, vars, nnz);
-        } else {
-            throw nb::value_error("Unsupported itemsize for mean_var_minor (expected 4 or 8)");
-        }
-    });
+          }
+        });
+  m.def("mean_var_minor", [](std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
+                             std::uintptr_t vars, int nnz, int itemsize) {
+    if (itemsize == 4) {
+      mean_var_minor_api<float>(indices, data, means, vars, nnz);
+    } else if (itemsize == 8) {
+      mean_var_minor_api<double>(indices, data, means, vars, nnz);
+    } else {
+      throw nb::value_error("Unsupported itemsize for mean_var_minor (expected 4 or 8)");
+    }
+  });
 }
diff --git a/src/rapids_singlecell/_cuda/qc/kernels.cuh b/src/rapids_singlecell/_cuda/qc/kernels.cuh
index f23157cd..0e59f463 100644
--- a/src/rapids_singlecell/_cuda/qc/kernels.cuh
+++ b/src/rapids_singlecell/_cuda/qc/kernels.cuh
@@ -3,131 +3,106 @@
 #include <cuda_runtime.h>
 
 template <typename T>
-__global__ void qc_csc_kernel(const int* __restrict__ indptr,
-                              const int* __restrict__ index,
-                              const T*   __restrict__ data,
-                              T*         __restrict__ sums_cells,
-                              T*         __restrict__ sums_genes,
-                              int*       __restrict__ cell_ex,
-                              int*       __restrict__ gene_ex,
-                              int n_genes)
-{
-    int gene = blockDim.x * blockIdx.x + threadIdx.x;
-    if (gene >= n_genes) return;
-    int start_idx = indptr[gene];
-    int stop_idx  = indptr[gene + 1];
-    T sums_genes_i = T(0);
-    int gene_ex_i = 0;
-    for (int p = start_idx; p < stop_idx; ++p) {
-        T v = data[p];
-        int cell = index[p];
-        sums_genes_i += v;
-        atomicAdd(&sums_cells[cell], v);
-        ++gene_ex_i;
-        atomicAdd(&cell_ex[cell], 1);
-    }
-    sums_genes[gene] = sums_genes_i;
-    gene_ex[gene] = gene_ex_i;
+__global__ void qc_csc_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                              const T* __restrict__ data, T* __restrict__ sums_cells,
+                              T* __restrict__ sums_genes, int* __restrict__ cell_ex,
+                              int* __restrict__ gene_ex, int n_genes) {
+  int gene = blockDim.x * blockIdx.x + threadIdx.x;
+  if (gene >= n_genes) return;
+  int start_idx = indptr[gene];
+  int stop_idx = indptr[gene + 1];
+  T sums_genes_i = T(0);
+  int gene_ex_i = 0;
+  for (int p = start_idx; p < stop_idx; ++p) {
+    T v = data[p];
+    int cell = index[p];
+    sums_genes_i += v;
+    atomicAdd(&sums_cells[cell], v);
+    ++gene_ex_i;
+    atomicAdd(&cell_ex[cell], 1);
+  }
+  sums_genes[gene] = sums_genes_i;
+  gene_ex[gene] = gene_ex_i;
 }
 
 template <typename T>
-__global__ void qc_csr_kernel(const int* __restrict__ indptr,
-                              const int* __restrict__ index,
-                              const T*   __restrict__ data,
-                              T*         __restrict__ sums_cells,
-                              T*         __restrict__ sums_genes,
-                              int*       __restrict__ cell_ex,
-                              int*       __restrict__ gene_ex,
-                              int n_cells)
-{
-    int cell = blockDim.x * blockIdx.x + threadIdx.x;
-    if (cell >= n_cells) return;
-    int start_idx = indptr[cell];
-    int stop_idx  = indptr[cell + 1];
-    T sums_cells_i = T(0);
-    int cell_ex_i = 0;
-    for (int p = start_idx; p < stop_idx; ++p) {
-        T v = data[p];
-        int gene = index[p];
-        atomicAdd(&sums_genes[gene], v);
-        sums_cells_i += v;
-        atomicAdd(&gene_ex[gene], 1);
-        ++cell_ex_i;
-    }
-    sums_cells[cell] = sums_cells_i;
-    cell_ex[cell] = cell_ex_i;
+__global__ void qc_csr_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                              const T* __restrict__ data, T* __restrict__ sums_cells,
+                              T* __restrict__ sums_genes, int* __restrict__ cell_ex,
+                              int* __restrict__ gene_ex, int n_cells) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  if (cell >= n_cells) return;
+  int start_idx = indptr[cell];
+  int stop_idx = indptr[cell + 1];
+  T sums_cells_i = T(0);
+  int cell_ex_i = 0;
+  for (int p = start_idx; p < stop_idx; ++p) {
+    T v = data[p];
+    int gene = index[p];
+    atomicAdd(&sums_genes[gene], v);
+    sums_cells_i += v;
+    atomicAdd(&gene_ex[gene], 1);
+    ++cell_ex_i;
+  }
+  sums_cells[cell] = sums_cells_i;
+  cell_ex[cell] = cell_ex_i;
 }
 
 template <typename T>
-__global__ void qc_dense_kernel(const T* __restrict__ data,
-                                T*       __restrict__ sums_cells,
-                                T*       __restrict__ sums_genes,
-                                int*     __restrict__ cell_ex,
-                                int*     __restrict__ gene_ex,
-                                int n_cells, int n_genes)
-{
-    int cell = blockDim.x * blockIdx.x + threadIdx.x;
-    int gene = blockDim.y * blockIdx.y + threadIdx.y;
-    if (cell >= n_cells || gene >= n_genes) return;
-    long long idx = (long long)cell * n_genes + gene;
-    T v = data[idx];
-    if (v > T(0)) {
-        atomicAdd(&sums_genes[gene], v);
-        atomicAdd(&sums_cells[cell], v);
-        atomicAdd(&gene_ex[gene], 1);
-        atomicAdd(&cell_ex[cell], 1);
-    }
+__global__ void qc_dense_kernel(const T* __restrict__ data, T* __restrict__ sums_cells,
+                                T* __restrict__ sums_genes, int* __restrict__ cell_ex,
+                                int* __restrict__ gene_ex, int n_cells, int n_genes) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  int gene = blockDim.y * blockIdx.y + threadIdx.y;
+  if (cell >= n_cells || gene >= n_genes) return;
+  long long idx = (long long)cell * n_genes + gene;
+  T v = data[idx];
+  if (v > T(0)) {
+    atomicAdd(&sums_genes[gene], v);
+    atomicAdd(&sums_cells[cell], v);
+    atomicAdd(&gene_ex[gene], 1);
+    atomicAdd(&cell_ex[cell], 1);
+  }
 }
 
 template <typename T>
-__global__ void qc_csc_sub_kernel(const int* __restrict__ indptr,
-                                  const int* __restrict__ index,
-                                  const T*   __restrict__ data,
-                                  T*         __restrict__ sums_cells,
-                                  const bool*__restrict__ mask,
-                                  int n_genes)
-{
-    int gene = blockDim.x * blockIdx.x + threadIdx.x;
-    if (gene >= n_genes) return;
-    if (!mask[gene]) return;
-    int start_idx = indptr[gene];
-    int stop_idx  = indptr[gene + 1];
-    for (int p = start_idx; p < stop_idx; ++p) {
-        int cell = index[p];
-        atomicAdd(&sums_cells[cell], data[p]);
-    }
+__global__ void qc_csc_sub_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                  const T* __restrict__ data, T* __restrict__ sums_cells,
+                                  const bool* __restrict__ mask, int n_genes) {
+  int gene = blockDim.x * blockIdx.x + threadIdx.x;
+  if (gene >= n_genes) return;
+  if (!mask[gene]) return;
+  int start_idx = indptr[gene];
+  int stop_idx = indptr[gene + 1];
+  for (int p = start_idx; p < stop_idx; ++p) {
+    int cell = index[p];
+    atomicAdd(&sums_cells[cell], data[p]);
+  }
 }
 
 template <typename T>
-__global__ void qc_csr_sub_kernel(const int* __restrict__ indptr,
-                                  const int* __restrict__ index,
-                                  const T*   __restrict__ data,
-                                  T*         __restrict__ sums_cells,
-                                  const bool*__restrict__ mask,
-                                  int n_cells)
-{
-    int cell = blockDim.x * blockIdx.x + threadIdx.x;
-    if (cell >= n_cells) return;
-    int start_idx = indptr[cell];
-    int stop_idx  = indptr[cell + 1];
-    T sums_cells_i = T(0);
-    for (int p = start_idx; p < stop_idx; ++p) {
-        int gene = index[p];
-        if (mask[gene]) sums_cells_i += data[p];
-    }
-    sums_cells[cell] = sums_cells_i;
+__global__ void qc_csr_sub_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                  const T* __restrict__ data, T* __restrict__ sums_cells,
+                                  const bool* __restrict__ mask, int n_cells) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  if (cell >= n_cells) return;
+  int start_idx = indptr[cell];
+  int stop_idx = indptr[cell + 1];
+  T sums_cells_i = T(0);
+  for (int p = start_idx; p < stop_idx; ++p) {
+    int gene = index[p];
+    if (mask[gene]) sums_cells_i += data[p];
+  }
+  sums_cells[cell] = sums_cells_i;
 }
 
 template <typename T>
-__global__ void qc_dense_sub_kernel(const T* __restrict__ data,
-                                    T*       __restrict__ sums_cells,
-                                    const bool* __restrict__ mask,
-                                    int n_cells, int n_genes)
-{
-    int cell = blockDim.x * blockIdx.x + threadIdx.x;
-    int gene = blockDim.y * blockIdx.y + threadIdx.y;
-    if (cell >= n_cells || gene >= n_genes) return;
-    if (!mask[gene]) return;
-    long long idx = (long long)cell * n_genes + gene;
-    atomicAdd(&sums_cells[cell], data[idx]);
+__global__ void qc_dense_sub_kernel(const T* __restrict__ data, T* __restrict__ sums_cells,
+                                    const bool* __restrict__ mask, int n_cells, int n_genes) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  int gene = blockDim.y * blockIdx.y + threadIdx.y;
+  if (cell >= n_cells || gene >= n_genes) return;
+  if (!mask[gene]) return;
+  long long idx = (long long)cell * n_genes + gene;
+  atomicAdd(&sums_cells[cell], data[idx]);
 }
diff --git a/src/rapids_singlecell/_cuda/qc/qc.cu b/src/rapids_singlecell/_cuda/qc/qc.cu
index d8c200cd..5748126a 100644
--- a/src/rapids_singlecell/_cuda/qc/qc.cu
+++ b/src/rapids_singlecell/_cuda/qc/qc.cu
@@ -8,146 +8,136 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_qc_csc(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                   std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                   std::uintptr_t cell_ex, std::uintptr_t gene_ex,
-                   int n_genes)
-{
-    dim3 block(32);
-    dim3 grid((n_genes + block.x - 1) / block.x);
-    qc_csc_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(indptr),
-        reinterpret_cast<const int*>(index),
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<T*>(sums_genes),
-        reinterpret_cast<int*>(cell_ex),
-        reinterpret_cast<int*>(gene_ex),
-        n_genes);
+                                 std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                 std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_genes) {
+  dim3 block(32);
+  dim3 grid((n_genes + block.x - 1) / block.x);
+  qc_csc_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
+                        reinterpret_cast<int*>(gene_ex), n_genes);
 }
 
 template <typename T>
 static inline void launch_qc_csr(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                   std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                   std::uintptr_t cell_ex, std::uintptr_t gene_ex,
-                   int n_cells)
-{
-    dim3 block(32);
-    dim3 grid((n_cells + block.x - 1) / block.x);
-    qc_csr_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(indptr),
-        reinterpret_cast<const int*>(index),
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<T*>(sums_genes),
-        reinterpret_cast<int*>(cell_ex),
-        reinterpret_cast<int*>(gene_ex),
-        n_cells);
+                                 std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                 std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_cells) {
+  dim3 block(32);
+  dim3 grid((n_cells + block.x - 1) / block.x);
+  qc_csr_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
+                        reinterpret_cast<int*>(gene_ex), n_cells);
 }
 
 template <typename T>
-static inline void launch_qc_dense(std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                     std::uintptr_t cell_ex, std::uintptr_t gene_ex,
-                     int n_cells, int n_genes)
-{
-    dim3 block(16, 16);
-    dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
-    qc_dense_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<T*>(sums_genes),
-        reinterpret_cast<int*>(cell_ex),
-        reinterpret_cast<int*>(gene_ex),
-        n_cells, n_genes);
+static inline void launch_qc_dense(std::uintptr_t data, std::uintptr_t sums_cells,
+                                   std::uintptr_t sums_genes, std::uintptr_t cell_ex,
+                                   std::uintptr_t gene_ex, int n_cells, int n_genes) {
+  dim3 block(16, 16);
+  dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
+  qc_dense_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
+                        reinterpret_cast<int*>(gene_ex), n_cells, n_genes);
 }
 
 template <typename T>
-static inline void launch_qc_csc_sub(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                       std::uintptr_t sums_cells, std::uintptr_t mask,
-                       int n_genes)
-{
-    dim3 block(32);
-    dim3 grid((n_genes + block.x - 1) / block.x);
-    qc_csc_sub_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(indptr),
-        reinterpret_cast<const int*>(index),
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<const bool*>(mask),
-        n_genes);
+static inline void launch_qc_csc_sub(std::uintptr_t indptr, std::uintptr_t index,
+                                     std::uintptr_t data, std::uintptr_t sums_cells,
+                                     std::uintptr_t mask, int n_genes) {
+  dim3 block(32);
+  dim3 grid((n_genes + block.x - 1) / block.x);
+  qc_csc_sub_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+                        reinterpret_cast<const bool*>(mask), n_genes);
 }
 
 template <typename T>
-static inline void launch_qc_csr_sub(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                       std::uintptr_t sums_cells, std::uintptr_t mask,
-                       int n_cells)
-{
-    dim3 block(32);
-    dim3 grid((n_cells + block.x - 1) / block.x);
-    qc_csr_sub_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(indptr),
-        reinterpret_cast<const int*>(index),
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<const bool*>(mask),
-        n_cells);
+static inline void launch_qc_csr_sub(std::uintptr_t indptr, std::uintptr_t index,
+                                     std::uintptr_t data, std::uintptr_t sums_cells,
+                                     std::uintptr_t mask, int n_cells) {
+  dim3 block(32);
+  dim3 grid((n_cells + block.x - 1) / block.x);
+  qc_csr_sub_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+                        reinterpret_cast<const bool*>(mask), n_cells);
 }
 
 template <typename T>
-static inline void launch_qc_dense_sub(std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t mask,
-                         int n_cells, int n_genes)
-{
-    dim3 block(16, 16);
-    dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
-    qc_dense_sub_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<const bool*>(mask),
-        n_cells, n_genes);
+static inline void launch_qc_dense_sub(std::uintptr_t data, std::uintptr_t sums_cells,
+                                       std::uintptr_t mask, int n_cells, int n_genes) {
+  dim3 block(16, 16);
+  dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
+  qc_dense_sub_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
+                                          reinterpret_cast<T*>(sums_cells),
+                                          reinterpret_cast<const bool*>(mask), n_cells, n_genes);
 }
 
 NB_MODULE(_qc_cuda, m) {
-    m.def("sparse_qc_csc", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                                std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                                std::uintptr_t cell_ex, std::uintptr_t gene_ex,
-                                int n_genes, int itemsize) {
-        if (itemsize == 4)      launch_qc_csc<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
-        else if (itemsize == 8) launch_qc_csc<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_csr", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                                std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                                std::uintptr_t cell_ex, std::uintptr_t gene_ex,
-                                int n_cells, int itemsize) {
-        if (itemsize == 4)      launch_qc_csr<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
-        else if (itemsize == 8) launch_qc_csr<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_dense", [](std::uintptr_t data,
-                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                                  std::uintptr_t cell_ex, std::uintptr_t gene_ex,
-                                  int n_cells, int n_genes, int itemsize) {
-        if (itemsize == 4)      launch_qc_dense<float>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
-        else if (itemsize == 8) launch_qc_dense<double>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_csc_sub", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                                    std::uintptr_t sums_cells, std::uintptr_t mask,
-                                    int n_genes, int itemsize) {
-        if (itemsize == 4)      launch_qc_csc_sub<float>(indptr, index, data, sums_cells, mask, n_genes);
-        else if (itemsize == 8) launch_qc_csc_sub<double>(indptr, index, data, sums_cells, mask, n_genes);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_csr_sub", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                                    std::uintptr_t sums_cells, std::uintptr_t mask,
-                                    int n_cells, int itemsize) {
-        if (itemsize == 4)      launch_qc_csr_sub<float>(indptr, index, data, sums_cells, mask, n_cells);
-        else if (itemsize == 8) launch_qc_csr_sub<double>(indptr, index, data, sums_cells, mask, n_cells);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_dense_sub", [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t mask,
-                                      int n_cells, int n_genes, int itemsize) {
-        if (itemsize == 4)      launch_qc_dense_sub<float>(data, sums_cells, mask, n_cells, n_genes);
-        else if (itemsize == 8) launch_qc_dense_sub<double>(data, sums_cells, mask, n_cells, n_genes);
-        else throw nb::value_error("Unsupported itemsize");
-    });
+  m.def("sparse_qc_csc", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                            std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                            std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_genes,
+                            int itemsize) {
+    if (itemsize == 4)
+      launch_qc_csc<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
+    else if (itemsize == 8)
+      launch_qc_csc<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+  m.def("sparse_qc_csr", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                            std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                            std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_cells,
+                            int itemsize) {
+    if (itemsize == 4)
+      launch_qc_csr<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
+    else if (itemsize == 8)
+      launch_qc_csr<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+  m.def("sparse_qc_dense", [](std::uintptr_t data, std::uintptr_t sums_cells,
+                              std::uintptr_t sums_genes, std::uintptr_t cell_ex,
+                              std::uintptr_t gene_ex, int n_cells, int n_genes, int itemsize) {
+    if (itemsize == 4)
+      launch_qc_dense<float>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
+    else if (itemsize == 8)
+      launch_qc_dense<double>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+  m.def("sparse_qc_csc_sub",
+        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+           std::uintptr_t sums_cells, std::uintptr_t mask, int n_genes, int itemsize) {
+          if (itemsize == 4)
+            launch_qc_csc_sub<float>(indptr, index, data, sums_cells, mask, n_genes);
+          else if (itemsize == 8)
+            launch_qc_csc_sub<double>(indptr, index, data, sums_cells, mask, n_genes);
+          else
+            throw nb::value_error("Unsupported itemsize");
+        });
+  m.def("sparse_qc_csr_sub",
+        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+           std::uintptr_t sums_cells, std::uintptr_t mask, int n_cells, int itemsize) {
+          if (itemsize == 4)
+            launch_qc_csr_sub<float>(indptr, index, data, sums_cells, mask, n_cells);
+          else if (itemsize == 8)
+            launch_qc_csr_sub<double>(indptr, index, data, sums_cells, mask, n_cells);
+          else
+            throw nb::value_error("Unsupported itemsize");
+        });
+  m.def("sparse_qc_dense_sub", [](std::uintptr_t data, std::uintptr_t sums_cells,
+                                  std::uintptr_t mask, int n_cells, int n_genes, int itemsize) {
+    if (itemsize == 4)
+      launch_qc_dense_sub<float>(data, sums_cells, mask, n_cells, n_genes);
+    else if (itemsize == 8)
+      launch_qc_dense_sub<double>(data, sums_cells, mask, n_cells, n_genes);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
 }
diff --git a/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh b/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh
index 00830aa2..e07eb7ff 100644
--- a/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh
+++ b/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh
@@ -3,72 +3,59 @@
 #include <cuda_runtime.h>
 
 template <typename T>
-__global__ void qc_csr_cells_kernel(const int* __restrict__ indptr,
-                                    const int* __restrict__ index,
-                                    const T*   __restrict__ data,
-                                    T*         __restrict__ sums_cells,
-                                    int*       __restrict__ cell_ex,
-                                    int n_cells)
-{
-    int cell = blockDim.x * blockIdx.x + threadIdx.x;
-    if (cell >= n_cells) return;
-    int start_idx = indptr[cell];
-    int stop_idx  = indptr[cell + 1];
-    T sums = T(0);
-    int ex = 0;
-    for (int p = start_idx; p < stop_idx; ++p) {
-        sums += data[p];
-        ++ex;
-    }
-    sums_cells[cell] = sums;
-    cell_ex[cell]    = ex;
+__global__ void qc_csr_cells_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                    const T* __restrict__ data, T* __restrict__ sums_cells,
+                                    int* __restrict__ cell_ex, int n_cells) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  if (cell >= n_cells) return;
+  int start_idx = indptr[cell];
+  int stop_idx = indptr[cell + 1];
+  T sums = T(0);
+  int ex = 0;
+  for (int p = start_idx; p < stop_idx; ++p) {
+    sums += data[p];
+    ++ex;
+  }
+  sums_cells[cell] = sums;
+  cell_ex[cell] = ex;
 }
 
 template <typename T>
-__global__ void qc_csr_genes_kernel(const int* __restrict__ index,
-                                    const T*   __restrict__ data,
-                                    T*         __restrict__ sums_genes,
-                                    int*       __restrict__ gene_ex,
-                                    int nnz)
-{
-    int i = blockDim.x * blockIdx.x + threadIdx.x;
-    if (i >= nnz) return;
-    int g = index[i];
-    T v = data[i];
-    atomicAdd(&sums_genes[g], v);
-    atomicAdd(&gene_ex[g], 1);
+__global__ void qc_csr_genes_kernel(const int* __restrict__ index, const T* __restrict__ data,
+                                    T* __restrict__ sums_genes, int* __restrict__ gene_ex,
+                                    int nnz) {
+  int i = blockDim.x * blockIdx.x + threadIdx.x;
+  if (i >= nnz) return;
+  int g = index[i];
+  T v = data[i];
+  atomicAdd(&sums_genes[g], v);
+  atomicAdd(&gene_ex[g], 1);
 }
 
 template <typename T>
-__global__ void qc_dense_cells_kernel(const T* __restrict__ data,
-                                      T*       __restrict__ sums_cells,
-                                      int*     __restrict__ cell_ex,
-                                      int n_cells, int n_genes)
-{
-    int cell = blockDim.x * blockIdx.x + threadIdx.x;
-    int gene = blockDim.y * blockIdx.y + threadIdx.y;
-    if (cell >= n_cells || gene >= n_genes) return;
-    long long idx = (long long)cell * n_genes + gene;
-    T v = data[idx];
-    if (v > T(0)) {
-        atomicAdd(&sums_cells[cell], v);
-        atomicAdd(&cell_ex[cell], 1);
-    }
+__global__ void qc_dense_cells_kernel(const T* __restrict__ data, T* __restrict__ sums_cells,
+                                      int* __restrict__ cell_ex, int n_cells, int n_genes) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  int gene = blockDim.y * blockIdx.y + threadIdx.y;
+  if (cell >= n_cells || gene >= n_genes) return;
+  long long idx = (long long)cell * n_genes + gene;
+  T v = data[idx];
+  if (v > T(0)) {
+    atomicAdd(&sums_cells[cell], v);
+    atomicAdd(&cell_ex[cell], 1);
+  }
 }
 
 template <typename T>
-__global__ void qc_dense_genes_kernel(const T* __restrict__ data,
-                                      T*       __restrict__ sums_genes,
-                                      int*     __restrict__ gene_ex,
-                                      int n_cells, int n_genes)
-{
-    int cell = blockDim.x * blockIdx.x + threadIdx.x;
-    int gene = blockDim.y * blockIdx.y + threadIdx.y;
-    if (cell >= n_cells || gene >= n_genes) return;
-    long long idx = (long long)cell * n_genes + gene;
-    T v = data[idx];
-    if (v > T(0)) {
-        atomicAdd(&sums_genes[gene], v);
-        atomicAdd(&gene_ex[gene], 1);
-    }
+__global__ void qc_dense_genes_kernel(const T* __restrict__ data, T* __restrict__ sums_genes,
+                                      int* __restrict__ gene_ex, int n_cells, int n_genes) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  int gene = blockDim.y * blockIdx.y + threadIdx.y;
+  if (cell >= n_cells || gene >= n_genes) return;
+  long long idx = (long long)cell * n_genes + gene;
+  T v = data[idx];
+  if (v > T(0)) {
+    atomicAdd(&sums_genes[gene], v);
+    atomicAdd(&gene_ex[gene], 1);
+  }
 }
diff --git a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
index 96fceb8a..7730cac6 100644
--- a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
+++ b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
@@ -7,83 +7,86 @@
 namespace nb = nanobind;
 
 template <typename T>
-static inline void launch_qc_csr_cells(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                         std::uintptr_t sums_cells, std::uintptr_t cell_ex,
-                         int n_cells)
-{
-    dim3 block(32); dim3 grid((n_cells + 31)/32);
-    qc_csr_cells_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(indptr),
-        reinterpret_cast<const int*>(index),
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<int*>(cell_ex),
-        n_cells);
+static inline void launch_qc_csr_cells(std::uintptr_t indptr, std::uintptr_t index,
+                                       std::uintptr_t data, std::uintptr_t sums_cells,
+                                       std::uintptr_t cell_ex, int n_cells) {
+  dim3 block(32);
+  dim3 grid((n_cells + 31) / 32);
+  qc_csr_cells_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+                        reinterpret_cast<int*>(cell_ex), n_cells);
 }
 
 template <typename T>
 static inline void launch_qc_csr_genes(std::uintptr_t index, std::uintptr_t data,
-                          std::uintptr_t sums_genes, std::uintptr_t gene_ex,
-                          int nnz)
-{
-    int block = 256; int grid = (nnz + block - 1)/block;
-    qc_csr_genes_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(index),
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_genes),
-        reinterpret_cast<int*>(gene_ex),
-        nnz);
+                                       std::uintptr_t sums_genes, std::uintptr_t gene_ex, int nnz) {
+  int block = 256;
+  int grid = (nnz + block - 1) / block;
+  qc_csr_genes_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(index), reinterpret_cast<const T*>(data),
+                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(gene_ex), nnz);
 }
 
 template <typename T>
-static inline void launch_qc_dense_cells(std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex,
-                           int n_cells, int n_genes)
-{
-    dim3 block(16,16); dim3 grid((n_cells + 15)/16, (n_genes + 15)/16);
-    qc_dense_cells_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_cells),
-        reinterpret_cast<int*>(cell_ex),
-        n_cells, n_genes);
+static inline void launch_qc_dense_cells(std::uintptr_t data, std::uintptr_t sums_cells,
+                                         std::uintptr_t cell_ex, int n_cells, int n_genes) {
+  dim3 block(16, 16);
+  dim3 grid((n_cells + 15) / 16, (n_genes + 15) / 16);
+  qc_dense_cells_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
+                                            reinterpret_cast<T*>(sums_cells),
+                                            reinterpret_cast<int*>(cell_ex), n_cells, n_genes);
 }
 
 template <typename T>
-static inline void launch_qc_dense_genes(std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex,
-                           int n_cells, int n_genes)
-{
-    dim3 block(16,16); dim3 grid((n_cells + 15)/16, (n_genes + 15)/16);
-    qc_dense_genes_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const T*>(data),
-        reinterpret_cast<T*>(sums_genes),
-        reinterpret_cast<int*>(gene_ex),
-        n_cells, n_genes);
+static inline void launch_qc_dense_genes(std::uintptr_t data, std::uintptr_t sums_genes,
+                                         std::uintptr_t gene_ex, int n_cells, int n_genes) {
+  dim3 block(16, 16);
+  dim3 grid((n_cells + 15) / 16, (n_genes + 15) / 16);
+  qc_dense_genes_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
+                                            reinterpret_cast<T*>(sums_genes),
+                                            reinterpret_cast<int*>(gene_ex), n_cells, n_genes);
 }
 
 NB_MODULE(_qc_dask_cuda, m) {
-    m.def("sparse_qc_csr_cells", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                                      std::uintptr_t sums_cells, std::uintptr_t cell_ex,
-                                      int n_cells, int itemsize) {
-        if (itemsize == 4)      launch_qc_csr_cells<float>(indptr, index, data, sums_cells, cell_ex, n_cells);
-        else if (itemsize == 8) launch_qc_csr_cells<double>(indptr, index, data, sums_cells, cell_ex, n_cells);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_csr_genes", [](std::uintptr_t index, std::uintptr_t data,
-                                       std::uintptr_t sums_genes, std::uintptr_t gene_ex,
-                                       int nnz, int itemsize) {
-        if (itemsize == 4)      launch_qc_csr_genes<float>(index, data, sums_genes, gene_ex, nnz);
-        else if (itemsize == 8) launch_qc_csr_genes<double>(index, data, sums_genes, gene_ex, nnz);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_dense_cells", [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex,
-                                        int n_cells, int n_genes, int itemsize) {
-        if (itemsize == 4)      launch_qc_dense_cells<float>(data, sums_cells, cell_ex, n_cells, n_genes);
-        else if (itemsize == 8) launch_qc_dense_cells<double>(data, sums_cells, cell_ex, n_cells, n_genes);
-        else throw nb::value_error("Unsupported itemsize");
-    });
-    m.def("sparse_qc_dense_genes", [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex,
-                                        int n_cells, int n_genes, int itemsize) {
-        if (itemsize == 4)      launch_qc_dense_genes<float>(data, sums_genes, gene_ex, n_cells, n_genes);
-        else if (itemsize == 8) launch_qc_dense_genes<double>(data, sums_genes, gene_ex, n_cells, n_genes);
-        else throw nb::value_error("Unsupported itemsize");
-    });
+  m.def("sparse_qc_csr_cells",
+        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+           std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells, int itemsize) {
+          if (itemsize == 4)
+            launch_qc_csr_cells<float>(indptr, index, data, sums_cells, cell_ex, n_cells);
+          else if (itemsize == 8)
+            launch_qc_csr_cells<double>(indptr, index, data, sums_cells, cell_ex, n_cells);
+          else
+            throw nb::value_error("Unsupported itemsize");
+        });
+  m.def("sparse_qc_csr_genes",
+        [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t sums_genes,
+           std::uintptr_t gene_ex, int nnz, int itemsize) {
+          if (itemsize == 4)
+            launch_qc_csr_genes<float>(index, data, sums_genes, gene_ex, nnz);
+          else if (itemsize == 8)
+            launch_qc_csr_genes<double>(index, data, sums_genes, gene_ex, nnz);
+          else
+            throw nb::value_error("Unsupported itemsize");
+        });
+  m.def("sparse_qc_dense_cells",
+        [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells,
+           int n_genes, int itemsize) {
+          if (itemsize == 4)
+            launch_qc_dense_cells<float>(data, sums_cells, cell_ex, n_cells, n_genes);
+          else if (itemsize == 8)
+            launch_qc_dense_cells<double>(data, sums_cells, cell_ex, n_cells, n_genes);
+          else
+            throw nb::value_error("Unsupported itemsize");
+        });
+  m.def("sparse_qc_dense_genes",
+        [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex, int n_cells,
+           int n_genes, int itemsize) {
+          if (itemsize == 4)
+            launch_qc_dense_genes<float>(data, sums_genes, gene_ex, n_cells, n_genes);
+          else if (itemsize == 8)
+            launch_qc_dense_genes<double>(data, sums_genes, gene_ex, n_cells, n_genes);
+          else
+            throw nb::value_error("Unsupported itemsize");
+        });
 }
diff --git a/src/rapids_singlecell/_cuda/scale/kernels.cuh b/src/rapids_singlecell/_cuda/scale/kernels.cuh
index 1dc9792d..03f72b67 100644
--- a/src/rapids_singlecell/_cuda/scale/kernels.cuh
+++ b/src/rapids_singlecell/_cuda/scale/kernels.cuh
@@ -3,79 +3,64 @@
 #include <cuda_runtime.h>
 
 template <typename T>
-__global__ void csc_scale_diff_kernel(const int* __restrict__ indptr,
-                                      T* __restrict__ data,
-                                      const T* __restrict__ std,
-                                      int ncols)
-{
-    int col = blockIdx.x;
-    if (col >= ncols) return;
-    int start_idx = indptr[col];
-    int stop_idx  = indptr[col + 1];
-    T diver = T(1) / std[col];
-    for (int i = start_idx + threadIdx.x; i < stop_idx; i += blockDim.x) {
-        data[i] *= diver;
-    }
+__global__ void csc_scale_diff_kernel(const int* __restrict__ indptr, T* __restrict__ data,
+                                      const T* __restrict__ std, int ncols) {
+  int col = blockIdx.x;
+  if (col >= ncols) return;
+  int start_idx = indptr[col];
+  int stop_idx = indptr[col + 1];
+  T diver = T(1) / std[col];
+  for (int i = start_idx + threadIdx.x; i < stop_idx; i += blockDim.x) {
+    data[i] *= diver;
+  }
 }
 
 template <typename T>
 __global__ void csr_scale_diff_kernel(const int* __restrict__ indptr,
-                                      const int* __restrict__ indices,
-                                      T* __restrict__ data,
-                                      const T* __restrict__ std,
-                                      const int* __restrict__ mask,
-                                      T clipper,
-                                      int nrows)
-{
-    int row = blockIdx.x;
-    if (row >= nrows) return;
-    if (mask[row]) {
-        int start_idx = indptr[row];
-        int stop_idx  = indptr[row + 1];
-        for (int i = start_idx + threadIdx.x; i < stop_idx; i += blockDim.x) {
-            int idx = indices[i];
-            T res = data[i] / std[idx];
-            data[i] = res < clipper ? res : clipper;
-        }
+                                      const int* __restrict__ indices, T* __restrict__ data,
+                                      const T* __restrict__ std, const int* __restrict__ mask,
+                                      T clipper, int nrows) {
+  int row = blockIdx.x;
+  if (row >= nrows) return;
+  if (mask[row]) {
+    int start_idx = indptr[row];
+    int stop_idx = indptr[row + 1];
+    for (int i = start_idx + threadIdx.x; i < stop_idx; i += blockDim.x) {
+      int idx = indices[i];
+      T res = data[i] / std[idx];
+      data[i] = res < clipper ? res : clipper;
     }
+  }
 }
 
 template <typename T>
-__global__ void dense_scale_center_diff_kernel(T* data,
-                                               const T* __restrict__ mean,
+__global__ void dense_scale_center_diff_kernel(T* data, const T* __restrict__ mean,
                                                const T* __restrict__ std,
-                                               const int* __restrict__ mask,
-                                               T clipper,
-                                               long long nrows,
-                                               long long ncols)
-{
-    long long row = (long long)blockIdx.x * blockDim.x + threadIdx.x;
-    long long col = (long long)blockIdx.y * blockDim.y + threadIdx.y;
-    if (row < nrows && col < ncols) {
-        if (mask[row]) {
-            T res = data[row * ncols + col] - mean[col];
-            res = res / std[col];
-            if (res >  clipper) res =  clipper;
-            if (res < -clipper) res = -clipper;
-            data[row * ncols + col] = res;
-        }
+                                               const int* __restrict__ mask, T clipper,
+                                               long long nrows, long long ncols) {
+  long long row = (long long)blockIdx.x * blockDim.x + threadIdx.x;
+  long long col = (long long)blockIdx.y * blockDim.y + threadIdx.y;
+  if (row < nrows && col < ncols) {
+    if (mask[row]) {
+      T res = data[row * ncols + col] - mean[col];
+      res = res / std[col];
+      if (res > clipper) res = clipper;
+      if (res < -clipper) res = -clipper;
+      data[row * ncols + col] = res;
     }
+  }
 }
 
 template <typename T>
-__global__ void dense_scale_diff_kernel(T* __restrict__ data,
-                                        const T* __restrict__ std,
-                                        const int* __restrict__ mask,
-                                        T clipper,
-                                        long long nrows,
-                                        long long ncols)
-{
-    long long row = (long long)(blockIdx.x * blockDim.x + threadIdx.x);
-    long long col = (long long)(blockIdx.y * blockDim.y + threadIdx.y);
-    if (row < nrows && col < ncols) {
-        if (mask[row]) {
-            T res = data[row * ncols + col] / std[col];
-            data[row * ncols + col] = res < clipper ? res : clipper;
-        }
+__global__ void dense_scale_diff_kernel(T* __restrict__ data, const T* __restrict__ std,
+                                        const int* __restrict__ mask, T clipper, long long nrows,
+                                        long long ncols) {
+  long long row = (long long)(blockIdx.x * blockDim.x + threadIdx.x);
+  long long col = (long long)(blockIdx.y * blockDim.y + threadIdx.y);
+  if (row < nrows && col < ncols) {
+    if (mask[row]) {
+      T res = data[row * ncols + col] / std[col];
+      data[row * ncols + col] = res < clipper ? res : clipper;
     }
+  }
 }
diff --git a/src/rapids_singlecell/_cuda/scale/scale.cu b/src/rapids_singlecell/_cuda/scale/scale.cu
index 65d4d44b..c4635482 100644
--- a/src/rapids_singlecell/_cuda/scale/scale.cu
+++ b/src/rapids_singlecell/_cuda/scale/scale.cu
@@ -7,124 +7,88 @@
 namespace nb = nanobind;
 
 template <typename T>
-static inline void launch_csc_scale_diff(std::uintptr_t indptr,
-                           std::uintptr_t data,
-                           std::uintptr_t std,
-                           int ncols)
-{
-    dim3 block(64);
-    dim3 grid(ncols);
-    csc_scale_diff_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(indptr),
-        reinterpret_cast<T*>(data),
-        reinterpret_cast<const T*>(std),
-        ncols);
+static inline void launch_csc_scale_diff(std::uintptr_t indptr, std::uintptr_t data,
+                                         std::uintptr_t std, int ncols) {
+  dim3 block(64);
+  dim3 grid(ncols);
+  csc_scale_diff_kernel<T><<<grid, block>>>(reinterpret_cast<const int*>(indptr),
+                                            reinterpret_cast<T*>(data),
+                                            reinterpret_cast<const T*>(std), ncols);
 }
 
 template <typename T>
-static inline void launch_csr_scale_diff(std::uintptr_t indptr,
-                           std::uintptr_t indices,
-                           std::uintptr_t data,
-                           std::uintptr_t std,
-                           std::uintptr_t mask,
-                           T clipper,
-                           int nrows)
-{
-    dim3 block(64);
-    dim3 grid(nrows);
-    csr_scale_diff_kernel<T><<<grid, block>>>(
-        reinterpret_cast<const int*>(indptr),
-        reinterpret_cast<const int*>(indices),
-        reinterpret_cast<T*>(data),
-        reinterpret_cast<const T*>(std),
-        reinterpret_cast<const int*>(mask),
-        clipper,
-        nrows);
+static inline void launch_csr_scale_diff(std::uintptr_t indptr, std::uintptr_t indices,
+                                         std::uintptr_t data, std::uintptr_t std,
+                                         std::uintptr_t mask, T clipper, int nrows) {
+  dim3 block(64);
+  dim3 grid(nrows);
+  csr_scale_diff_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(indices),
+                        reinterpret_cast<T*>(data), reinterpret_cast<const T*>(std),
+                        reinterpret_cast<const int*>(mask), clipper, nrows);
 }
 
 template <typename T>
-static inline void launch_dense_scale_center_diff(std::uintptr_t data,
-                                    std::uintptr_t mean,
-                                    std::uintptr_t std,
-                                    std::uintptr_t mask,
-                                    T clipper,
-                                    long long nrows,
-                                    long long ncols)
-{
-    dim3 block(32, 32);
-    dim3 grid((unsigned)((nrows + block.x - 1) / block.x), (unsigned)((ncols + block.y - 1) / block.y));
-    dense_scale_center_diff_kernel<T><<<grid, block>>>(
-        reinterpret_cast<T*>(data),
-        reinterpret_cast<const T*>(mean),
-        reinterpret_cast<const T*>(std),
-        reinterpret_cast<const int*>(mask),
-        clipper,
-        nrows,
-        ncols);
+static inline void launch_dense_scale_center_diff(std::uintptr_t data, std::uintptr_t mean,
+                                                  std::uintptr_t std, std::uintptr_t mask,
+                                                  T clipper, long long nrows, long long ncols) {
+  dim3 block(32, 32);
+  dim3 grid((unsigned)((nrows + block.x - 1) / block.x),
+            (unsigned)((ncols + block.y - 1) / block.y));
+  dense_scale_center_diff_kernel<T><<<grid, block>>>(
+      reinterpret_cast<T*>(data), reinterpret_cast<const T*>(mean), reinterpret_cast<const T*>(std),
+      reinterpret_cast<const int*>(mask), clipper, nrows, ncols);
 }
 
 template <typename T>
-static inline void launch_dense_scale_diff(std::uintptr_t data,
-                             std::uintptr_t std,
-                             std::uintptr_t mask,
-                             T clipper,
-                             long long nrows,
-                             long long ncols)
-{
-    dim3 block(32, 32);
-    dim3 grid((unsigned)((nrows + block.x - 1) / block.x), (unsigned)((ncols + block.y - 1) / block.y));
-    dense_scale_diff_kernel<T><<<grid, block>>>(
-        reinterpret_cast<T*>(data),
-        reinterpret_cast<const T*>(std),
-        reinterpret_cast<const int*>(mask),
-        clipper,
-        nrows,
-        ncols);
+static inline void launch_dense_scale_diff(std::uintptr_t data, std::uintptr_t std,
+                                           std::uintptr_t mask, T clipper, long long nrows,
+                                           long long ncols) {
+  dim3 block(32, 32);
+  dim3 grid((unsigned)((nrows + block.x - 1) / block.x),
+            (unsigned)((ncols + block.y - 1) / block.y));
+  dense_scale_diff_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<T*>(data), reinterpret_cast<const T*>(std),
+                        reinterpret_cast<const int*>(mask), clipper, nrows, ncols);
 }
 
 NB_MODULE(_scale_cuda, m) {
-    m.def("csc_scale_diff", [](std::uintptr_t indptr,
-                                std::uintptr_t data,
-                                std::uintptr_t std,
-                                int ncols,
-                                int itemsize) {
-        if (itemsize == 4)      launch_csc_scale_diff<float>(indptr, data, std, ncols);
-        else if (itemsize == 8) launch_csc_scale_diff<double>(indptr, data, std, ncols);
-        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    });
-    m.def("csr_scale_diff", [](std::uintptr_t indptr,
-                                std::uintptr_t indices,
-                                std::uintptr_t data,
-                                std::uintptr_t std,
-                                std::uintptr_t mask,
-                                double clipper,
-                                int nrows,
-                                int itemsize) {
-        if (itemsize == 4)      launch_csr_scale_diff<float>(indptr, indices, data, std, mask, (float)clipper, nrows);
-        else if (itemsize == 8) launch_csr_scale_diff<double>(indptr, indices, data, std, mask, (double)clipper, nrows);
-        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    });
-    m.def("dense_scale_center_diff", [](std::uintptr_t data,
-                                         std::uintptr_t mean,
-                                         std::uintptr_t std,
-                                         std::uintptr_t mask,
-                                         double clipper,
-                                         long long nrows,
-                                         long long ncols,
-                                         int itemsize) {
-        if (itemsize == 4)      launch_dense_scale_center_diff<float>(data, mean, std, mask, (float)clipper, nrows, ncols);
-        else if (itemsize == 8) launch_dense_scale_center_diff<double>(data, mean, std, mask, (double)clipper, nrows, ncols);
-        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    });
-    m.def("dense_scale_diff", [](std::uintptr_t data,
-                                  std::uintptr_t std,
-                                  std::uintptr_t mask,
-                                  double clipper,
-                                  long long nrows,
-                                  long long ncols,
-                                  int itemsize) {
-        if (itemsize == 4)      launch_dense_scale_diff<float>(data, std, mask, (float)clipper, nrows, ncols);
-        else if (itemsize == 8) launch_dense_scale_diff<double>(data, std, mask, (double)clipper, nrows, ncols);
-        else throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    });
+  m.def("csc_scale_diff", [](std::uintptr_t indptr, std::uintptr_t data, std::uintptr_t std,
+                             int ncols, int itemsize) {
+    if (itemsize == 4)
+      launch_csc_scale_diff<float>(indptr, data, std, ncols);
+    else if (itemsize == 8)
+      launch_csc_scale_diff<double>(indptr, data, std, ncols);
+    else
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+  });
+  m.def("csr_scale_diff",
+        [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t std,
+           std::uintptr_t mask, double clipper, int nrows, int itemsize) {
+          if (itemsize == 4)
+            launch_csr_scale_diff<float>(indptr, indices, data, std, mask, (float)clipper, nrows);
+          else if (itemsize == 8)
+            launch_csr_scale_diff<double>(indptr, indices, data, std, mask, (double)clipper, nrows);
+          else
+            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        });
+  m.def("dense_scale_center_diff", [](std::uintptr_t data, std::uintptr_t mean, std::uintptr_t std,
+                                      std::uintptr_t mask, double clipper, long long nrows,
+                                      long long ncols, int itemsize) {
+    if (itemsize == 4)
+      launch_dense_scale_center_diff<float>(data, mean, std, mask, (float)clipper, nrows, ncols);
+    else if (itemsize == 8)
+      launch_dense_scale_center_diff<double>(data, mean, std, mask, (double)clipper, nrows, ncols);
+    else
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+  });
+  m.def("dense_scale_diff", [](std::uintptr_t data, std::uintptr_t std, std::uintptr_t mask,
+                               double clipper, long long nrows, long long ncols, int itemsize) {
+    if (itemsize == 4)
+      launch_dense_scale_diff<float>(data, std, mask, (float)clipper, nrows, ncols);
+    else if (itemsize == 8)
+      launch_dense_scale_diff<double>(data, std, mask, (double)clipper, nrows, ncols);
+    else
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+  });
 }
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh b/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
index a878abc2..168f33b4 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
+++ b/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
@@ -3,25 +3,17 @@
 #include <cuda_runtime.h>
 
 template <typename T>
-__global__ void sparse2dense_kernel(
-    const int* __restrict__ indptr,
-    const int* __restrict__ index,
-    const T*   __restrict__ data,
-    T*         __restrict__ out,
-    long long major,
-    long long minor,
-    int c_switch)
-{
-    long long row = (long long)blockIdx.x * blockDim.x + threadIdx.x;
-    long long col = (long long)blockIdx.y * blockDim.y + threadIdx.y;
-    if (row >= major) return;
-    long long start = (long long)indptr[row];
-    long long stop  = (long long)indptr[row + 1];
-    if (col >= (stop - start)) return;
-    long long idx = (long long)index[start + col];
-    if (idx >= minor) return;
-    long long res_index = (c_switch == 1)
-        ? (row * minor + idx)
-        : (row + idx * major);
-    atomicAdd(&out[res_index], data[start + col]);
+__global__ void sparse2dense_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                    const T* __restrict__ data, T* __restrict__ out,
+                                    long long major, long long minor, int c_switch) {
+  long long row = (long long)blockIdx.x * blockDim.x + threadIdx.x;
+  long long col = (long long)blockIdx.y * blockDim.y + threadIdx.y;
+  if (row >= major) return;
+  long long start = (long long)indptr[row];
+  long long stop = (long long)indptr[row + 1];
+  if (col >= (stop - start)) return;
+  long long idx = (long long)index[start + col];
+  if (idx >= minor) return;
+  long long res_index = (c_switch == 1) ? (row * minor + idx) : (row + idx * major);
+  atomicAdd(&out[res_index], data[start + col]);
 }
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
index 2ecf3065..80a8bf1f 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
+++ b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
@@ -7,39 +7,28 @@
 namespace nb = nanobind;
 
 template <typename T>
-static inline void launch_sparse2dense(
-    std::uintptr_t indptr_ptr,
-    std::uintptr_t index_ptr,
-    std::uintptr_t data_ptr,
-    std::uintptr_t out_ptr,
-    long long major,
-    long long minor,
-    int c_switch)
-{
-    dim3 block(32, 32);
-    dim3 grid((unsigned)((major + block.x - 1) / block.x), 32);
-    const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
-    const int* index  = reinterpret_cast<const int*>(index_ptr);
-    const T*   data   = reinterpret_cast<const T*>(data_ptr);
-    T*         out    = reinterpret_cast<T*>(out_ptr);
-    sparse2dense_kernel<T><<<grid, block>>>(indptr, index, data, out, major, minor, c_switch);
+static inline void launch_sparse2dense(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
+                                       std::uintptr_t data_ptr, std::uintptr_t out_ptr,
+                                       long long major, long long minor, int c_switch) {
+  dim3 block(32, 32);
+  dim3 grid((unsigned)((major + block.x - 1) / block.x), 32);
+  const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
+  const int* index = reinterpret_cast<const int*>(index_ptr);
+  const T* data = reinterpret_cast<const T*>(data_ptr);
+  T* out = reinterpret_cast<T*>(out_ptr);
+  sparse2dense_kernel<T><<<grid, block>>>(indptr, index, data, out, major, minor, c_switch);
 }
 
 NB_MODULE(_sparse2dense_cuda, m) {
-    m.def("sparse2dense", [](std::uintptr_t indptr,
-                              std::uintptr_t index,
-                              std::uintptr_t data,
-                              std::uintptr_t out,
-                              long long major,
-                              long long minor,
-                              int c_switch,
-                              int itemsize) {
-        if (itemsize == 4) {
+  m.def("sparse2dense",
+        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t out,
+           long long major, long long minor, int c_switch, int itemsize) {
+          if (itemsize == 4) {
             launch_sparse2dense<float>(indptr, index, data, out, major, minor, c_switch);
-        } else if (itemsize == 8) {
+          } else if (itemsize == 8) {
             launch_sparse2dense<double>(indptr, index, data, out, major, minor, c_switch);
-        } else {
+          } else {
             throw nb::value_error("Unsupported itemsize for sparse2dense (expected 4 or 8)");
-        }
-    });
+          }
+        });
 }

From 7ed481da188626849c6ef71a1e75e0f275029e1b Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 21:00:54 +0200
Subject: [PATCH 06/54] change clang-format

---
 .pre-commit-config.yaml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index c7f320ee..9e9b9a06 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -32,8 +32,8 @@ repos:
     -   id: codespell
         additional_dependencies:
         - tomli
--   repo: https://github.com/pocc/pre-commit-hooks
-    rev: v1.3.5
+-   repo: https://github.com/pre-commit/mirrors-clang-format
+    rev: v18.1.8
     hooks:
     -   id: clang-format
         args: [--style=file, -i]

From 48ba592a123e541b9649860819244a1d1021c52e Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 22:01:51 +0200
Subject: [PATCH 07/54] fix version

---
 .gitignore     |  1 +
 pyproject.toml | 28 ++++++++++------------------
 2 files changed, 11 insertions(+), 18 deletions(-)

diff --git a/.gitignore b/.gitignore
index 7d71deac..b5776b35 100644
--- a/.gitignore
+++ b/.gitignore
@@ -5,6 +5,7 @@ __pycache__/
 .ipynb_checkpoints/
 /data/
 .vscode/
+_version.py
 
 # Distribution / packaging
 /dist/
diff --git a/pyproject.toml b/pyproject.toml
index 90dd2500..bcc8480f 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -3,7 +3,7 @@ requires = [
     "scikit-build-core>=0.10",
     "nanobind>=2.0.0",
     "pybind11-stubgen; python_version>='3.11'",
-    "hatch-vcs",
+    "setuptools-scm>=8",
 ]
 build-backend = "scikit_build_core.build"
 
@@ -112,27 +112,18 @@ markers = [
     "gpu: tests that use a GPU (currently unused, but needs to be specified here as we import anndata.tests.helpers, which uses it)",
 ]
 
-[tool.hatch.build]
-# exclude big files that don’t need to be installed
-exclude = [
-    "tests",
-    "docs",
-    "notebooks",
-]
-[tool.hatch.build.hooks.vcs]
-version-file = "src/rapids_singlecell/_version.py"
-
-[tool.hatch.version]
-source = "vcs"
-
-[tool.hatch.build.targets.wheel]
-packages = [ 'src/rapids_singlecell', 'src/testing' ]
+[tool.setuptools_scm]
+write_to = "src/rapids_singlecell/_version.py"
+# Optional but useful:
+version_scheme = "guess-next-dev"
+local_scheme = "node-and-date"
 
 [tool.scikit-build]
 wheel.packages = [ "src/rapids_singlecell", "src/testing" ]
-cmake.minimum-version = "3.24"
+cmake.version = ">=3.24"
 cmake.build-type = "Release"
-ninja.minimum-version = "1.10"
+ninja.version = ">=1.10"
+experimental = false
 cmake.args = [ "-DCMAKE_CUDA_ARCHITECTURES=75;80;86;89;90;100" ]
 sdist.include = [
     "CMakeLists.txt",
@@ -148,6 +139,7 @@ sdist.include = [
     "src/rapids_singlecell/_cuda/qc_dask/kernels.cuh",
 ]
 build-dir = "build"
+metadata.version.provider = "scikit_build_core.metadata.setuptools_scm"
 
 
 [tool.codespell]

From 1d2f12a4288c43f53957c0d22b1b4755ab856247 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 22:31:48 +0200
Subject: [PATCH 08/54] test docs

---
 .readthedocs.yaml | 22 ++++++++++++++++++
 CMakeLists.txt    | 57 ++++++++++++++++++++++++++++-------------------
 2 files changed, 56 insertions(+), 23 deletions(-)
 create mode 100644 .readthedocs.yaml

diff --git a/.readthedocs.yaml b/.readthedocs.yaml
new file mode 100644
index 00000000..d9ee829d
--- /dev/null
+++ b/.readthedocs.yaml
@@ -0,0 +1,22 @@
+version: 2
+
+build:
+  os: ubuntu-24.04
+  tools:
+    python: "3.12"
+  environment:
+    CMAKE_ARGS: "-DRSC_BUILD_EXTENSIONS=OFF"
+    # Optionally pin a version if git metadata is missing
+    # SETUPTOOLS_SCM_PRETEND_VERSION: "0.0.0"
+
+python:
+  install:
+    - method: pip
+      path: .
+      extra_requirements:
+        - doc
+
+sphinx:
+  configuration: docs/conf.py
+
+formats: []
diff --git a/CMakeLists.txt b/CMakeLists.txt
index b518c938..4574bfd0 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -2,35 +2,46 @@ cmake_minimum_required(VERSION 3.24)
 
 project(rapids_singlecell_cuda LANGUAGES CXX CUDA)
 
+# Option to disable building compiled extensions (for docs/RTD)
+option(RSC_BUILD_EXTENSIONS "Build CUDA/C++ extensions" ON)
+
 set(CMAKE_CXX_STANDARD 17)
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 set(CMAKE_POSITION_INDEPENDENT_CODE ON)
 
-find_package(Python REQUIRED COMPONENTS Interpreter Development.Module)
-find_package(nanobind CONFIG REQUIRED)
-find_package(CUDAToolkit REQUIRED)
+if (RSC_BUILD_EXTENSIONS)
+  find_package(Python REQUIRED COMPONENTS Interpreter Development.Module)
+  find_package(nanobind CONFIG REQUIRED)
+  find_package(CUDAToolkit REQUIRED)
+else()
+  message(STATUS "RSC_BUILD_EXTENSIONS=OFF -> skipping compiled extensions for docs")
+endif()
 
 # Helper to declare a nanobind CUDA module uniformly
 function(add_nb_cuda_module target src)
-  nanobind_add_module(${target} STABLE_ABI LTO
-      ${src}
-  )
-  target_link_libraries(${target} PRIVATE CUDA::cudart)
-  set_target_properties(${target} PROPERTIES
-      CUDA_SEPARABLE_COMPILATION ON
-  )
-  install(TARGETS ${target} LIBRARY DESTINATION rapids_singlecell/_cuda)
-  # Also copy built module into source tree for editable installs
-  add_custom_command(TARGET ${target} POST_BUILD
-      COMMAND ${CMAKE_COMMAND} -E copy
-          $<TARGET_FILE:${target}>
-          ${PROJECT_SOURCE_DIR}/src/rapids_singlecell/_cuda/$<TARGET_FILE_NAME:${target}>
-  )
+  if (RSC_BUILD_EXTENSIONS)
+    nanobind_add_module(${target} STABLE_ABI LTO
+        ${src}
+    )
+    target_link_libraries(${target} PRIVATE CUDA::cudart)
+    set_target_properties(${target} PROPERTIES
+        CUDA_SEPARABLE_COMPILATION ON
+    )
+    install(TARGETS ${target} LIBRARY DESTINATION rapids_singlecell/_cuda)
+    # Also copy built module into source tree for editable installs
+    add_custom_command(TARGET ${target} POST_BUILD
+        COMMAND ${CMAKE_COMMAND} -E copy
+            $<TARGET_FILE:${target}>
+            ${PROJECT_SOURCE_DIR}/src/rapids_singlecell/_cuda/$<TARGET_FILE_NAME:${target}>
+    )
+  endif()
 endfunction()
 
-# CUDA modules
-add_nb_cuda_module(_mean_var_cuda     src/rapids_singlecell/_cuda/mean_var/mean_var.cu)
-add_nb_cuda_module(_sparse2dense_cuda src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu)
-add_nb_cuda_module(_scale_cuda        src/rapids_singlecell/_cuda/scale/scale.cu)
-add_nb_cuda_module(_qc_cuda           src/rapids_singlecell/_cuda/qc/qc.cu)
-add_nb_cuda_module(_qc_dask_cuda      src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu)
+if (RSC_BUILD_EXTENSIONS)
+  # CUDA modules
+  add_nb_cuda_module(_mean_var_cuda     src/rapids_singlecell/_cuda/mean_var/mean_var.cu)
+  add_nb_cuda_module(_sparse2dense_cuda src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu)
+  add_nb_cuda_module(_scale_cuda        src/rapids_singlecell/_cuda/scale/scale.cu)
+  add_nb_cuda_module(_qc_cuda           src/rapids_singlecell/_cuda/qc/qc.cu)
+  add_nb_cuda_module(_qc_dask_cuda      src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu)
+endif()

From 60c4863bca805a2105aaa11d5a82d2eab986f446 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 22:36:51 +0200
Subject: [PATCH 09/54] fix yml

---
 .readthedocs.yaml | 22 ----------------------
 .readthedocs.yml  |  3 +++
 2 files changed, 3 insertions(+), 22 deletions(-)
 delete mode 100644 .readthedocs.yaml

diff --git a/.readthedocs.yaml b/.readthedocs.yaml
deleted file mode 100644
index d9ee829d..00000000
--- a/.readthedocs.yaml
+++ /dev/null
@@ -1,22 +0,0 @@
-version: 2
-
-build:
-  os: ubuntu-24.04
-  tools:
-    python: "3.12"
-  environment:
-    CMAKE_ARGS: "-DRSC_BUILD_EXTENSIONS=OFF"
-    # Optionally pin a version if git metadata is missing
-    # SETUPTOOLS_SCM_PRETEND_VERSION: "0.0.0"
-
-python:
-  install:
-    - method: pip
-      path: .
-      extra_requirements:
-        - doc
-
-sphinx:
-  configuration: docs/conf.py
-
-formats: []
diff --git a/.readthedocs.yml b/.readthedocs.yml
index 668b1931..63643898 100644
--- a/.readthedocs.yml
+++ b/.readthedocs.yml
@@ -12,6 +12,9 @@ build:
     - asdf install uv latest
     - asdf global uv latest
 
+    # Set CMAKE
+    - export CMAKE_ARGS: "-DRSC_BUILD_EXTENSIONS=OFF"
+
     # Use uv to synchronize dependencies
     - uv pip install --system .[doc]
 

From 9a2b11336eb0bbd8781142c713e16cdb8c4330b5 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 23:12:59 +0200
Subject: [PATCH 10/54] fix sparse to dense kernel launch

---
 .gitignore                                           |  1 -
 .../_cuda/sparse2dense/sparse2dense.cu               | 12 +++++++-----
 src/rapids_singlecell/preprocessing/_utils.py        |  4 ++++
 3 files changed, 11 insertions(+), 6 deletions(-)

diff --git a/.gitignore b/.gitignore
index b5776b35..7d71deac 100644
--- a/.gitignore
+++ b/.gitignore
@@ -5,7 +5,6 @@ __pycache__/
 .ipynb_checkpoints/
 /data/
 .vscode/
-_version.py
 
 # Distribution / packaging
 /dist/
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
index 80a8bf1f..45c11f1f 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
+++ b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
@@ -9,9 +9,11 @@ namespace nb = nanobind;
 template <typename T>
 static inline void launch_sparse2dense(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
                                        std::uintptr_t data_ptr, std::uintptr_t out_ptr,
-                                       long long major, long long minor, int c_switch) {
+                                       long long major, long long minor, int c_switch,
+                                       int max_nnz) {
   dim3 block(32, 32);
-  dim3 grid((unsigned)((major + block.x - 1) / block.x), 32);
+  dim3 grid((unsigned)((major + block.x - 1) / block.x),
+            (unsigned)((max_nnz + block.y - 1) / block.y));
   const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
   const int* index = reinterpret_cast<const int*>(index_ptr);
   const T* data = reinterpret_cast<const T*>(data_ptr);
@@ -22,11 +24,11 @@ static inline void launch_sparse2dense(std::uintptr_t indptr_ptr, std::uintptr_t
 NB_MODULE(_sparse2dense_cuda, m) {
   m.def("sparse2dense",
         [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t out,
-           long long major, long long minor, int c_switch, int itemsize) {
+           long long major, long long minor, int c_switch, int max_nnz, int itemsize) {
           if (itemsize == 4) {
-            launch_sparse2dense<float>(indptr, index, data, out, major, minor, c_switch);
+            launch_sparse2dense<float>(indptr, index, data, out, major, minor, c_switch, max_nnz);
           } else if (itemsize == 8) {
-            launch_sparse2dense<double>(indptr, index, data, out, major, minor, c_switch);
+            launch_sparse2dense<double>(indptr, index, data, out, major, minor, c_switch, max_nnz);
           } else {
             throw nb::value_error("Unsupported itemsize for sparse2dense (expected 4 or 8)");
           }
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index 673b9527..748f6e4c 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -30,7 +30,10 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
         switcher = 0 if order == "C" else 1
     else:
         raise ValueError("Input matrix must be a sparse `csc` or `csr` matrix")
+
     dense = cp.zeros(X.shape, order=order, dtype=X.dtype)
+    max_nnz = cp.diff(X.indptr).max()
+    print(type(X), X.shape, dense.shape, major, minor, switcher)
     _s2d.sparse2dense(
         X.indptr.data.ptr,
         X.indices.data.ptr,
@@ -39,6 +42,7 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
         int(major),
         int(minor),
         int(switcher),
+        int(max_nnz),
         int(cp.dtype(X.dtype).itemsize),
     )
     return dense

From 2d5ea8590cf54f74a9410b60cbe3b6e9d79a1345 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 23:13:36 +0200
Subject: [PATCH 11/54] test read the docs

---
 .readthedocs.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.readthedocs.yml b/.readthedocs.yml
index 63643898..3370feaa 100644
--- a/.readthedocs.yml
+++ b/.readthedocs.yml
@@ -13,7 +13,7 @@ build:
     - asdf global uv latest
 
     # Set CMAKE
-    - export CMAKE_ARGS: "-DRSC_BUILD_EXTENSIONS=OFF"
+    - export CMAKE_ARGS="-DRSC_BUILD_EXTENSIONS=OFF"
 
     # Use uv to synchronize dependencies
     - uv pip install --system .[doc]

From 9878e5d37d3b276c9223a4366e9a59f4e882d4dd Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 23:19:29 +0200
Subject: [PATCH 12/54] try env

---
 .readthedocs.yml | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/.readthedocs.yml b/.readthedocs.yml
index 3370feaa..24b21c97 100644
--- a/.readthedocs.yml
+++ b/.readthedocs.yml
@@ -6,15 +6,15 @@ build:
   os: ubuntu-24.04
   tools:
     python: "3.12"
+  environment:
+    # Skip compiling CUDA/nanobind for docs
+    CMAKE_ARGS: "-DRSC_BUILD_EXTENSIONS=OFF"
   commands:
     # Install and set up uv
     - asdf plugin add uv
     - asdf install uv latest
     - asdf global uv latest
 
-    # Set CMAKE
-    - export CMAKE_ARGS="-DRSC_BUILD_EXTENSIONS=OFF"
-
     # Use uv to synchronize dependencies
     - uv pip install --system .[doc]
 

From 6b46e8aeb60664e958842e95aebc6a4daec4e757 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 23:25:41 +0200
Subject: [PATCH 13/54] test cmakeargs

---
 .readthedocs.yml | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/.readthedocs.yml b/.readthedocs.yml
index 24b21c97..9beb2992 100644
--- a/.readthedocs.yml
+++ b/.readthedocs.yml
@@ -6,9 +6,7 @@ build:
   os: ubuntu-24.04
   tools:
     python: "3.12"
-  environment:
-    # Skip compiling CUDA/nanobind for docs
-    CMAKE_ARGS: "-DRSC_BUILD_EXTENSIONS=OFF"
+
   commands:
     # Install and set up uv
     - asdf plugin add uv
@@ -16,7 +14,7 @@ build:
     - asdf global uv latest
 
     # Use uv to synchronize dependencies
-    - uv pip install --system .[doc]
+    - CMAKE_ARGS="-DRSC_BUILD_EXTENSIONS=OFF" uv pip install ".[doc]"
 
     # Build documentation using sphinx
     - python -m sphinx -T -b html -d docs/_build/doctrees -D language=en docs $READTHEDOCS_OUTPUT/html

From 55027f7741c6134cb409ca767c82710c85903bee Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 23:26:46 +0200
Subject: [PATCH 14/54] add system back

---
 .readthedocs.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.readthedocs.yml b/.readthedocs.yml
index 9beb2992..5ce45aa4 100644
--- a/.readthedocs.yml
+++ b/.readthedocs.yml
@@ -14,7 +14,7 @@ build:
     - asdf global uv latest
 
     # Use uv to synchronize dependencies
-    - CMAKE_ARGS="-DRSC_BUILD_EXTENSIONS=OFF" uv pip install ".[doc]"
+    - CMAKE_ARGS="-DRSC_BUILD_EXTENSIONS=OFF" uv pip install --system ".[doc]"
 
     # Build documentation using sphinx
     - python -m sphinx -T -b html -d docs/_build/doctrees -D language=en docs $READTHEDOCS_OUTPUT/html

From b7804055e702731cd7b8d92ae669676a91dbb462 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 11 Sep 2025 23:33:38 +0200
Subject: [PATCH 15/54] add failsafe

---
 CMakeLists.txt | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 4574bfd0..ff5dbb13 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -1,6 +1,6 @@
 cmake_minimum_required(VERSION 3.24)
 
-project(rapids_singlecell_cuda LANGUAGES CXX CUDA)
+project(rapids_singlecell_cuda LANGUAGES CXX)
 
 # Option to disable building compiled extensions (for docs/RTD)
 option(RSC_BUILD_EXTENSIONS "Build CUDA/C++ extensions" ON)
@@ -10,6 +10,7 @@ set(CMAKE_CXX_STANDARD_REQUIRED ON)
 set(CMAKE_POSITION_INDEPENDENT_CODE ON)
 
 if (RSC_BUILD_EXTENSIONS)
+  enable_language(CUDA)
   find_package(Python REQUIRED COMPONENTS Interpreter Development.Module)
   find_package(nanobind CONFIG REQUIRED)
   find_package(CUDAToolkit REQUIRED)

From 24104ff1da85773c9ad0255133b2083fdee3320f Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Fri, 12 Sep 2025 09:08:56 +0200
Subject: [PATCH 16/54] remove print and slim down toml

---
 pyproject.toml                                | 13 -------------
 src/rapids_singlecell/preprocessing/_scale.py |  2 --
 src/rapids_singlecell/preprocessing/_utils.py |  1 -
 3 files changed, 16 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index bcc8480f..d5ba00a4 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -125,19 +125,6 @@ cmake.build-type = "Release"
 ninja.version = ">=1.10"
 experimental = false
 cmake.args = [ "-DCMAKE_CUDA_ARCHITECTURES=75;80;86;89;90;100" ]
-sdist.include = [
-    "CMakeLists.txt",
-    "src/rapids_singlecell/_cuda/mean_var/mean_var.cu",
-    "src/rapids_singlecell/_cuda/mean_var/kernels.cuh",
-    "src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu",
-    "src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh",
-    "src/rapids_singlecell/_cuda/scale/scale.cu",
-    "src/rapids_singlecell/_cuda/scale/kernels.cuh",
-    "src/rapids_singlecell/_cuda/qc/qc.cu",
-    "src/rapids_singlecell/_cuda/qc/kernels.cuh",
-    "src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu",
-    "src/rapids_singlecell/_cuda/qc_dask/kernels.cuh",
-]
 build-dir = "build"
 metadata.version.provider = "scikit_build_core.metadata.setuptools_scm"
 
diff --git a/src/rapids_singlecell/preprocessing/_scale.py b/src/rapids_singlecell/preprocessing/_scale.py
index d5d255ea..3615b2f2 100644
--- a/src/rapids_singlecell/preprocessing/_scale.py
+++ b/src/rapids_singlecell/preprocessing/_scale.py
@@ -153,8 +153,6 @@ def _scale_array(X, *, mask_obs=None, zero_center=True, inplace=True, max_value=
     std = cp.sqrt(var)
     std[std == 0] = 1
     max_value = _get_max_value(max_value, X.dtype)
-    print(f"mean = {mean[:10]}")
-    print(f"std = {std[:10]}")
     mean = mean.astype(X.dtype)
     std = std.astype(X.dtype)
     if zero_center:
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index 748f6e4c..5cf35fcc 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -33,7 +33,6 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
 
     dense = cp.zeros(X.shape, order=order, dtype=X.dtype)
     max_nnz = cp.diff(X.indptr).max()
-    print(type(X), X.shape, dense.shape, major, minor, switcher)
     _s2d.sparse2dense(
         X.indptr.data.ptr,
         X.indices.data.ptr,

From dddd9e8e1715d69344fb7036eaeb2a0422446827 Mon Sep 17 00:00:00 2001
From: "Philipp A." <flying-sheep@web.de>
Date: Mon, 15 Sep 2025 10:14:04 +0200
Subject: [PATCH 17/54] Add almost unchanged cibw

---
 .github/workflows/publish.yml | 85 ++++++++++++++++++++++++++---------
 CMakeLists.txt                |  2 +-
 pyproject.toml                | 18 ++++++++
 3 files changed, 82 insertions(+), 23 deletions(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 57f0acaa..b50ba7a4 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -1,36 +1,77 @@
-# This workflow will upload a Python Package using Twine when a release is created
-# For more information see: https://docs.github.com/en/actions/automating-builds-and-tests/building-and-testing-python#publishing-to-package-registries
+# https://docs.github.com/en/actions/automating-builds-and-tests/building-and-testing-python#publishing-to-package-registries
+# https://github.com/pypa/cibuildwheel/blob/main/examples/github-deploy.yml
 
-# This workflow uses actions that are not certified by GitHub.
-# They are provided by a third-party and are governed by
-# separate terms of service, privacy policy, and support
-# documentation.
-
-name: Upload Python Package
+name: Build and upload to PyPI
 
 on:
+  workflow_dispatch:
+  pull_request:
+  push:
+    branches: [main]
   release:
     types: [published]
 
 jobs:
-  deploy:
+  build_wheels:
+    name: Build wheels for ${{ matrix.os }}
+    runs-on: ${{ matrix.runs-on }}
+    strategy:
+      matrix:
+        include:
+          - os: linux-intel
+            runs-on: ubuntu-latest
+          - os: linux-arm
+            runs-on: ubuntu-24.04-arm
+          - os: windows-intel
+            runs-on: windows-latest
+          - os: windows-arm
+            runs-on: windows-11-arm
+          - os: macos-intel
+            # macos-13 was the last x86_64 runner
+            runs-on: macos-13
+          - os: macos-arm
+            # macos-14+ (including latest) are ARM64 runners
+            runs-on: macos-latest
+
+    steps:
+      - uses: actions/checkout@v5
+      - name: Build wheels
+        uses: pypa/cibuildwheel@v3.1.4
+      - uses: actions/upload-artifact@v4
+        with:
+          name: cibw-wheels-${{ matrix.os }}-${{ strategy.job-index }}
+          path: ./wheelhouse/*.whl
 
+  build_sdist:
+    name: Build source distribution
     runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v5
+      - name: Build sdist
+        run: pipx run build --sdist
+      - uses: actions/upload-artifact@v4
+        with:
+          name: cibw-sdist
+          path: dist/*.tar.gz
 
+  upload_pypi:
+    needs: [build_wheels, build_sdist]
+    runs-on: ubuntu-latest
     environment: publish
-
     permissions:
       id-token: write
-
+    if: github.event_name == 'release' && github.event.action == 'published'
+    # or, alternatively, upload to PyPI on every tag starting with 'v' (remove on: release above to use this)
+    # if: github.event_name == 'push' && startsWith(github.ref, 'refs/tags/v')
     steps:
-    - uses: actions/checkout@v4
-    - name: Set up Python
-      uses: actions/setup-python@v5
-      with:
-        python-version: '3.x'
-    - name: Install CLI tool
-      run: pip install build
-    - name: Build package
-      run: python -m build
-    - name: Publish package
-      uses: pypa/gh-action-pypi-publish@release/v1
+      - uses: actions/download-artifact@v5
+        with:
+          # unpacks all CIBW artifacts into dist/
+          pattern: cibw-*
+          path: dist
+          merge-multiple: true
+
+      - uses: pypa/gh-action-pypi-publish@release/v1
+        # To test uploads to TestPyPI, uncomment the following:
+        # with:
+        #   repository-url: https://test.pypi.org/legacy/
diff --git a/CMakeLists.txt b/CMakeLists.txt
index ff5dbb13..088e9f49 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -11,7 +11,7 @@ set(CMAKE_POSITION_INDEPENDENT_CODE ON)
 
 if (RSC_BUILD_EXTENSIONS)
   enable_language(CUDA)
-  find_package(Python REQUIRED COMPONENTS Interpreter Development.Module)
+  find_package(Python REQUIRED COMPONENTS Interpreter Development.Module ${SKBUILD_SABI_COMPONENT})
   find_package(nanobind CONFIG REQUIRED)
   find_package(CUDAToolkit REQUIRED)
 else()
diff --git a/pyproject.toml b/pyproject.toml
index d5ba00a4..1c93e2fb 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -119,6 +119,8 @@ version_scheme = "guess-next-dev"
 local_scheme = "node-and-date"
 
 [tool.scikit-build]
+# Use limited ABI wheels (one wheel for all Python minor versions on one platform)
+wheel.py-api = "cp311"
 wheel.packages = [ "src/rapids_singlecell", "src/testing" ]
 cmake.version = ">=3.24"
 cmake.build-type = "Release"
@@ -128,6 +130,22 @@ cmake.args = [ "-DCMAKE_CUDA_ARCHITECTURES=75;80;86;89;90;100" ]
 build-dir = "build"
 metadata.version.provider = "scikit_build_core.metadata.setuptools_scm"
 
+# Use abi3audit to catch issues with Limited API wheels
+[tool.cibuildwheel.linux]
+repair-wheel-command = [
+    "auditwheel repair -w {dest_dir} {wheel}",
+    "uvx abi3audit --strict --report {wheel}",
+]
+[tool.cibuildwheel.macos]
+repair-wheel-command = [
+    "delocate-wheel --require-archs {delocate_archs} -w {dest_dir} -v {wheel}",
+    "uvx abi3audit --strict --report {wheel}",
+]
+[tool.cibuildwheel.windows]
+repair-wheel-command = [
+    "copy {wheel} {dest_dir}",
+    "uvx abi3audit --strict --report {wheel}",
+]
 
 [tool.codespell]
 skip = '*.ipynb,*.csv'

From 5981d5092df94c8ccd3135fd83019009d502af79 Mon Sep 17 00:00:00 2001
From: "Philipp A." <flying-sheep@web.de>
Date: Mon, 15 Sep 2025 10:24:39 +0200
Subject: [PATCH 18/54] No macOS

---
 .github/workflows/publish.yml | 6 ------
 pyproject.toml                | 6 +++---
 2 files changed, 3 insertions(+), 9 deletions(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index b50ba7a4..8fe37e6b 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -26,12 +26,6 @@ jobs:
             runs-on: windows-latest
           - os: windows-arm
             runs-on: windows-11-arm
-          - os: macos-intel
-            # macos-13 was the last x86_64 runner
-            runs-on: macos-13
-          - os: macos-arm
-            # macos-14+ (including latest) are ARM64 runners
-            runs-on: macos-latest
 
     steps:
       - uses: actions/checkout@v5
diff --git a/pyproject.toml b/pyproject.toml
index 1c93e2fb..3982d315 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -134,17 +134,17 @@ metadata.version.provider = "scikit_build_core.metadata.setuptools_scm"
 [tool.cibuildwheel.linux]
 repair-wheel-command = [
     "auditwheel repair -w {dest_dir} {wheel}",
-    "uvx abi3audit --strict --report {wheel}",
+    "pipx run abi3audit --strict --report {wheel}",
 ]
 [tool.cibuildwheel.macos]
 repair-wheel-command = [
     "delocate-wheel --require-archs {delocate_archs} -w {dest_dir} -v {wheel}",
-    "uvx abi3audit --strict --report {wheel}",
+    "pipx run abi3audit --strict --report {wheel}",
 ]
 [tool.cibuildwheel.windows]
 repair-wheel-command = [
     "copy {wheel} {dest_dir}",
-    "uvx abi3audit --strict --report {wheel}",
+    "pipx run abi3audit --strict --report {wheel}",
 ]
 
 [tool.codespell]

From b3c3853db1c6352251aef330b74a39b292843631 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 10:37:04 +0200
Subject: [PATCH 19/54] test build wheels

---
 .github/workflows/wheels.yml                  | 59 +++++++++++++++++++
 ...manylinux_2_28_aarch64_cuda12.9.Dockerfile | 16 +++++
 .../manylinux_2_28_x86_64_cuda12.9.Dockerfile | 18 ++++++
 3 files changed, 93 insertions(+)
 create mode 100644 .github/workflows/wheels.yml
 create mode 100644 docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
 create mode 100644 docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile

diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
new file mode 100644
index 00000000..8022b44d
--- /dev/null
+++ b/.github/workflows/wheels.yml
@@ -0,0 +1,59 @@
+name: Build
+
+on: [push, pull_request]
+
+jobs:
+  build_wheels:
+    name: Build wheels on ${{ matrix.os }}
+    runs-on: ${{ matrix.os }}
+    strategy:
+      matrix:
+        os: [ubuntu-latest, ubuntu-24.04-arm]
+
+    steps:
+      - uses: actions/checkout@v5
+
+      - uses: actions/setup-python@v5
+        with:
+          python-version: "3.12"
+
+      - name: Install cibuildwheel
+        run: python -m pip install cibuildwheel==3.1.4
+
+      - name: Build wheels (compile-only, CUDA 12.9)
+        env:
+          # Which Python/ABI wheels to build
+          CIBW_BUILD: "cp3{9,10,11,12}-manylinux_{x86_64,aarch64}"
+          CIBW_SKIP: "pp* *-musllinux* *-win* *-macosx*"
+
+          # Point cibuildwheel to custom manylinux images with CUDA 12.9
+          CIBW_MANYLINUX_X86_64_IMAGE: "ghcr.io/OWNER/REPO:manylinux_2_28_x86_64_cuda12.9"
+          CIBW_MANYLINUX_AARCH64_IMAGE: "ghcr.io/OWNER/REPO:manylinux_2_28_aarch64_cuda12.9"
+
+          # Make CUDA visible in the container
+          CIBW_ENVIRONMENT: >
+            CUDA_HOME=/usr/local/cuda
+            LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
+            PATH=/usr/local/cuda/bin:$PATH
+
+          # Ensure build tooling for nanobind extension is present
+          CIBW_BEFORE_BUILD: >
+            python -m pip install -U pip
+            scikit-build-core cmake ninja nanobind
+
+          # Compile-only: don’t run runtime tests (needs GPU)
+          CIBW_TEST_SKIP: "*"
+          CIBW_TEST_COMMAND: ""
+
+          # Let auditwheel check manylinux tags and bundle CUDA libs
+          # (set to "" to go faster if you only want compile proof)
+          CIBW_REPAIR_WHEEL_COMMAND: "auditwheel repair -w {dest_dir} {wheel}"
+
+          # Show compiler/linker commands
+          CIBW_BUILD_VERBOSITY: "1"
+        run: python -m cibuildwheel --output-dir wheelhouse
+
+      - uses: actions/upload-artifact@v4
+        with:
+          name: cibw-wheels-${{ matrix.os }}-${{ strategy.job-index }}
+          path: ./wheelhouse/*.whl
diff --git a/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile b/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
new file mode 100644
index 00000000..152bcd4b
--- /dev/null
+++ b/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
@@ -0,0 +1,16 @@
+FROM quay.io/pypa/manylinux_2_28_aarch64
+
+RUN yum -y install dnf-plugins-core && \
+    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/aarch64/cuda-rhel8.repo && \
+    yum -y clean all && yum -y makecache && \
+    yum -y install \
+      cuda-cudart-12-9 \
+      cuda-cudart-devel-12-9 \
+      libcublas-12-9 \
+      libcublas-devel-12-9 \
+      libcusparse-12-9 \
+      libcusparse-devel-12-9 && \
+    yum clean all
+
+ENV CUDA_HOME=/usr/local/cuda
+ENV LD_LIBRARY_PATH=/usr/local/cuda/lib64:${LD_LIBRARY_PATH}
diff --git a/docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile b/docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile
new file mode 100644
index 00000000..d055d8c0
--- /dev/null
+++ b/docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile
@@ -0,0 +1,18 @@
+FROM quay.io/pypa/manylinux_2_28_x86_64
+
+# Add NVIDIA CUDA repo (RHEL8/Alma8 base in manylinux_2_28)
+RUN yum -y install dnf-plugins-core && \
+    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo && \
+    yum -y clean all && yum -y makecache && \
+    # Install only what you actually link against
+    yum -y install \
+      cuda-cudart-12-9 \
+      cuda-cudart-devel-12-9 \
+      libcublas-12-9 \
+      libcublas-devel-12-9 \
+      libcusparse-12-9 \
+      libcusparse-devel-12-9 && \
+    yum clean all
+
+ENV CUDA_HOME=/usr/local/cuda
+ENV LD_LIBRARY_PATH=/usr/local/cuda/lib64:${LD_LIBRARY_PATH}

From b24bf7bf7e620c950ff2428ac84d6a3ecfe9d921 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 10:44:21 +0200
Subject: [PATCH 20/54] next

---
 .github/workflows/wheels.yml | 50 ++++++++++++++++++++++--------------
 1 file changed, 31 insertions(+), 19 deletions(-)

diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
index 8022b44d..b4bbf6ac 100644
--- a/.github/workflows/wheels.yml
+++ b/.github/workflows/wheels.yml
@@ -8,7 +8,15 @@ jobs:
     runs-on: ${{ matrix.os }}
     strategy:
       matrix:
-        os: [ubuntu-latest, ubuntu-24.04-arm]
+        include:
+          - os: ubuntu-latest
+            cibw_build: "cp3{11,12,13}-manylinux_x86_64"
+            cibw_image: "ghcr.io/OWNER/REPO:manylinux_2_28_x86_64_cuda12.9"
+            dockerfile: "docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile"
+          - os: ubuntu-24.04-arm
+            cibw_build: "cp3{11,12,13}-manylinux_aarch64"
+            cibw_image: "ghcr.io/OWNER/REPO:manylinux_2_28_aarch64_cuda12.9"
+            dockerfile: "docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile"
 
     steps:
       - uses: actions/checkout@v5
@@ -17,43 +25,47 @@ jobs:
         with:
           python-version: "3.12"
 
+      # OPTIONAL: build the CUDA-enabled manylinux image in CI
+      - name: Build CUDA manylinux image for this arch
+        run: |
+          docker build -t "${{ matrix.cibw_image }}" -f "${{ matrix.dockerfile }}" docker
+        # If you've pushed images to GHCR/Docker Hub, remove this step.
+
       - name: Install cibuildwheel
         run: python -m pip install cibuildwheel==3.1.4
 
       - name: Build wheels (compile-only, CUDA 12.9)
         env:
-          # Which Python/ABI wheels to build
-          CIBW_BUILD: "cp3{9,10,11,12}-manylinux_{x86_64,aarch64}"
-          CIBW_SKIP: "pp* *-musllinux* *-win* *-macosx*"
+          # Hard-force cibuildwheel to Linux only
+          CIBW_PLATFORM: linux
+
+          # Build only the ABIs for THIS runner/arch
+          CIBW_BUILD: ${{ matrix.cibw_build }}
+
+          # Extra safety: do not attempt musllinux
+          CIBW_SKIP: "pp* *-musllinux*"
 
-          # Point cibuildwheel to custom manylinux images with CUDA 12.9
-          CIBW_MANYLINUX_X86_64_IMAGE: "ghcr.io/OWNER/REPO:manylinux_2_28_x86_64_cuda12.9"
-          CIBW_MANYLINUX_AARCH64_IMAGE: "ghcr.io/OWNER/REPO:manylinux_2_28_aarch64_cuda12.9"
+          # Select the matching manylinux image per-arch
+          CIBW_MANYLINUX_X86_64_IMAGE: ${{ (matrix.os == 'ubuntu-latest') && matrix.cibw_image || '' }}
+          CIBW_MANYLINUX_AARCH64_IMAGE: ${{ (matrix.os == 'ubuntu-24.04-arm') && matrix.cibw_image || '' }}
 
-          # Make CUDA visible in the container
+          # CUDA in build env
           CIBW_ENVIRONMENT: >
             CUDA_HOME=/usr/local/cuda
             LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
             PATH=/usr/local/cuda/bin:$PATH
 
-          # Ensure build tooling for nanobind extension is present
+          # Tooling for nanobind build
           CIBW_BEFORE_BUILD: >
             python -m pip install -U pip
             scikit-build-core cmake ninja nanobind
 
-          # Compile-only: don’t run runtime tests (needs GPU)
+          # Compile-only: no runtime tests (no GPU on CI)
           CIBW_TEST_SKIP: "*"
           CIBW_TEST_COMMAND: ""
 
-          # Let auditwheel check manylinux tags and bundle CUDA libs
-          # (set to "" to go faster if you only want compile proof)
+          # Keep repair for manylinux; set "" to speed up if you only need compile-proof
           CIBW_REPAIR_WHEEL_COMMAND: "auditwheel repair -w {dest_dir} {wheel}"
 
-          # Show compiler/linker commands
           CIBW_BUILD_VERBOSITY: "1"
-        run: python -m cibuildwheel --output-dir wheelhouse
-
-      - uses: actions/upload-artifact@v4
-        with:
-          name: cibw-wheels-${{ matrix.os }}-${{ strategy.job-index }}
-          path: ./wheelhouse/*.whl
+        run: python -m cibuildwheel --output-dir w

From 56aca24c90826ee90fa79b926485ea2271aa97c7 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 10:47:05 +0200
Subject: [PATCH 21/54] remove wheels workflow

---
 .github/workflows/wheels.yml | 71 ------------------------------------
 1 file changed, 71 deletions(-)
 delete mode 100644 .github/workflows/wheels.yml

diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
deleted file mode 100644
index b4bbf6ac..00000000
--- a/.github/workflows/wheels.yml
+++ /dev/null
@@ -1,71 +0,0 @@
-name: Build
-
-on: [push, pull_request]
-
-jobs:
-  build_wheels:
-    name: Build wheels on ${{ matrix.os }}
-    runs-on: ${{ matrix.os }}
-    strategy:
-      matrix:
-        include:
-          - os: ubuntu-latest
-            cibw_build: "cp3{11,12,13}-manylinux_x86_64"
-            cibw_image: "ghcr.io/OWNER/REPO:manylinux_2_28_x86_64_cuda12.9"
-            dockerfile: "docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile"
-          - os: ubuntu-24.04-arm
-            cibw_build: "cp3{11,12,13}-manylinux_aarch64"
-            cibw_image: "ghcr.io/OWNER/REPO:manylinux_2_28_aarch64_cuda12.9"
-            dockerfile: "docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile"
-
-    steps:
-      - uses: actions/checkout@v5
-
-      - uses: actions/setup-python@v5
-        with:
-          python-version: "3.12"
-
-      # OPTIONAL: build the CUDA-enabled manylinux image in CI
-      - name: Build CUDA manylinux image for this arch
-        run: |
-          docker build -t "${{ matrix.cibw_image }}" -f "${{ matrix.dockerfile }}" docker
-        # If you've pushed images to GHCR/Docker Hub, remove this step.
-
-      - name: Install cibuildwheel
-        run: python -m pip install cibuildwheel==3.1.4
-
-      - name: Build wheels (compile-only, CUDA 12.9)
-        env:
-          # Hard-force cibuildwheel to Linux only
-          CIBW_PLATFORM: linux
-
-          # Build only the ABIs for THIS runner/arch
-          CIBW_BUILD: ${{ matrix.cibw_build }}
-
-          # Extra safety: do not attempt musllinux
-          CIBW_SKIP: "pp* *-musllinux*"
-
-          # Select the matching manylinux image per-arch
-          CIBW_MANYLINUX_X86_64_IMAGE: ${{ (matrix.os == 'ubuntu-latest') && matrix.cibw_image || '' }}
-          CIBW_MANYLINUX_AARCH64_IMAGE: ${{ (matrix.os == 'ubuntu-24.04-arm') && matrix.cibw_image || '' }}
-
-          # CUDA in build env
-          CIBW_ENVIRONMENT: >
-            CUDA_HOME=/usr/local/cuda
-            LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
-            PATH=/usr/local/cuda/bin:$PATH
-
-          # Tooling for nanobind build
-          CIBW_BEFORE_BUILD: >
-            python -m pip install -U pip
-            scikit-build-core cmake ninja nanobind
-
-          # Compile-only: no runtime tests (no GPU on CI)
-          CIBW_TEST_SKIP: "*"
-          CIBW_TEST_COMMAND: ""
-
-          # Keep repair for manylinux; set "" to speed up if you only need compile-proof
-          CIBW_REPAIR_WHEEL_COMMAND: "auditwheel repair -w {dest_dir} {wheel}"
-
-          CIBW_BUILD_VERBOSITY: "1"
-        run: python -m cibuildwheel --output-dir w

From 7068b195ae15645e0564ce0ef7f2718b073b0fa7 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 10:54:43 +0200
Subject: [PATCH 22/54] remove windows

---
 .github/workflows/publish.yml | 5 +----
 1 file changed, 1 insertion(+), 4 deletions(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 8fe37e6b..42f78cfa 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -22,10 +22,7 @@ jobs:
             runs-on: ubuntu-latest
           - os: linux-arm
             runs-on: ubuntu-24.04-arm
-          - os: windows-intel
-            runs-on: windows-latest
-          - os: windows-arm
-            runs-on: windows-11-arm
+
 
     steps:
       - uses: actions/checkout@v5

From 9a58ff0f7692de73e7d4c5ec0ff729123f2aa13b Mon Sep 17 00:00:00 2001
From: "Philipp A." <flying-sheep@web.de>
Date: Mon, 15 Sep 2025 11:15:50 +0200
Subject: [PATCH 23/54] remove optional parts

---
 .github/workflows/publish.yml | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 42f78cfa..42792e5c 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -52,8 +52,6 @@ jobs:
     permissions:
       id-token: write
     if: github.event_name == 'release' && github.event.action == 'published'
-    # or, alternatively, upload to PyPI on every tag starting with 'v' (remove on: release above to use this)
-    # if: github.event_name == 'push' && startsWith(github.ref, 'refs/tags/v')
     steps:
       - uses: actions/download-artifact@v5
         with:
@@ -63,6 +61,3 @@ jobs:
           merge-multiple: true
 
       - uses: pypa/gh-action-pypi-publish@release/v1
-        # To test uploads to TestPyPI, uncomment the following:
-        # with:
-        #   repository-url: https://test.pypi.org/legacy/

From 7f65657837ba2a4c5373c44badfd4457101815d5 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 11:22:58 +0200
Subject: [PATCH 24/54] test publish

---
 .github/workflows/publish.yml | 49 ++++++++++++++++++++++++++++++++++-
 1 file changed, 48 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 42792e5c..8c6f06fa 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -20,14 +20,61 @@ jobs:
         include:
           - os: linux-intel
             runs-on: ubuntu-latest
+            cibw_build: "cp3{11,12,13}-manylinux_x86_64"
+            cibw_image: "ghcr.io/scverse/rapids_singlecell:manylinux_2_28_x86_64_cuda12.9"
+            dockerfile: "docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile"
           - os: linux-arm
             runs-on: ubuntu-24.04-arm
+            cibw_build: "cp3{11,12,13}-manylinux_aarch64"
+            cibw_image: "ghcr.io/scverse/rapids_singlecell:manylinux_2_28_aarch64_cuda12.9"
+            dockerfile: "docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile"
 
 
     steps:
       - uses: actions/checkout@v5
-      - name: Build wheels
+
+      - name: Build CUDA manylinux image
+        run: |
+          docker build -t "${{ matrix.cibw_image }}" -f "${{ matrix.dockerfile }}" docker
+
+      # cibuildwheel action (Linux-only wheels inside our custom manylinux+CUDA images)
+      - name: Build wheels (CUDA 12.9)
         uses: pypa/cibuildwheel@v3.1.4
+        env:
+          # Linux only; just in case
+          CIBW_PLATFORM: linux
+
+          # Build ONLY the ABI/arch for this runner
+          CIBW_BUILD: ${{ matrix.cibw_build }}
+
+          # Extra safety: skip musllinux and non-Linux
+          CIBW_SKIP: "pp* *-musllinux* *-macosx* *-win*"
+
+          # Point cibuildwheel to our CUDA manylinux images (per-arch)
+          CIBW_MANYLINUX_X86_64_IMAGE: ${{ matrix.os == 'linux-intel' && matrix.cibw_image || '' }}
+          CIBW_MANYLINUX_AARCH64_IMAGE: ${{ matrix.os == 'linux-arm' && matrix.cibw_image || '' }}
+
+          # Make CUDA visible inside the build container
+          CIBW_ENVIRONMENT: >
+            CUDA_HOME=/usr/local/cuda
+            LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
+            PATH=/usr/local/cuda/bin:$PATH
+
+          # Tooling to build a nanobind/scikit-build-core extension
+          CIBW_BEFORE_BUILD: >
+            python -m pip install -U pip
+            scikit-build-core cmake ninja nanobind
+
+          # No runtime tests (CI has no GPU)
+          CIBW_TEST_SKIP: "*"
+          CIBW_TEST_COMMAND: ""
+
+          # Bundle redistributable CUDA libs & ensure manylinux compliance
+          CIBW_REPAIR_WHEEL_COMMAND: "auditwheel repair -w {dest_dir} {wheel}"
+
+          # Be somewhat chatty to see compile/link flags
+          CIBW_BUILD_VERBOSITY: "1"
+
       - uses: actions/upload-artifact@v4
         with:
           name: cibw-wheels-${{ matrix.os }}-${{ strategy.job-index }}

From 56f837a1b6c82b66980d26f0ff45bbe00c2c55c0 Mon Sep 17 00:00:00 2001
From: "Philipp A." <flying-sheep@web.de>
Date: Mon, 15 Sep 2025 11:23:13 +0200
Subject: [PATCH 25/54] 3.12

---
 pyproject.toml | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 3982d315..96ac7a8d 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -2,7 +2,7 @@
 requires = [
     "scikit-build-core>=0.10",
     "nanobind>=2.0.0",
-    "pybind11-stubgen; python_version>='3.11'",
+    "pybind11-stubgen",
     "setuptools-scm>=8",
 ]
 build-backend = "scikit_build_core.build"
@@ -10,7 +10,7 @@ build-backend = "scikit_build_core.build"
 [project]
 name = "rapids_singlecell"
 description = "running single cell analysis on Nvidia GPUs"
-requires-python = ">=3.11, <3.14"
+requires-python = ">=3.12, <3.14"
 license = { file = "LICENSE" }
 authors = [ { name = "Severin Dicks" } ]
 readme = { file = "README.md", content-type = "text/markdown" }
@@ -120,7 +120,7 @@ local_scheme = "node-and-date"
 
 [tool.scikit-build]
 # Use limited ABI wheels (one wheel for all Python minor versions on one platform)
-wheel.py-api = "cp311"
+wheel.py-api = "cp312"
 wheel.packages = [ "src/rapids_singlecell", "src/testing" ]
 cmake.version = ">=3.24"
 cmake.build-type = "Release"

From 3a9a9f181e7a32228ad63a6b87b30b26e2256503 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 11:28:27 +0200
Subject: [PATCH 26/54] fix path

---
 .github/workflows/publish.yml                     |  2 +-
 docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile | 14 +++++++-------
 2 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 8c6f06fa..43f47e7b 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -25,7 +25,7 @@ jobs:
             dockerfile: "docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile"
           - os: linux-arm
             runs-on: ubuntu-24.04-arm
-            cibw_build: "cp3{11,12,13}-manylinux_aarch64"
+            cibw_build: "cp3{12,13}-manylinux_aarch64"
             cibw_image: "ghcr.io/scverse/rapids_singlecell:manylinux_2_28_aarch64_cuda12.9"
             dockerfile: "docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile"
 
diff --git a/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile b/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
index 152bcd4b..e46bea55 100644
--- a/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
+++ b/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
@@ -1,15 +1,15 @@
 FROM quay.io/pypa/manylinux_2_28_aarch64
 
 RUN yum -y install dnf-plugins-core && \
-    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/aarch64/cuda-rhel8.repo && \
+    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/sbsa/cuda-rhel8.repo && \
     yum -y clean all && yum -y makecache && \
     yum -y install \
-      cuda-cudart-12-9 \
-      cuda-cudart-devel-12-9 \
-      libcublas-12-9 \
-      libcublas-devel-12-9 \
-      libcusparse-12-9 \
-      libcusparse-devel-12-9 && \
+        cuda-cudart-12-9 \
+        cuda-cudart-devel-12-9 \
+        libcublas-12-9 \
+        libcublas-devel-12-9 \
+        libcusparse-12-9 \
+        libcusparse-devel-12-9 && \
     yum clean all
 
 ENV CUDA_HOME=/usr/local/cuda

From 474de680ac1695b8c48c589dd3e86b451d648964 Mon Sep 17 00:00:00 2001
From: "Philipp A." <flying-sheep@web.de>
Date: Mon, 15 Sep 2025 11:28:41 +0200
Subject: [PATCH 27/54] remove bad/useless

---
 .github/workflows/publish.yml | 17 -----------------
 1 file changed, 17 deletions(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 43f47e7b..5396d399 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -20,16 +20,13 @@ jobs:
         include:
           - os: linux-intel
             runs-on: ubuntu-latest
-            cibw_build: "cp3{11,12,13}-manylinux_x86_64"
             cibw_image: "ghcr.io/scverse/rapids_singlecell:manylinux_2_28_x86_64_cuda12.9"
             dockerfile: "docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile"
           - os: linux-arm
             runs-on: ubuntu-24.04-arm
-            cibw_build: "cp3{12,13}-manylinux_aarch64"
             cibw_image: "ghcr.io/scverse/rapids_singlecell:manylinux_2_28_aarch64_cuda12.9"
             dockerfile: "docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile"
 
-
     steps:
       - uses: actions/checkout@v5
 
@@ -41,37 +38,23 @@ jobs:
       - name: Build wheels (CUDA 12.9)
         uses: pypa/cibuildwheel@v3.1.4
         env:
-          # Linux only; just in case
-          CIBW_PLATFORM: linux
-
-          # Build ONLY the ABI/arch for this runner
-          CIBW_BUILD: ${{ matrix.cibw_build }}
-
-          # Extra safety: skip musllinux and non-Linux
-          CIBW_SKIP: "pp* *-musllinux* *-macosx* *-win*"
-
           # Point cibuildwheel to our CUDA manylinux images (per-arch)
           CIBW_MANYLINUX_X86_64_IMAGE: ${{ matrix.os == 'linux-intel' && matrix.cibw_image || '' }}
           CIBW_MANYLINUX_AARCH64_IMAGE: ${{ matrix.os == 'linux-arm' && matrix.cibw_image || '' }}
-
           # Make CUDA visible inside the build container
           CIBW_ENVIRONMENT: >
             CUDA_HOME=/usr/local/cuda
             LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
             PATH=/usr/local/cuda/bin:$PATH
-
           # Tooling to build a nanobind/scikit-build-core extension
           CIBW_BEFORE_BUILD: >
             python -m pip install -U pip
             scikit-build-core cmake ninja nanobind
-
           # No runtime tests (CI has no GPU)
           CIBW_TEST_SKIP: "*"
           CIBW_TEST_COMMAND: ""
-
           # Bundle redistributable CUDA libs & ensure manylinux compliance
           CIBW_REPAIR_WHEEL_COMMAND: "auditwheel repair -w {dest_dir} {wheel}"
-
           # Be somewhat chatty to see compile/link flags
           CIBW_BUILD_VERBOSITY: "1"
 

From 646ba235b1204d4067558f9545d3cf58e84003fe Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 11:36:01 +0200
Subject: [PATCH 28/54] fix container

---
 docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile | 2 ++
 docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile  | 2 ++
 2 files changed, 4 insertions(+)

diff --git a/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile b/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
index e46bea55..353a0063 100644
--- a/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
+++ b/docker/manylinux_2_28_aarch64_cuda12.9.Dockerfile
@@ -4,6 +4,7 @@ RUN yum -y install dnf-plugins-core && \
     dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/sbsa/cuda-rhel8.repo && \
     yum -y clean all && yum -y makecache && \
     yum -y install \
+        cuda-nvcc-12-9 \
         cuda-cudart-12-9 \
         cuda-cudart-devel-12-9 \
         libcublas-12-9 \
@@ -14,3 +15,4 @@ RUN yum -y install dnf-plugins-core && \
 
 ENV CUDA_HOME=/usr/local/cuda
 ENV LD_LIBRARY_PATH=/usr/local/cuda/lib64:${LD_LIBRARY_PATH}
+ENV PATH=/usr/local/cuda/bin:${PATH}
diff --git a/docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile b/docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile
index d055d8c0..ed47d09e 100644
--- a/docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile
+++ b/docker/manylinux_2_28_x86_64_cuda12.9.Dockerfile
@@ -6,6 +6,7 @@ RUN yum -y install dnf-plugins-core && \
     yum -y clean all && yum -y makecache && \
     # Install only what you actually link against
     yum -y install \
+      cuda-nvcc-12-9 \
       cuda-cudart-12-9 \
       cuda-cudart-devel-12-9 \
       libcublas-12-9 \
@@ -16,3 +17,4 @@ RUN yum -y install dnf-plugins-core && \
 
 ENV CUDA_HOME=/usr/local/cuda
 ENV LD_LIBRARY_PATH=/usr/local/cuda/lib64:${LD_LIBRARY_PATH}
+ENV PATH=/usr/local/cuda/bin:${PATH}

From ae57cb16fb699d8fa52912eb47a95fb1f2f86d31 Mon Sep 17 00:00:00 2001
From: "Philipp A." <flying-sheep@web.de>
Date: Mon, 15 Sep 2025 11:37:07 +0200
Subject: [PATCH 29/54] try CUDA_PATH

---
 .github/workflows/publish.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 5396d399..507f8888 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -43,7 +43,7 @@ jobs:
           CIBW_MANYLINUX_AARCH64_IMAGE: ${{ matrix.os == 'linux-arm' && matrix.cibw_image || '' }}
           # Make CUDA visible inside the build container
           CIBW_ENVIRONMENT: >
-            CUDA_HOME=/usr/local/cuda
+            CUDA_PATH=/usr/local/cuda
             LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
             PATH=/usr/local/cuda/bin:$PATH
           # Tooling to build a nanobind/scikit-build-core extension

From 33ac5af4ca339a1bf3eb231d1fdca84f406e1df0 Mon Sep 17 00:00:00 2001
From: "Philipp A." <flying-sheep@web.de>
Date: Mon, 15 Sep 2025 11:47:06 +0200
Subject: [PATCH 30/54] skip musl again

---
 .github/workflows/publish.yml | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
index 507f8888..e4791c34 100644
--- a/.github/workflows/publish.yml
+++ b/.github/workflows/publish.yml
@@ -38,6 +38,8 @@ jobs:
       - name: Build wheels (CUDA 12.9)
         uses: pypa/cibuildwheel@v3.1.4
         env:
+          # Skip musllinux
+          CIBW_SKIP: '*-musllinux*'
           # Point cibuildwheel to our CUDA manylinux images (per-arch)
           CIBW_MANYLINUX_X86_64_IMAGE: ${{ matrix.os == 'linux-intel' && matrix.cibw_image || '' }}
           CIBW_MANYLINUX_AARCH64_IMAGE: ${{ matrix.os == 'linux-arm' && matrix.cibw_image || '' }}

From a529a5881d4411be2be85f82b7965b1d2dc538a1 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 15 Sep 2025 18:52:46 +0200
Subject: [PATCH 31/54] add next kernels

---
 CMakeLists.txt                                |   9 +
 src/rapids_singlecell/_cuda/aggr/aggr.cu      | 142 +++++++
 .../_cuda/aggr/kernels_aggr.cuh               | 131 +++++++
 src/rapids_singlecell/_cuda/aucell/aucell.cu  |  46 +++
 .../_cuda/autocorr/autocorr.cu                |  76 ++++
 .../_cuda/autocorr/kernels_autocorr.cuh       | 178 +++++++++
 src/rapids_singlecell/_cuda/bbknn/bbknn.cu    |  42 ++
 .../_cuda/bbknn/kernels_bbknn.cuh             |  70 ++++
 src/rapids_singlecell/_cuda/cooc/cooc.cu      |  89 +++++
 .../_cuda/cooc/kernels_cooc.cuh               | 366 ++++++++++++++++++
 .../mean_var/{kernels.cuh => kernels_mv.cuh}  |   0
 .../_cuda/mean_var/mean_var.cu                |   7 +-
 .../_cuda/nanmean/kernels_nanmean.cuh         |  68 ++++
 .../_cuda/nanmean/nanmean.cu                  |  55 +++
 .../_cuda/nn_descent/kernels_dist.cuh         |  78 ++++
 .../_cuda/nn_descent/nn_descent.cu            |  41 ++
 .../_cuda/norm/kernels_norm.cuh               |  77 ++++
 src/rapids_singlecell/_cuda/norm/norm.cu      |  73 ++++
 src/rapids_singlecell/_cuda/pr/kernels_pr.cuh |  76 ++++
 .../_cuda/pr/kernels_pr_hvg.cuh               |  90 +++++
 src/rapids_singlecell/_cuda/pr/pr.cu          | 153 ++++++++
 .../_cuda/qc/{kernels.cuh => kernels_qc.cuh}  |   0
 src/rapids_singlecell/_cuda/qc/qc.cu          |   2 +-
 .../qc_dask/{kernels.cuh => kernels_qcd.cuh}  |   0
 .../_cuda/qc_dask/qc_kernels_dask.cu          |   2 +-
 .../scale/{kernels.cuh => kernels_scale.cuh}  |   0
 src/rapids_singlecell/_cuda/scale/scale.cu    |   2 +-
 .../{kernels.cuh => kernels_s2d.cuh}          |  25 +-
 .../_cuda/sparse2dense/sparse2dense.cu        |  24 +-
 .../decoupler_gpu/_method_aucell.py           |  58 +--
 src/rapids_singlecell/get/_aggregated.py      | 214 ++++------
 src/rapids_singlecell/preprocessing/_hvg.py   |  97 ++---
 .../preprocessing/_kernels/_bbknn.py          |  89 -----
 .../preprocessing/_kernels/_nn_descent.py     | 105 -----
 .../preprocessing/_kernels/_norm_kernel.py    |  92 -----
 .../preprocessing/_kernels/_pr_kernels.py     | 262 -------------
 .../preprocessing/_neighbors.py               |  69 ++--
 .../preprocessing/_normalize.py               | 229 +++++------
 src/rapids_singlecell/preprocessing/_utils.py |   6 +-
 src/rapids_singlecell/squidpy_gpu/_co_oc.py   | 107 ++---
 src/rapids_singlecell/squidpy_gpu/_gearysc.py | 207 +++-------
 src/rapids_singlecell/squidpy_gpu/_moransi.py | 225 +++--------
 src/rapids_singlecell/tools/_utils.py         |  84 ++--
 tests/test_aggregated.py                      |   2 +-
 tests/test_hvg.py                             |   6 +
 tests/test_normalization.py                   |   4 +-
 46 files changed, 2342 insertions(+), 1436 deletions(-)
 create mode 100644 src/rapids_singlecell/_cuda/aggr/aggr.cu
 create mode 100644 src/rapids_singlecell/_cuda/aggr/kernels_aggr.cuh
 create mode 100644 src/rapids_singlecell/_cuda/aucell/aucell.cu
 create mode 100644 src/rapids_singlecell/_cuda/autocorr/autocorr.cu
 create mode 100644 src/rapids_singlecell/_cuda/autocorr/kernels_autocorr.cuh
 create mode 100644 src/rapids_singlecell/_cuda/bbknn/bbknn.cu
 create mode 100644 src/rapids_singlecell/_cuda/bbknn/kernels_bbknn.cuh
 create mode 100644 src/rapids_singlecell/_cuda/cooc/cooc.cu
 create mode 100644 src/rapids_singlecell/_cuda/cooc/kernels_cooc.cuh
 rename src/rapids_singlecell/_cuda/mean_var/{kernels.cuh => kernels_mv.cuh} (100%)
 create mode 100644 src/rapids_singlecell/_cuda/nanmean/kernels_nanmean.cuh
 create mode 100644 src/rapids_singlecell/_cuda/nanmean/nanmean.cu
 create mode 100644 src/rapids_singlecell/_cuda/nn_descent/kernels_dist.cuh
 create mode 100644 src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
 create mode 100644 src/rapids_singlecell/_cuda/norm/kernels_norm.cuh
 create mode 100644 src/rapids_singlecell/_cuda/norm/norm.cu
 create mode 100644 src/rapids_singlecell/_cuda/pr/kernels_pr.cuh
 create mode 100644 src/rapids_singlecell/_cuda/pr/kernels_pr_hvg.cuh
 create mode 100644 src/rapids_singlecell/_cuda/pr/pr.cu
 rename src/rapids_singlecell/_cuda/qc/{kernels.cuh => kernels_qc.cuh} (100%)
 rename src/rapids_singlecell/_cuda/qc_dask/{kernels.cuh => kernels_qcd.cuh} (100%)
 rename src/rapids_singlecell/_cuda/scale/{kernels.cuh => kernels_scale.cuh} (100%)
 rename src/rapids_singlecell/_cuda/sparse2dense/{kernels.cuh => kernels_s2d.cuh} (54%)
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_bbknn.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_nn_descent.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_norm_kernel.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_kernels/_pr_kernels.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 088e9f49..a0b7c7cf 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -45,4 +45,13 @@ if (RSC_BUILD_EXTENSIONS)
   add_nb_cuda_module(_scale_cuda        src/rapids_singlecell/_cuda/scale/scale.cu)
   add_nb_cuda_module(_qc_cuda           src/rapids_singlecell/_cuda/qc/qc.cu)
   add_nb_cuda_module(_qc_dask_cuda      src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu)
+  add_nb_cuda_module(_bbknn_cuda        src/rapids_singlecell/_cuda/bbknn/bbknn.cu)
+  add_nb_cuda_module(_norm_cuda         src/rapids_singlecell/_cuda/norm/norm.cu)
+  add_nb_cuda_module(_pr_cuda           src/rapids_singlecell/_cuda/pr/pr.cu)
+  add_nb_cuda_module(_nn_descent_cuda   src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu)
+  add_nb_cuda_module(_aucell_cuda       src/rapids_singlecell/_cuda/aucell/aucell.cu)
+  add_nb_cuda_module(_nanmean_cuda      src/rapids_singlecell/_cuda/nanmean/nanmean.cu)
+  add_nb_cuda_module(_autocorr_cuda     src/rapids_singlecell/_cuda/autocorr/autocorr.cu)
+  add_nb_cuda_module(_cooc_cuda         src/rapids_singlecell/_cuda/cooc/cooc.cu)
+  add_nb_cuda_module(_aggr_cuda         src/rapids_singlecell/_cuda/aggr/aggr.cu)
 endif()
diff --git a/src/rapids_singlecell/_cuda/aggr/aggr.cu b/src/rapids_singlecell/_cuda/aggr/aggr.cu
new file mode 100644
index 00000000..a5ec6c46
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/aggr/aggr.cu
@@ -0,0 +1,142 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+namespace nb = nanobind;
+
+#include "kernels_aggr.cuh"
+
+// Launchers
+template <typename T>
+static inline void launch_csr_aggr(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                   std::uintptr_t out, std::uintptr_t cats, std::uintptr_t mask,
+                                   std::size_t n_cells, std::size_t n_genes, std::size_t n_groups) {
+  dim3 grid((unsigned)n_cells);
+  dim3 block(64);
+  csr_aggr_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
+                        n_cells, n_genes, n_groups);
+}
+
+template <typename T>
+static inline void launch_csc_aggr(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                   std::uintptr_t out, std::uintptr_t cats, std::uintptr_t mask,
+                                   std::size_t n_cells, std::size_t n_genes, std::size_t n_groups) {
+  dim3 grid((unsigned)n_genes);
+  dim3 block(64);
+  csc_aggr_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
+                        n_cells, n_genes, n_groups);
+}
+
+template <typename T>
+static inline void launch_csr_to_coo(std::uintptr_t indptr, std::uintptr_t index,
+                                     std::uintptr_t data, std::uintptr_t row, std::uintptr_t col,
+                                     std::uintptr_t ndata, std::uintptr_t cats, std::uintptr_t mask,
+                                     int n_cells) {
+  dim3 grid((unsigned)n_cells);
+  dim3 block(64);
+  csr_to_coo_kernel<T><<<grid, block>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<int*>(row), reinterpret_cast<int*>(col),
+      reinterpret_cast<double*>(ndata), reinterpret_cast<const int*>(cats),
+      reinterpret_cast<const bool*>(mask), n_cells);
+}
+
+template <typename T>
+static inline void launch_dense_C(std::uintptr_t data, std::uintptr_t out, std::uintptr_t cats,
+                                  std::uintptr_t mask, std::size_t n_cells, std::size_t n_genes,
+                                  std::size_t n_groups) {
+  dim3 block(256);
+  dim3 grid((unsigned)((n_cells * n_genes + block.x - 1) / block.x));
+  dense_aggr_kernel_C<T>
+      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
+                        n_cells, n_genes, n_groups);
+}
+
+template <typename T>
+static inline void launch_dense_F(std::uintptr_t data, std::uintptr_t out, std::uintptr_t cats,
+                                  std::uintptr_t mask, std::size_t n_cells, std::size_t n_genes,
+                                  std::size_t n_groups) {
+  dim3 block(256);
+  dim3 grid((unsigned)((n_cells * n_genes + block.x - 1) / block.x));
+  dense_aggr_kernel_F<T>
+      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
+                        n_cells, n_genes, n_groups);
+}
+
+// Unified dispatchers
+static inline void sparse_aggr_dispatch(std::uintptr_t indptr, std::uintptr_t index,
+                                        std::uintptr_t data, std::uintptr_t out,
+                                        std::uintptr_t cats, std::uintptr_t mask,
+                                        std::size_t n_cells, std::size_t n_genes,
+                                        std::size_t n_groups, bool is_csc, int dtype_itemsize) {
+  if (is_csc) {
+    if (dtype_itemsize == 4) {
+      launch_csc_aggr<float>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+    } else {
+      launch_csc_aggr<double>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+    }
+  } else {
+    if (dtype_itemsize == 4) {
+      launch_csr_aggr<float>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+    } else {
+      launch_csr_aggr<double>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+    }
+  }
+}
+
+static inline void dense_aggr_dispatch(std::uintptr_t data, std::uintptr_t out, std::uintptr_t cats,
+                                       std::uintptr_t mask, std::size_t n_cells,
+                                       std::size_t n_genes, std::size_t n_groups, bool is_fortran,
+                                       int dtype_itemsize) {
+  if (is_fortran) {
+    if (dtype_itemsize == 4) {
+      launch_dense_F<float>(data, out, cats, mask, n_cells, n_genes, n_groups);
+    } else {
+      launch_dense_F<double>(data, out, cats, mask, n_cells, n_genes, n_groups);
+    }
+  } else {
+    if (dtype_itemsize == 4) {
+      launch_dense_C<float>(data, out, cats, mask, n_cells, n_genes, n_groups);
+    } else {
+      launch_dense_C<double>(data, out, cats, mask, n_cells, n_genes, n_groups);
+    }
+  }
+}
+
+static inline void csr_to_coo_dispatch(std::uintptr_t indptr, std::uintptr_t index,
+                                       std::uintptr_t data, std::uintptr_t row, std::uintptr_t col,
+                                       std::uintptr_t ndata, std::uintptr_t cats,
+                                       std::uintptr_t mask, int n_cells, int dtype_itemsize) {
+  if (dtype_itemsize == 4) {
+    launch_csr_to_coo<float>(indptr, index, data, row, col, ndata, cats, mask, n_cells);
+  } else {
+    launch_csr_to_coo<double>(indptr, index, data, row, col, ndata, cats, mask, n_cells);
+  }
+}
+
+// variance launcher
+static inline void launch_sparse_var(std::uintptr_t indptr, std::uintptr_t index,
+                                     std::uintptr_t data, std::uintptr_t mean_data,
+                                     std::uintptr_t n_cells, int dof, int n_groups) {
+  dim3 grid((unsigned)n_groups);
+  dim3 block(64);
+  sparse_var_kernel<<<grid, block>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<double*>(data), reinterpret_cast<const double*>(mean_data),
+      reinterpret_cast<double*>(n_cells), dof, n_groups);
+}
+
+NB_MODULE(_aggr_cuda, m) {
+  m.def("sparse_aggr", &sparse_aggr_dispatch);
+  m.def("dense_aggr", &dense_aggr_dispatch);
+  m.def("csr_to_coo", &csr_to_coo_dispatch);
+  m.def("sparse_var", &launch_sparse_var);
+}
diff --git a/src/rapids_singlecell/_cuda/aggr/kernels_aggr.cuh b/src/rapids_singlecell/_cuda/aggr/kernels_aggr.cuh
new file mode 100644
index 00000000..c50301fd
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/aggr/kernels_aggr.cuh
@@ -0,0 +1,131 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+// sparse -> dense aggregate (CSR by cells), mask per cell, cats per cell
+template <typename T>
+__global__ void csr_aggr_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                const T* __restrict__ data, double* __restrict__ out,
+                                const int* __restrict__ cats, const bool* __restrict__ mask,
+                                std::size_t n_cells, std::size_t n_genes, std::size_t n_groups) {
+  std::size_t cell = blockIdx.x;
+  if (cell >= n_cells || !mask[cell]) return;
+  int cell_start = indptr[cell];
+  int cell_end = indptr[cell + 1];
+  std::size_t group = static_cast<std::size_t>(cats[cell]);
+  for (int p = cell_start + threadIdx.x; p < cell_end; p += blockDim.x) {
+    std::size_t gene_pos = static_cast<std::size_t>(index[p]);
+    double v = static_cast<double>(data[p]);
+    atomicAdd(&out[group * n_genes + gene_pos], v);
+    atomicAdd(&out[group * n_genes + gene_pos + n_genes * n_groups], 1.0);
+    atomicAdd(&out[group * n_genes + gene_pos + 2 * n_genes * n_groups], v * v);
+  }
+}
+
+// sparse -> dense aggregate (CSC by genes), mask per cell, cats per cell
+template <typename T>
+__global__ void csc_aggr_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                const T* __restrict__ data, double* __restrict__ out,
+                                const int* __restrict__ cats, const bool* __restrict__ mask,
+                                std::size_t n_cells, std::size_t n_genes, std::size_t n_groups) {
+  std::size_t gene = blockIdx.x;
+  if (gene >= n_genes) return;
+  int gene_start = indptr[gene];
+  int gene_end = indptr[gene + 1];
+  for (int p = gene_start + threadIdx.x; p < gene_end; p += blockDim.x) {
+    std::size_t cell = static_cast<std::size_t>(index[p]);
+    if (!mask[cell]) continue;
+    std::size_t group = static_cast<std::size_t>(cats[cell]);
+    double v = static_cast<double>(data[p]);
+    atomicAdd(&out[group * n_genes + gene], v);
+    atomicAdd(&out[group * n_genes + gene + n_genes * n_groups], 1.0);
+    atomicAdd(&out[group * n_genes + gene + 2 * n_genes * n_groups], v * v);
+  }
+}
+
+// sparse -> sparse copy (CSR by cells) row/col/value from one to another by cats/mask
+template <typename T>
+__global__ void csr_to_coo_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                  const T* __restrict__ data, int* __restrict__ row,
+                                  int* __restrict__ col, double* __restrict__ ndata,
+                                  const int* __restrict__ cats, const bool* __restrict__ mask,
+                                  int n_cells) {
+  int cell = blockIdx.x;
+  if (cell >= n_cells || !mask[cell]) return;
+  int start = indptr[cell];
+  int end = indptr[cell + 1];
+  int group = cats[cell];
+  for (int p = start + threadIdx.x; p < end; p += blockDim.x) {
+    int g = index[p];
+    ndata[p] = static_cast<double>(data[p]);
+    row[p] = group;
+    col[p] = g;
+  }
+}
+
+// variance adjust per group (CSR-like segment)
+__global__ void sparse_var_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                  double* __restrict__ data, const double* __restrict__ mean_data,
+                                  double* __restrict__ n_cells, int dof, int n_groups) {
+  int group = blockIdx.x;
+  if (group >= n_groups) return;
+  int start = indptr[group];
+  int end = indptr[group + 1];
+  double doffer = n_cells[group] / (n_cells[group] - static_cast<double>(dof));
+  for (int p = start + threadIdx.x; p < end; p += blockDim.x) {
+    double var = data[p];
+    double mean_sq = mean_data[p] * mean_data[p];
+    var = var - mean_sq;
+    data[p] = var * doffer;
+  }
+}
+
+// dense C-order aggregator
+template <typename T>
+__global__ void dense_aggr_kernel_C(const T* __restrict__ data, double* __restrict__ out,
+                                    const int* __restrict__ cats, const bool* __restrict__ mask,
+                                    std::size_t n_cells, std::size_t n_genes,
+                                    std::size_t n_groups) {
+  std::size_t i = blockIdx.x * blockDim.x + threadIdx.x;
+  std::size_t stride = gridDim.x * blockDim.x;
+  std::size_t N = n_cells * n_genes;
+  while (i < N) {
+    std::size_t cell = i / n_genes;
+    std::size_t gene = i % n_genes;
+    if (mask[cell]) {
+      std::size_t group = static_cast<std::size_t>(cats[cell]);
+      double v = static_cast<double>(data[cell * n_genes + gene]);
+      if (v != 0.0) {
+        atomicAdd(&out[group * n_genes + gene], v);
+        atomicAdd(&out[group * n_genes + gene + n_genes * n_groups], 1.0);
+        atomicAdd(&out[group * n_genes + gene + 2 * n_genes * n_groups], v * v);
+      }
+    }
+    i += stride;
+  }
+}
+
+// dense F-order aggregator
+template <typename T>
+__global__ void dense_aggr_kernel_F(const T* __restrict__ data, double* __restrict__ out,
+                                    const int* __restrict__ cats, const bool* __restrict__ mask,
+                                    std::size_t n_cells, std::size_t n_genes,
+                                    std::size_t n_groups) {
+  std::size_t i = blockIdx.x * blockDim.x + threadIdx.x;
+  std::size_t stride = gridDim.x * blockDim.x;
+  std::size_t N = n_cells * n_genes;
+  while (i < N) {
+    std::size_t cell = i % n_cells;
+    std::size_t gene = i / n_cells;
+    if (mask[cell]) {
+      std::size_t group = static_cast<std::size_t>(cats[cell]);
+      double v = static_cast<double>(data[gene * n_cells + cell]);
+      if (v != 0.0) {
+        atomicAdd(&out[group * n_genes + gene], v);
+        atomicAdd(&out[group * n_genes + gene + n_genes * n_groups], 1.0);
+        atomicAdd(&out[group * n_genes + gene + 2 * n_genes * n_groups], v * v);
+      }
+    }
+    i += stride;
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/aucell/aucell.cu b/src/rapids_singlecell/_cuda/aucell/aucell.cu
new file mode 100644
index 00000000..86ff7cf5
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/aucell/aucell.cu
@@ -0,0 +1,46 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+namespace nb = nanobind;
+
+__global__ void auc_kernel(const int* __restrict__ ranks, int R, int C,
+                           const int* __restrict__ cnct, const int* __restrict__ starts,
+                           const int* __restrict__ lens, int n_sets, int n_up,
+                           const float* __restrict__ max_aucs, float* __restrict__ es) {
+  const int set = blockIdx.x;
+  const int row = blockIdx.y * blockDim.x + threadIdx.x;
+  if (set >= n_sets || row >= R) return;
+
+  const int start = starts[set];
+  const int end = start + lens[set];
+
+  int r = 0;
+  int s = 0;
+
+  for (int i = start; i < end; ++i) {
+    const int g = cnct[i];
+    const int rk = ranks[row * C + g];
+    if (rk <= n_up) {
+      r += 1;
+      s += rk;
+    }
+  }
+  const float val = (float)((static_cast<long long>(r) * n_up) - s) / max_aucs[set];
+  es[row * n_sets + set] = val;
+}
+
+static inline void launch_auc(std::uintptr_t ranks, int R, int C, std::uintptr_t cnct,
+                              std::uintptr_t starts, std::uintptr_t lens, int n_sets, int n_up,
+                              std::uintptr_t max_aucs, std::uintptr_t es) {
+  dim3 block(32);
+  dim3 grid((unsigned)n_sets, (unsigned)((R + block.x - 1) / block.x));
+  auc_kernel<<<grid, block>>>(
+      reinterpret_cast<const int*>(ranks), R, C, reinterpret_cast<const int*>(cnct),
+      reinterpret_cast<const int*>(starts), reinterpret_cast<const int*>(lens), n_sets, n_up,
+      reinterpret_cast<const float*>(max_aucs), reinterpret_cast<float*>(es));
+}
+
+NB_MODULE(_aucell_cuda, m) {
+  m.def("auc", &launch_auc);
+}
diff --git a/src/rapids_singlecell/_cuda/autocorr/autocorr.cu b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
new file mode 100644
index 00000000..5b9d03be
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
@@ -0,0 +1,76 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_autocorr.cuh"
+
+namespace nb = nanobind;
+
+static inline void launch_morans_dense(std::uintptr_t data_centered, std::uintptr_t adj_row_ptr,
+                                       std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
+                                       std::uintptr_t num, int n_samples, int n_features) {
+  dim3 block(8, 8);
+  dim3 grid((n_features + block.x - 1) / block.x, (n_samples + block.y - 1) / block.y);
+  morans_I_num_dense_kernel<<<grid, block>>>(
+      reinterpret_cast<const float*>(data_centered), reinterpret_cast<const int*>(adj_row_ptr),
+      reinterpret_cast<const int*>(adj_col_ind), reinterpret_cast<const float*>(adj_data),
+      reinterpret_cast<float*>(num), n_samples, n_features);
+}
+
+static inline void launch_morans_sparse(std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind,
+                                        std::uintptr_t adj_data, std::uintptr_t data_row_ptr,
+                                        std::uintptr_t data_col_ind, std::uintptr_t data_values,
+                                        int n_samples, int n_features, std::uintptr_t mean_array,
+                                        std::uintptr_t num) {
+  dim3 block(1024);
+  dim3 grid(n_samples);
+  morans_I_num_sparse_kernel<<<grid, block>>>(
+      reinterpret_cast<const int*>(adj_row_ptr), reinterpret_cast<const int*>(adj_col_ind),
+      reinterpret_cast<const float*>(adj_data), reinterpret_cast<const int*>(data_row_ptr),
+      reinterpret_cast<const int*>(data_col_ind), reinterpret_cast<const float*>(data_values),
+      n_samples, n_features, reinterpret_cast<const float*>(mean_array),
+      reinterpret_cast<float*>(num));
+}
+
+static inline void launch_gearys_dense(std::uintptr_t data, std::uintptr_t adj_row_ptr,
+                                       std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
+                                       std::uintptr_t num, int n_samples, int n_features) {
+  dim3 block(8, 8);
+  dim3 grid((n_features + block.x - 1) / block.x, (n_samples + block.y - 1) / block.y);
+  gearys_C_num_dense_kernel<<<grid, block>>>(
+      reinterpret_cast<const float*>(data), reinterpret_cast<const int*>(adj_row_ptr),
+      reinterpret_cast<const int*>(adj_col_ind), reinterpret_cast<const float*>(adj_data),
+      reinterpret_cast<float*>(num), n_samples, n_features);
+}
+
+static inline void launch_gearys_sparse(std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind,
+                                        std::uintptr_t adj_data, std::uintptr_t data_row_ptr,
+                                        std::uintptr_t data_col_ind, std::uintptr_t data_values,
+                                        int n_samples, int n_features, std::uintptr_t num) {
+  dim3 block(1024);
+  dim3 grid(n_samples);
+  gearys_C_num_sparse_kernel<<<grid, block>>>(
+      reinterpret_cast<const int*>(adj_row_ptr), reinterpret_cast<const int*>(adj_col_ind),
+      reinterpret_cast<const float*>(adj_data), reinterpret_cast<const int*>(data_row_ptr),
+      reinterpret_cast<const int*>(data_col_ind), reinterpret_cast<const float*>(data_values),
+      n_samples, n_features, reinterpret_cast<float*>(num));
+}
+
+static inline void launch_pre_den_sparse(std::uintptr_t data_col_ind, std::uintptr_t data_values,
+                                         int nnz, std::uintptr_t mean_array, std::uintptr_t den,
+                                         std::uintptr_t counter) {
+  dim3 block(32);
+  dim3 grid((nnz + block.x - 1) / block.x);
+  pre_den_sparse_kernel<<<grid, block>>>(
+      reinterpret_cast<const int*>(data_col_ind), reinterpret_cast<const float*>(data_values), nnz,
+      reinterpret_cast<const float*>(mean_array), reinterpret_cast<float*>(den),
+      reinterpret_cast<int*>(counter));
+}
+
+NB_MODULE(_autocorr_cuda, m) {
+  m.def("morans_dense", &launch_morans_dense);
+  m.def("morans_sparse", &launch_morans_sparse);
+  m.def("gearys_dense", &launch_gearys_dense);
+  m.def("gearys_sparse", &launch_gearys_sparse);
+  m.def("pre_den_sparse", &launch_pre_den_sparse);
+}
diff --git a/src/rapids_singlecell/_cuda/autocorr/kernels_autocorr.cuh b/src/rapids_singlecell/_cuda/autocorr/kernels_autocorr.cuh
new file mode 100644
index 00000000..7bc3c456
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/autocorr/kernels_autocorr.cuh
@@ -0,0 +1,178 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+// Moran's I - dense numerator
+__global__ void morans_I_num_dense_kernel(const float* __restrict__ data_centered,
+                                          const int* __restrict__ adj_row_ptr,
+                                          const int* __restrict__ adj_col_ind,
+                                          const float* __restrict__ adj_data,
+                                          float* __restrict__ num, int n_samples, int n_features) {
+  int f = blockIdx.x * blockDim.x + threadIdx.x;
+  int i = blockIdx.y * blockDim.y + threadIdx.y;
+  if (i >= n_samples || f >= n_features) {
+    return;
+  }
+  int k_start = adj_row_ptr[i];
+  int k_end = adj_row_ptr[i + 1];
+  for (int k = k_start; k < k_end; ++k) {
+    int j = adj_col_ind[k];
+    float w = adj_data[k];
+    float prod = data_centered[i * n_features + f] * data_centered[j * n_features + f];
+    atomicAdd(&num[f], w * prod);
+  }
+}
+
+// Moran's I - sparse numerator
+__global__ void morans_I_num_sparse_kernel(
+    const int* __restrict__ adj_row_ptr, const int* __restrict__ adj_col_ind,
+    const float* __restrict__ adj_data, const int* __restrict__ data_row_ptr,
+    const int* __restrict__ data_col_ind, const float* __restrict__ data_values, int n_samples,
+    int n_features, const float* __restrict__ mean_array, float* __restrict__ num) {
+  int i = blockIdx.x;
+  if (i >= n_samples) {
+    return;
+  }
+  int numThreads = blockDim.x;
+  int threadid = threadIdx.x;
+
+  __shared__ float cell1[3072];
+  __shared__ float cell2[3072];
+  int numruns = (n_features + 3072 - 1) / 3072;
+  int k_start = adj_row_ptr[i];
+  int k_end = adj_row_ptr[i + 1];
+  for (int k = k_start; k < k_end; ++k) {
+    int j = adj_col_ind[k];
+    float w = adj_data[k];
+    int cell1_start = data_row_ptr[i];
+    int cell1_stop = data_row_ptr[i + 1];
+    int cell2_start = data_row_ptr[j];
+    int cell2_stop = data_row_ptr[j + 1];
+    for (int run = 0; run < numruns; ++run) {
+      for (int idx = threadid; idx < 3072; idx += numThreads) {
+        cell1[idx] = 0.0f;
+        cell2[idx] = 0.0f;
+      }
+      __syncthreads();
+      int batch_start = 3072 * run;
+      int batch_end = 3072 * (run + 1);
+      for (int a = cell1_start + threadid; a < cell1_stop; a += numThreads) {
+        int g = data_col_ind[a];
+        if (g >= batch_start && g < batch_end) {
+          cell1[g % 3072] = data_values[a];
+        }
+      }
+      __syncthreads();
+      for (int b = cell2_start + threadid; b < cell2_stop; b += numThreads) {
+        int g = data_col_ind[b];
+        if (g >= batch_start && g < batch_end) {
+          cell2[g % 3072] = data_values[b];
+        }
+      }
+      __syncthreads();
+      for (int gene = threadid; gene < 3072; gene += numThreads) {
+        int global_gene = batch_start + gene;
+        if (global_gene < n_features) {
+          float prod =
+              (cell1[gene] - mean_array[global_gene]) * (cell2[gene] - mean_array[global_gene]);
+          atomicAdd(&num[global_gene], w * prod);
+        }
+      }
+    }
+  }
+}
+
+// Geary's C - dense numerator
+__global__ void gearys_C_num_dense_kernel(const float* __restrict__ data,
+                                          const int* __restrict__ adj_row_ptr,
+                                          const int* __restrict__ adj_col_ind,
+                                          const float* __restrict__ adj_data,
+                                          float* __restrict__ num, int n_samples, int n_features) {
+  int f = blockIdx.x * blockDim.x + threadIdx.x;
+  int i = blockIdx.y * blockDim.y + threadIdx.y;
+  if (i >= n_samples || f >= n_features) {
+    return;
+  }
+  int k_start = adj_row_ptr[i];
+  int k_end = adj_row_ptr[i + 1];
+  for (int k = k_start; k < k_end; ++k) {
+    int j = adj_col_ind[k];
+    float w = adj_data[k];
+    float diff = data[i * n_features + f] - data[j * n_features + f];
+    atomicAdd(&num[f], w * diff * diff);
+  }
+}
+
+// Geary's C - sparse numerator
+__global__ void gearys_C_num_sparse_kernel(const int* __restrict__ adj_row_ptr,
+                                           const int* __restrict__ adj_col_ind,
+                                           const float* __restrict__ adj_data,
+                                           const int* __restrict__ data_row_ptr,
+                                           const int* __restrict__ data_col_ind,
+                                           const float* __restrict__ data_values, int n_samples,
+                                           int n_features, float* __restrict__ num) {
+  int i = blockIdx.x;
+  int numThreads = blockDim.x;
+  int threadid = threadIdx.x;
+  __shared__ float cell1[3072];
+  __shared__ float cell2[3072];
+  int numruns = (n_features + 3072 - 1) / 3072;
+  if (i >= n_samples) {
+    return;
+  }
+  int k_start = adj_row_ptr[i];
+  int k_end = adj_row_ptr[i + 1];
+  for (int k = k_start; k < k_end; ++k) {
+    int j = adj_col_ind[k];
+    float w = adj_data[k];
+    int cell1_start = data_row_ptr[i];
+    int cell1_stop = data_row_ptr[i + 1];
+    int cell2_start = data_row_ptr[j];
+    int cell2_stop = data_row_ptr[j + 1];
+    for (int run = 0; run < numruns; ++run) {
+      for (int idx = threadid; idx < 3072; idx += numThreads) {
+        cell1[idx] = 0.0f;
+        cell2[idx] = 0.0f;
+      }
+      __syncthreads();
+      int batch_start = 3072 * run;
+      int batch_end = 3072 * (run + 1);
+      for (int a = cell1_start + threadid; a < cell1_stop; a += numThreads) {
+        int g = data_col_ind[a];
+        if (g >= batch_start && g < batch_end) {
+          cell1[g % 3072] = data_values[a];
+        }
+      }
+      __syncthreads();
+      for (int b = cell2_start + threadid; b < cell2_stop; b += numThreads) {
+        int g = data_col_ind[b];
+        if (g >= batch_start && g < batch_end) {
+          cell2[g % 3072] = data_values[b];
+        }
+      }
+      __syncthreads();
+      for (int gene = threadid; gene < 3072; gene += numThreads) {
+        int global_gene = batch_start + gene;
+        if (global_gene < n_features) {
+          float diff = cell1[gene] - cell2[gene];
+          atomicAdd(&num[global_gene], w * diff * diff);
+        }
+      }
+    }
+  }
+}
+
+// Pre-denominator for sparse paths
+__global__ void pre_den_sparse_kernel(const int* __restrict__ data_col_ind,
+                                      const float* __restrict__ data_values, int nnz,
+                                      const float* __restrict__ mean_array, float* __restrict__ den,
+                                      int* __restrict__ counter) {
+  int i = blockIdx.x * blockDim.x + threadIdx.x;
+  if (i >= nnz) {
+    return;
+  }
+  int geneidx = data_col_ind[i];
+  float value = data_values[i] - mean_array[geneidx];
+  atomicAdd(&counter[geneidx], 1);
+  atomicAdd(&den[geneidx], value * value);
+}
diff --git a/src/rapids_singlecell/_cuda/bbknn/bbknn.cu b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
new file mode 100644
index 00000000..872cccc1
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
@@ -0,0 +1,42 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_bbknn.cuh"
+
+namespace nb = nanobind;
+
+static inline void launch_find_top_k_per_row(std::uintptr_t data_ptr, std::uintptr_t indptr_ptr,
+                                             int n_rows, int trim, std::uintptr_t vals_ptr) {
+  dim3 block(64);
+  dim3 grid((n_rows + 64 - 1) / 64);
+  std::size_t shared_mem_size =
+      static_cast<std::size_t>(64) * static_cast<std::size_t>(trim) * sizeof(float);
+  const float* data = reinterpret_cast<const float*>(data_ptr);
+  const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
+  float* vals = reinterpret_cast<float*>(vals_ptr);
+  find_top_k_per_row_kernel<<<grid, block, shared_mem_size>>>(data, indptr, n_rows, trim, vals);
+}
+
+static inline void launch_cut_smaller(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
+                                      std::uintptr_t data_ptr, std::uintptr_t vals_ptr,
+                                      int n_rows) {
+  dim3 grid(n_rows);
+  dim3 block(64);
+  int* indptr = reinterpret_cast<int*>(indptr_ptr);
+  int* index = reinterpret_cast<int*>(index_ptr);
+  float* data = reinterpret_cast<float*>(data_ptr);
+  float* vals = reinterpret_cast<float*>(vals_ptr);
+  cut_smaller_kernel<<<grid, block>>>(indptr, index, data, vals, n_rows);
+}
+
+NB_MODULE(_bbknn_cuda, m) {
+  m.def("find_top_k_per_row",
+        [](std::uintptr_t data, std::uintptr_t indptr, int n_rows, int trim, std::uintptr_t vals) {
+          launch_find_top_k_per_row(data, indptr, n_rows, trim, vals);
+        });
+
+  m.def("cut_smaller",
+        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t vals,
+           int n_rows) { launch_cut_smaller(indptr, index, data, vals, n_rows); });
+}
diff --git a/src/rapids_singlecell/_cuda/bbknn/kernels_bbknn.cuh b/src/rapids_singlecell/_cuda/bbknn/kernels_bbknn.cuh
new file mode 100644
index 00000000..27fc9017
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/bbknn/kernels_bbknn.cuh
@@ -0,0 +1,70 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+__global__ void find_top_k_per_row_kernel(const float* __restrict__ data,
+                                          const int* __restrict__ indptr, const int n_rows,
+                                          const int trim, float* __restrict__ vals) {
+  int row = blockIdx.x * blockDim.x + threadIdx.x;
+  if (row >= n_rows) {
+    return;
+  }
+
+  int start = indptr[row];
+  int end = indptr[row + 1];
+  int length = end - start;
+
+  if (length <= trim) {
+    vals[row] = 0.0f;  // insufficient elements
+    return;
+  }
+
+  extern __shared__ float shared_memory[];
+  int shared_offset = threadIdx.x * trim;
+  float* top_k = &shared_memory[shared_offset];
+
+  // Initialize top_k with zeros
+  for (int i = 0; i < trim; ++i) {
+    top_k[i] = 0.0f;
+  }
+
+  int min_index = 0;
+  // Process each element in the row
+  for (int idx = start; idx < end; ++idx) {
+    float v = data[idx];
+    if (v <= top_k[min_index]) {
+      continue;
+    }
+    // Replace the current minimum in top_k
+    top_k[min_index] = v;
+    // Find new smallest element index in top_k
+    for (int i = 0; i < trim; ++i) {
+      if (top_k[i] < top_k[min_index]) {
+        min_index = i;
+      }
+    }
+  }
+
+  vals[row] = top_k[min_index];
+}
+
+__global__ void cut_smaller_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                   float* __restrict__ data, const float* __restrict__ vals,
+                                   const int n_rows) {
+  int row_id = blockIdx.x;
+  if (row_id >= n_rows) {
+    return;
+  }
+
+  int start_idx = indptr[row_id];
+  int stop_idx = indptr[row_id + 1];
+  float cut_row = vals[row_id];
+
+  for (int i = start_idx + threadIdx.x; i < stop_idx; i += blockDim.x) {
+    float neighbor_cut = vals[index[i]];
+    float cut = fmaxf(neighbor_cut, cut_row);
+    if (data[i] < cut) {
+      data[i] = 0.0f;
+    }
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/cooc/cooc.cu b/src/rapids_singlecell/_cuda/cooc/cooc.cu
new file mode 100644
index 00000000..9163546f
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/cooc/cooc.cu
@@ -0,0 +1,89 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_cooc.cuh"
+
+namespace nb = nanobind;
+
+static inline void launch_count_pairwise(std::uintptr_t spatial, std::uintptr_t thresholds,
+                                         std::uintptr_t labels, std::uintptr_t result, int n, int k,
+                                         int l_val) {
+  dim3 grid(n);
+  dim3 block(32);
+  occur_count_kernel_pairwise<<<grid, block>>>(
+      reinterpret_cast<const float*>(spatial), reinterpret_cast<const float*>(thresholds),
+      reinterpret_cast<const int*>(labels), reinterpret_cast<int*>(result), n, k, l_val);
+}
+
+static inline bool launch_reduce_shared(std::uintptr_t result, std::uintptr_t out, int k, int l_val,
+                                        int format) {
+  int device = 0;
+  cudaGetDevice(&device);
+  cudaDeviceProp prop;
+  cudaGetDeviceProperties(&prop, device);
+  if (prop.sharedMemPerBlock <
+      static_cast<std::size_t>(k) * static_cast<std::size_t>(k + 1) * sizeof(float)) {
+    return false;
+  }
+
+  dim3 grid(l_val);
+  dim3 block(32);
+
+  std::size_t smem = static_cast<std::size_t>(k) * static_cast<std::size_t>(k + 1) * sizeof(float);
+  occur_reduction_kernel_shared<<<grid, block, smem>>>(
+      reinterpret_cast<const int*>(result), reinterpret_cast<float*>(out), k, l_val, format);
+  return true;
+}
+
+static inline void launch_reduce_global(std::uintptr_t result, std::uintptr_t inter_out,
+                                        std::uintptr_t out, int k, int l_val, int format) {
+  dim3 grid(l_val);
+  dim3 block(32);
+  std::size_t smem = static_cast<std::size_t>(k) * sizeof(float);
+  occur_reduction_kernel_global<<<grid, block, smem>>>(
+      reinterpret_cast<const int*>(result), reinterpret_cast<float*>(inter_out),
+      reinterpret_cast<float*>(out), k, l_val, format);
+}
+
+// Auto-pick threads-per-block; return false if insufficient shared memory
+static inline bool launch_count_csr_catpairs_auto(
+    std::uintptr_t spatial, std::uintptr_t thresholds, std::uintptr_t cat_offsets,
+    std::uintptr_t cell_indices, std::uintptr_t pair_left, std::uintptr_t pair_right,
+    std::uintptr_t counts_delta, int num_pairs, int k, int l_val) {
+  int device = 0;
+  cudaGetDevice(&device);
+  cudaDeviceProp prop;
+  cudaGetDeviceProperties(&prop, device);
+  int l_pad = ((l_val + 31) / 32) * 32;
+  int chosen = 0;
+  for (int tpb : {1024, 512, 256, 128, 64, 32}) {
+    int warps = tpb / 32;
+    std::size_t req =
+        static_cast<std::size_t>(warps) * static_cast<std::size_t>(l_pad) * sizeof(int);
+    if (req <= prop.sharedMemPerBlock) {
+      chosen = tpb;
+      break;
+    }
+  }
+  if (chosen == 0) {
+    return false;
+  }
+  std::size_t smem =
+      static_cast<std::size_t>(chosen / 32) * static_cast<std::size_t>(l_pad) * sizeof(int);
+  dim3 grid(num_pairs);
+  dim3 block(chosen);
+  occur_count_kernel_csr_catpairs<<<grid, block, smem>>>(
+      reinterpret_cast<const float*>(spatial), reinterpret_cast<const float*>(thresholds),
+      reinterpret_cast<const int*>(cat_offsets), reinterpret_cast<const int*>(cell_indices),
+      reinterpret_cast<const int*>(pair_left), reinterpret_cast<const int*>(pair_right),
+      reinterpret_cast<int*>(counts_delta), k, l_val);
+  return true;
+}
+
+NB_MODULE(_cooc_cuda, m) {
+  m.def("count_pairwise", &launch_count_pairwise);
+  m.def("reduce_shared", &launch_reduce_shared);
+  m.def("reduce_global", &launch_reduce_global);
+  m.def("count_csr_catpairs_auto", &launch_count_csr_catpairs_auto);
+}
diff --git a/src/rapids_singlecell/_cuda/cooc/kernels_cooc.cuh b/src/rapids_singlecell/_cuda/cooc/kernels_cooc.cuh
new file mode 100644
index 00000000..8d585185
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/cooc/kernels_cooc.cuh
@@ -0,0 +1,366 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+__global__ void occur_count_kernel_pairwise(const float* __restrict__ spatial,
+                                            const float* __restrict__ thresholds,
+                                            const int* __restrict__ label_idx,
+                                            int* __restrict__ result, int n, int k, int l_val) {
+  int i = blockIdx.x;
+  int s = i % 2;
+  if (i >= n) return;
+  int offset = (i % 4 < 2) ? 0 : l_val;
+  float spx = spatial[i * 2];
+  float spy = spatial[i * 2 + 1];
+  int label_i = label_idx[i];
+
+  for (int j = i + 1; j < n; j++) {
+    float dx = spx - spatial[j * 2];
+    float dy = spy - spatial[j * 2 + 1];
+    float dist_sq = dx * dx + dy * dy;
+
+    int low = label_i;
+    int high = label_idx[j];
+    if (high < low) {
+      int tmp = low;
+      low = high;
+      high = tmp;
+    }
+    if (s == 0) {
+      int tmp = low;
+      low = high;
+      high = tmp;
+    }
+    for (int r = threadIdx.x; r < l_val; r += blockDim.x) {
+      if (dist_sq <= thresholds[r]) {
+        int index = low * (k * l_val * 2) + high * l_val * 2 + r + offset;
+        atomicAdd(&result[index], 1);
+      }
+    }
+  }
+}
+
+__global__ void occur_reduction_kernel_shared(const int* __restrict__ result,
+                                              float* __restrict__ out, int k, int l_val,
+                                              int format) {
+  // Each block handles one threshold index.
+  int r_th = blockIdx.x;  // threshold index
+
+  // Shared memory allocation
+  extern __shared__ float shared[];
+  float* Y = shared;
+  float* col_sum = shared + (k * k);
+
+  int total_elements = k * k;
+
+  // Initialize shared memory
+  for (int i = threadIdx.x; i < total_elements; i += blockDim.x) {
+    Y[i] = 0.0f;
+  }
+  __syncthreads();
+
+  // --- Load counts for this threshold and convert to float---
+  if (format == 0) {
+    for (int i = threadIdx.x; i < k; i += blockDim.x) {
+      for (int j = 0; j < k; j++) {
+        Y[i * k + j] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th]);
+        Y[j * k + i] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th]);
+        Y[i * k + j] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th + l_val]);
+        Y[j * k + i] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th + l_val]);
+      }
+    }
+  } else {
+    for (int i = threadIdx.x; i < k; i += blockDim.x) {
+      for (int j = 0; j < k; j++) {
+        float v = float(result[i * (k * l_val) + j * l_val + r_th]);
+        Y[i * k + j] += v;
+        Y[j * k + i] += v;
+      }
+    }
+  }
+  __syncthreads();
+
+  // Compute total sum of the counts
+  __shared__ float total;
+  float sum_val = 0.0f;
+  for (int idx = threadIdx.x; idx < k * k; idx += blockDim.x) {
+    sum_val += Y[idx];
+  }
+
+  // Warp-level reduction
+  unsigned int mask = 0xFFFFFFFF;  // full warp mask
+  for (int offset = warpSize / 2; offset > 0; offset /= 2) {
+    sum_val += __shfl_down_sync(mask, sum_val, offset);
+  }
+
+  if (threadIdx.x == 0) {
+    total = sum_val;
+  }
+  __syncthreads();
+
+  // Normalize the matrix Y = Y / total (if total > 0)
+  if (total > 0.0f) {
+    for (int idx = threadIdx.x; idx < total_elements; idx += blockDim.x) {
+      Y[idx] = Y[idx] / total;
+    }
+  } else {
+    for (int i = threadIdx.x; i < k; i += blockDim.x) {
+      for (int j = 0; j < k; j++) {
+        out[i * (k * l_val) + j * l_val + r_th] = 0.0f;
+      }
+    }
+    return;
+  }
+  __syncthreads();
+
+  // Compute column sums of the normalized matrix
+  for (int j = threadIdx.x; j < k; j += blockDim.x) {
+    float sum_col = 0.0f;
+    for (int i = 0; i < k; i++) {
+      sum_col += Y[i * k + j];
+    }
+    col_sum[j] = sum_col;
+  }
+  __syncthreads();
+
+  // Compute conditional probabilities
+  for (int i = threadIdx.x; i < k; i += blockDim.x) {
+    float row_sum = 0.0f;
+    for (int j = 0; j < k; j++) {
+      row_sum += Y[i * k + j];
+    }
+
+    for (int j = 0; j < k; j++) {
+      float cond = 0.0f;
+      if (row_sum != 0.0f) {
+        cond = Y[i * k + j] / row_sum;
+      }
+
+      float final_val = 0.0f;
+      if (col_sum[j] != 0.0f) {
+        final_val = cond / col_sum[j];
+      }
+
+      // Write to output with (row, column, threshold) ordering
+      out[i * (k * l_val) + j * l_val + r_th] = final_val;
+    }
+  }
+  __syncthreads();
+}
+
+__global__ void occur_reduction_kernel_global(const int* __restrict__ result,
+                                              float* __restrict__ inter_out,
+                                              float* __restrict__ out, int k, int l_val,
+                                              int format) {
+  // Each block handles one threshold index.
+  int r_th = blockIdx.x;  // threshold index
+  if (r_th >= l_val) return;
+  // Shared memory allocation
+  extern __shared__ float shared[];
+  float* Y = inter_out + r_th * k * k;
+  float* col_sum = shared;
+
+  int total_elements = k * k;
+
+  // --- Load counts for this threshold and convert to float---
+  if (format == 0) {
+    for (int i = threadIdx.x; i < k; i += blockDim.x) {
+      for (int j = 0; j < k; j++) {
+        Y[i * k + j] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th]);
+        Y[j * k + i] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th]);
+        Y[i * k + j] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th + l_val]);
+        Y[j * k + i] += float(result[i * (k * l_val * 2) + j * l_val * 2 + r_th + l_val]);
+      }
+    }
+  } else {
+    for (int i = threadIdx.x; i < k; i += blockDim.x) {
+      for (int j = 0; j < k; j++) {
+        float v = float(result[i * (k * l_val) + j * l_val + r_th]);
+        Y[i * k + j] += v;
+        Y[j * k + i] += v;
+      }
+    }
+  }
+  __syncthreads();
+
+  // Compute total sum of the counts
+  __shared__ float total;
+  float sum_val = 0.0f;
+  for (int idx = threadIdx.x; idx < total_elements; idx += blockDim.x) {
+    sum_val += Y[idx];
+  }
+  __syncthreads();
+  // Warp-level reduction
+  unsigned int mask = 0xFFFFFFFF;  // full warp mask
+  for (int offset = warpSize / 2; offset > 0; offset /= 2) {
+    sum_val += __shfl_down_sync(mask, sum_val, offset);
+  }
+  __syncthreads();
+  if (threadIdx.x == 0) {
+    total = sum_val;
+  }
+  __syncthreads();
+
+  // Normalize the matrix Y = Y / total (if total > 0)
+  if (total > 0.0f) {
+    for (int idx = threadIdx.x; idx < total_elements; idx += blockDim.x) {
+      Y[idx] = Y[idx] / total;
+    }
+  } else {
+    for (int i = threadIdx.x; i < k; i += blockDim.x) {
+      for (int j = 0; j < k; j++) {
+        out[i * (k * l_val) + j * l_val + r_th] = 0.0f;
+      }
+    }
+    return;
+  }
+  __syncthreads();
+
+  // Compute column sums of the normalized matrix
+  for (int j = threadIdx.x; j < k; j += blockDim.x) {
+    float sum_col = 0.0f;
+    for (int i = 0; i < k; i++) {
+      sum_col += Y[i * k + j];
+    }
+    col_sum[j] = sum_col;
+  }
+  __syncthreads();
+
+  // Compute conditional probabilities
+  for (int i = threadIdx.x; i < k; i += blockDim.x) {
+    float row_sum = 0.0f;
+    for (int j = 0; j < k; j++) {
+      row_sum += Y[i * k + j];
+    }
+
+    for (int j = 0; j < k; j++) {
+      float cond = 0.0f;
+      if (row_sum != 0.0f) {
+        cond = Y[i * k + j] / row_sum;
+      }
+
+      float final_val = 0.0f;
+      if (col_sum[j] != 0.0f) {
+        final_val = cond / col_sum[j];
+      }
+
+      // Write to output with (row, column, threshold) ordering
+      out[i * (k * l_val) + j * l_val + r_th] = final_val;
+    }
+  }
+  __syncthreads();
+}
+
+__global__ void occur_count_kernel_csr_catpairs(const float* __restrict__ spatial,
+                                                const float* __restrict__ thresholds,
+                                                const int* __restrict__ cat_offsets,
+                                                const int* __restrict__ cell_indices,
+                                                const int* __restrict__ pair_left,
+                                                const int* __restrict__ pair_right,
+                                                int* __restrict__ counts_delta, int k, int l_val) {
+  // Shared memory layout: per-warp histograms of length l_pad
+  const int l_pad = ((l_val + 31) / 32) * 32;
+  extern __shared__ int shared_hist[];  // size: warps_per_block * l_pad
+  const int lane = threadIdx.x & 31;
+  const int warp_id = threadIdx.x >> 5;  // /32
+  const int warps_per_block = blockDim.x >> 5;
+  int* warp_hist = shared_hist + warp_id * l_pad;
+
+  // Zero per-warp histograms (only the first l_val bins)
+  for (int r = lane; r < l_pad; r += 32) {
+    warp_hist[r] = 0;
+  }
+  __syncthreads();
+
+  const int a = pair_left[blockIdx.x];
+  const int b = pair_right[blockIdx.x];
+
+  const int start_a = cat_offsets[a];
+  const int end_a = cat_offsets[a + 1];
+  const int start_b = cat_offsets[b];
+  const int end_b = cat_offsets[b + 1];
+
+  if (a == b) {
+    // Same-category: enumerate i<j within [start_a, end_a)
+    for (int ia = start_a + threadIdx.x; ia < end_a; ia += blockDim.x) {
+      const int idx_i = cell_indices[ia];
+      const float xi = spatial[idx_i * 2];
+      const float yi = spatial[idx_i * 2 + 1];
+      for (int jb = ia + 1; jb < end_a; ++jb) {
+        const int idx_j = cell_indices[jb];
+        const float dx = xi - spatial[idx_j * 2];
+        const float dy = yi - spatial[idx_j * 2 + 1];
+        const float dist_sq = dx * dx + dy * dy;
+        // lower_bound on thresholds
+        int lo = 0;
+        int hi = l_val;
+        while (lo < hi) {
+          int mid = (lo + hi) >> 1;
+          if (dist_sq <= thresholds[mid]) {
+            hi = mid;
+          } else {
+            lo = mid + 1;
+          }
+        }
+        if (lo < l_val) {
+          atomicAdd(&warp_hist[lo], 1);
+        }
+      }
+    }
+  } else {
+    // Cross-category: enumerate full cartesian product
+    for (int ia = start_a + threadIdx.x; ia < end_a; ia += blockDim.x) {
+      const int idx_i = cell_indices[ia];
+      const float xi = spatial[idx_i * 2];
+      const float yi = spatial[idx_i * 2 + 1];
+      for (int jb = start_b; jb < end_b; ++jb) {
+        const int idx_j = cell_indices[jb];
+        const float dx = xi - spatial[idx_j * 2];
+        const float dy = yi - spatial[idx_j * 2 + 1];
+        const float dist_sq = dx * dx + dy * dy;
+        // lower_bound on thresholds
+        int lo = 0;
+        int hi = l_val;
+        while (lo < hi) {
+          int mid = (lo + hi) >> 1;
+          if (dist_sq <= thresholds[mid]) {
+            hi = mid;
+          } else {
+            lo = mid + 1;
+          }
+        }
+        if (lo < l_val) {
+          atomicAdd(&warp_hist[lo], 1);
+        }
+      }
+    }
+  }
+  __syncthreads();
+
+  // Reduce warp histograms into block result and write cumulative to global counts
+  if (warp_id == 0) {
+    // First, sum each bin across warps into warp0's histogram
+    for (int r = lane; r < l_pad; r += 32) {
+      int sum = 0;
+      for (int w = 0; w < warps_per_block; ++w) {
+        sum += shared_hist[w * l_pad + r];
+      }
+      shared_hist[r] = sum;  // warp0 region reused as accumulator
+    }
+    __syncwarp();
+    // Inclusive scan (cumulative) along thresholds in warp0 region
+    // Do a simple sequential scan by a single thread to avoid warp divergence
+    if (threadIdx.x == 0) {
+      int acc = 0;
+      for (int r = 0; r < l_val; ++r) {
+        acc += shared_hist[r];
+        shared_hist[r] = acc;
+      }
+    }
+    __syncthreads();
+    // Write cumulative counts to global (k, k, l_val) layout
+    for (int r = lane; r < l_val; r += 32) {
+      counts_delta[a * (k * l_val) + b * l_val + r] = shared_hist[r];
+    }
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/mean_var/kernels.cuh b/src/rapids_singlecell/_cuda/mean_var/kernels_mv.cuh
similarity index 100%
rename from src/rapids_singlecell/_cuda/mean_var/kernels.cuh
rename to src/rapids_singlecell/_cuda/mean_var/kernels_mv.cuh
diff --git a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
index c994a823..28648f49 100644
--- a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
+++ b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
@@ -2,7 +2,7 @@
 #include <nanobind/nanobind.h>
 #include <cstdint>
 
-#include "kernels.cuh"
+#include "kernels_mv.cuh"
 
 namespace nb = nanobind;
 using nb::handle;
@@ -47,11 +47,6 @@ void mean_var_minor_api(std::uintptr_t indices, std::uintptr_t data, std::uintpt
 }
 
 NB_MODULE(_mean_var_cuda, m) {
-  m.def("mean_var_major_f32", &mean_var_major_api<float>);
-  m.def("mean_var_major_f64", &mean_var_major_api<double>);
-  m.def("mean_var_minor_f32", &mean_var_minor_api<float>);
-  m.def("mean_var_minor_f64", &mean_var_minor_api<double>);
-
   m.def("mean_var_major",
         [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
            std::uintptr_t vars, int major, int minor, int itemsize) {
diff --git a/src/rapids_singlecell/_cuda/nanmean/kernels_nanmean.cuh b/src/rapids_singlecell/_cuda/nanmean/kernels_nanmean.cuh
new file mode 100644
index 00000000..5fe4f808
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/nanmean/kernels_nanmean.cuh
@@ -0,0 +1,68 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void nan_mean_minor_kernel(const int* __restrict__ index, const T* __restrict__ data,
+                                      double* __restrict__ means, int* __restrict__ nans,
+                                      const bool* __restrict__ mask, int nnz) {
+  int idx = blockIdx.x * blockDim.x + threadIdx.x;
+  if (idx >= nnz) {
+    return;
+  }
+  int minor_pos = index[idx];
+  if (mask[minor_pos] == false) {
+    return;
+  }
+  T v = data[idx];
+  if (isnan((double)v)) {
+    atomicAdd(&nans[minor_pos], 1);
+  } else {
+    atomicAdd(&means[minor_pos], (double)v);
+  }
+}
+
+template <typename T>
+__global__ void nan_mean_major_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                      const T* __restrict__ data, double* __restrict__ means,
+                                      int* __restrict__ nans, const bool* __restrict__ mask,
+                                      int major, int minor) {
+  int major_idx = blockIdx.x;
+  if (major_idx >= major) {
+    return;
+  }
+  int start_idx = indptr[major_idx];
+  int stop_idx = indptr[major_idx + 1];
+
+  __shared__ double mean_place[64];
+  __shared__ int nan_place[64];
+
+  mean_place[threadIdx.x] = 0.0;
+  nan_place[threadIdx.x] = 0;
+  __syncthreads();
+
+  for (int minor_idx = start_idx + threadIdx.x; minor_idx < stop_idx; minor_idx += blockDim.x) {
+    int gene_number = index[minor_idx];
+    if (mask[gene_number]) {
+      T v = data[minor_idx];
+      if (isnan((double)v)) {
+        nan_place[threadIdx.x] += 1;
+      } else {
+        mean_place[threadIdx.x] += (double)v;
+      }
+    }
+  }
+  __syncthreads();
+
+  for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
+    if (threadIdx.x < s) {
+      mean_place[threadIdx.x] += mean_place[threadIdx.x + s];
+      nan_place[threadIdx.x] += nan_place[threadIdx.x + s];
+    }
+    __syncthreads();
+  }
+  if (threadIdx.x == 0) {
+    means[major_idx] = mean_place[0];
+    nans[major_idx] = nan_place[0];
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/nanmean/nanmean.cu b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
new file mode 100644
index 00000000..ddcbe5dc
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
@@ -0,0 +1,55 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_nanmean.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_nan_mean_minor(std::uintptr_t index, std::uintptr_t data,
+                                         std::uintptr_t means, std::uintptr_t nans,
+                                         std::uintptr_t mask, int nnz) {
+  dim3 block(32);
+  dim3 grid((nnz + block.x - 1) / block.x);
+  nan_mean_minor_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(index), reinterpret_cast<const T*>(data),
+                        reinterpret_cast<double*>(means), reinterpret_cast<int*>(nans),
+                        reinterpret_cast<const bool*>(mask), nnz);
+}
+
+template <typename T>
+static inline void launch_nan_mean_major(std::uintptr_t indptr, std::uintptr_t index,
+                                         std::uintptr_t data, std::uintptr_t means,
+                                         std::uintptr_t nans, std::uintptr_t mask, int major,
+                                         int minor) {
+  dim3 block(64);
+  dim3 grid(major);
+  nan_mean_major_kernel<T><<<grid, block>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<double*>(means),
+      reinterpret_cast<int*>(nans), reinterpret_cast<const bool*>(mask), major, minor);
+}
+
+NB_MODULE(_nanmean_cuda, m) {
+  m.def("nan_mean_minor", [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t means,
+                             std::uintptr_t nans, std::uintptr_t mask, int nnz, int itemsize) {
+    if (itemsize == 4)
+      launch_nan_mean_minor<float>(index, data, means, nans, mask, nnz);
+    else if (itemsize == 8)
+      launch_nan_mean_minor<double>(index, data, means, nans, mask, nnz);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+
+  m.def("nan_mean_major",
+        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t means,
+           std::uintptr_t nans, std::uintptr_t mask, int major, int minor, int itemsize) {
+          if (itemsize == 4)
+            launch_nan_mean_major<float>(indptr, index, data, means, nans, mask, major, minor);
+          else if (itemsize == 8)
+            launch_nan_mean_major<double>(indptr, index, data, means, nans, mask, major, minor);
+          else
+            throw nb::value_error("Unsupported itemsize");
+        });
+}
diff --git a/src/rapids_singlecell/_cuda/nn_descent/kernels_dist.cuh b/src/rapids_singlecell/_cuda/nn_descent/kernels_dist.cuh
new file mode 100644
index 00000000..184fecd3
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/nn_descent/kernels_dist.cuh
@@ -0,0 +1,78 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+__global__ void compute_distances_sqeuclidean_kernel(const float* __restrict__ data,
+                                                     float* __restrict__ out,
+                                                     const unsigned int* __restrict__ pairs,
+                                                     long long n_samples, long long n_features,
+                                                     long long n_neighbors) {
+  long long i1 = blockDim.x * blockIdx.x + threadIdx.x;
+  if (i1 >= n_samples) {
+    return;
+  }
+  for (long long j = 0; j < n_neighbors; ++j) {
+    long long i2 = static_cast<long long>(pairs[i1 * n_neighbors + j]);
+    float dist = 0.0f;
+    long long base1 = i1 * n_features;
+    long long base2 = i2 * n_features;
+    for (long long d = 0; d < n_features; ++d) {
+      float diff = data[base1 + d] - data[base2 + d];
+      dist += diff * diff;  // powf(diff, 2)
+    }
+    out[i1 * n_neighbors + j] = dist;
+  }
+}
+
+__global__ void compute_distances_cosine_kernel(const float* __restrict__ data,
+                                                float* __restrict__ out,
+                                                const unsigned int* __restrict__ pairs,
+                                                long long n_samples, long long n_features,
+                                                long long n_neighbors) {
+  long long i1 = blockDim.x * blockIdx.x + threadIdx.x;
+  if (i1 >= n_samples) {
+    return;
+  }
+  float sum_i1 = 0.0f;
+  long long base1 = i1 * n_features;
+  for (long long d = 0; d < n_features; ++d) {
+    float v = data[base1 + d];
+    sum_i1 += v * v;  // powf(v, 2)
+  }
+  float norm_i1 = sqrtf(sum_i1);
+  for (long long j = 0; j < n_neighbors; ++j) {
+    long long i2 = static_cast<long long>(pairs[i1 * n_neighbors + j]);
+    float dot = 0.0f;
+    float sum_i2 = 0.0f;
+    long long base2 = i2 * n_features;
+    for (long long d = 0; d < n_features; ++d) {
+      float v1 = data[base1 + d];
+      float v2 = data[base2 + d];
+      dot += v1 * v2;
+      sum_i2 += v2 * v2;  // powf(v2, 2)
+    }
+    float denom = norm_i1 * sqrtf(sum_i2);
+    out[i1 * n_neighbors + j] = 1.0f - (denom > 0.0f ? dot / denom : 0.0f);
+  }
+}
+
+__global__ void compute_distances_inner_kernel(const float* __restrict__ data,
+                                               float* __restrict__ out,
+                                               const unsigned int* __restrict__ pairs,
+                                               long long n_samples, long long n_features,
+                                               long long n_neighbors) {
+  long long i1 = blockDim.x * blockIdx.x + threadIdx.x;
+  if (i1 >= n_samples) {
+    return;
+  }
+  for (long long j = 0; j < n_neighbors; ++j) {
+    long long i2 = static_cast<long long>(pairs[i1 * n_neighbors + j]);
+    float val = 0.0f;
+    long long base1 = i1 * n_features;
+    long long base2 = i2 * n_features;
+    for (long long d = 0; d < n_features; ++d) {
+      val += data[base1 + d] * data[base2 + d];
+    }
+    out[i1 * n_neighbors + j] = val;
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
new file mode 100644
index 00000000..8a61c2b7
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
@@ -0,0 +1,41 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_dist.cuh"
+
+namespace nb = nanobind;
+
+static inline void launch_sqeuclidean(std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs,
+                                      long long n_samples, long long n_features,
+                                      long long n_neighbors) {
+  dim3 block(32);
+  dim3 grid((unsigned)((n_samples + block.x - 1) / block.x));
+  compute_distances_sqeuclidean_kernel<<<grid, block>>>(
+      reinterpret_cast<const float*>(data), reinterpret_cast<float*>(out),
+      reinterpret_cast<const unsigned int*>(pairs), n_samples, n_features, n_neighbors);
+}
+
+static inline void launch_cosine(std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs,
+                                 long long n_samples, long long n_features, long long n_neighbors) {
+  dim3 block(32);
+  dim3 grid((unsigned)((n_samples + block.x - 1) / block.x));
+  compute_distances_cosine_kernel<<<grid, block>>>(
+      reinterpret_cast<const float*>(data), reinterpret_cast<float*>(out),
+      reinterpret_cast<const unsigned int*>(pairs), n_samples, n_features, n_neighbors);
+}
+
+static inline void launch_inner(std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs,
+                                long long n_samples, long long n_features, long long n_neighbors) {
+  dim3 block(32);
+  dim3 grid((unsigned)((n_samples + block.x - 1) / block.x));
+  compute_distances_inner_kernel<<<grid, block>>>(
+      reinterpret_cast<const float*>(data), reinterpret_cast<float*>(out),
+      reinterpret_cast<const unsigned int*>(pairs), n_samples, n_features, n_neighbors);
+}
+
+NB_MODULE(_nn_descent_cuda, m) {
+  m.def("sqeuclidean", &launch_sqeuclidean);
+  m.def("cosine", &launch_cosine);
+  m.def("inner", &launch_inner);
+}
diff --git a/src/rapids_singlecell/_cuda/norm/kernels_norm.cuh b/src/rapids_singlecell/_cuda/norm/kernels_norm.cuh
new file mode 100644
index 00000000..40911edf
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/norm/kernels_norm.cuh
@@ -0,0 +1,77 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void dense_row_scale_kernel(T* __restrict__ data, int nrows, int ncols, T target_sum) {
+  int row = blockIdx.x * blockDim.x + threadIdx.x;
+  if (row >= nrows) {
+    return;
+  }
+
+  T sum = (T)0;
+  int base = row * ncols;
+  for (int c = 0; c < ncols; ++c) {
+    sum += data[base + c];
+  }
+  if (sum > (T)0) {
+    T scale = target_sum / sum;
+    for (int c = 0; c < ncols; ++c) {
+      data[base + c] *= scale;
+    }
+  }
+}
+
+template <typename T>
+__global__ void csr_row_scale_kernel(const int* __restrict__ indptr, T* __restrict__ data,
+                                     int nrows, T target_sum) {
+  int row = blockIdx.x * blockDim.x + threadIdx.x;
+  if (row >= nrows) {
+    return;
+  }
+  int start = indptr[row];
+  int stop = indptr[row + 1];
+  T sum = (T)0;
+  for (int i = start; i < stop; ++i) {
+    sum += data[i];
+  }
+  if (sum > (T)0) {
+    T scale = target_sum / sum;
+    for (int i = start; i < stop; ++i) {
+      data[i] *= scale;
+    }
+  }
+}
+
+template <typename T>
+__global__ void csr_sum_major_kernel(const int* __restrict__ indptr, const T* __restrict__ data,
+                                     T* __restrict__ sums, int major) {
+  int major_idx = blockIdx.x;
+  if (major_idx >= major) {
+    return;
+  }
+  extern __shared__ unsigned char smem[];
+  T* sum_place = reinterpret_cast<T*>(smem);
+
+  // initialize
+  sum_place[threadIdx.x] = (T)0;
+  __syncthreads();
+
+  int start = indptr[major_idx];
+  int stop = indptr[major_idx + 1];
+  for (int minor_idx = start + threadIdx.x; minor_idx < stop; minor_idx += blockDim.x) {
+    sum_place[threadIdx.x] += data[minor_idx];
+  }
+  __syncthreads();
+
+  // reduction in shared memory
+  for (unsigned int s = blockDim.x >> 1; s > 0; s >>= 1) {
+    if (threadIdx.x < s) {
+      sum_place[threadIdx.x] += sum_place[threadIdx.x + s];
+    }
+    __syncthreads();
+  }
+  if (threadIdx.x == 0) {
+    sums[major_idx] = sum_place[0];
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/norm/norm.cu b/src/rapids_singlecell/_cuda/norm/norm.cu
new file mode 100644
index 00000000..2bfaa013
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/norm/norm.cu
@@ -0,0 +1,73 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_norm.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_dense_row_scale(std::uintptr_t data_ptr, int nrows, int ncols,
+                                          T target_sum) {
+  dim3 block(128);
+  dim3 grid((nrows + block.x - 1) / block.x);
+  T* data = reinterpret_cast<T*>(data_ptr);
+  dense_row_scale_kernel<T><<<grid, block>>>(data, nrows, ncols, target_sum);
+}
+
+template <typename T>
+static inline void launch_csr_row_scale(std::uintptr_t indptr_ptr, std::uintptr_t data_ptr,
+                                        int nrows, T target_sum) {
+  dim3 block(128);
+  dim3 grid((nrows + block.x - 1) / block.x);
+  const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
+  T* data = reinterpret_cast<T*>(data_ptr);
+  csr_row_scale_kernel<T><<<grid, block>>>(indptr, data, nrows, target_sum);
+}
+
+template <typename T>
+static inline void launch_csr_sum_major(std::uintptr_t indptr_ptr, std::uintptr_t data_ptr,
+                                        std::uintptr_t sums_ptr, int major) {
+  dim3 block(64);
+  dim3 grid(major);
+  std::size_t smem = static_cast<std::size_t>(block.x) * sizeof(T);
+  const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
+  const T* data = reinterpret_cast<const T*>(data_ptr);
+  T* sums = reinterpret_cast<T*>(sums_ptr);
+  csr_sum_major_kernel<T><<<grid, block, smem>>>(indptr, data, sums, major);
+}
+
+NB_MODULE(_norm_cuda, m) {
+  m.def("mul_dense",
+        [](std::uintptr_t data, int nrows, int ncols, double target_sum, int itemsize) {
+          if (itemsize == 4) {
+            launch_dense_row_scale<float>(data, nrows, ncols, (float)target_sum);
+          } else if (itemsize == 8) {
+            launch_dense_row_scale<double>(data, nrows, ncols, target_sum);
+          } else {
+            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+          }
+        });
+
+  m.def("mul_csr",
+        [](std::uintptr_t indptr, std::uintptr_t data, int nrows, double target_sum, int itemsize) {
+          if (itemsize == 4) {
+            launch_csr_row_scale<float>(indptr, data, nrows, (float)target_sum);
+          } else if (itemsize == 8) {
+            launch_csr_row_scale<double>(indptr, data, nrows, target_sum);
+          } else {
+            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+          }
+        });
+
+  m.def("sum_major", [](std::uintptr_t indptr, std::uintptr_t data, std::uintptr_t sums, int major,
+                        int itemsize) {
+    if (itemsize == 4) {
+      launch_csr_sum_major<float>(indptr, data, sums, major);
+    } else if (itemsize == 8) {
+      launch_csr_sum_major<double>(indptr, data, sums, major);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+}
diff --git a/src/rapids_singlecell/_cuda/pr/kernels_pr.cuh b/src/rapids_singlecell/_cuda/pr/kernels_pr.cuh
new file mode 100644
index 00000000..1a31ae14
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/pr/kernels_pr.cuh
@@ -0,0 +1,76 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void sparse_norm_res_csc_kernel(
+    const int* __restrict__ indptr, const int* __restrict__ index, const T* __restrict__ data,
+    const T* __restrict__ sums_cells, const T* __restrict__ sums_genes, T* __restrict__ residuals,
+    const T inv_sum_total, const T clip, const T inv_theta, int n_cells, int n_genes) {
+  int gene = blockDim.x * blockIdx.x + threadIdx.x;
+  if (gene >= n_genes) {
+    return;
+  }
+  int start = indptr[gene];
+  int stop = indptr[gene + 1];
+  int sparse_idx = start;
+  for (int cell = 0; cell < n_cells; ++cell) {
+    T mu = sums_genes[gene] * sums_cells[cell] * inv_sum_total;
+    long long res_index = static_cast<long long>(cell) * n_genes + gene;
+    if (sparse_idx < stop && index[sparse_idx] == cell) {
+      residuals[res_index] += data[sparse_idx];
+      ++sparse_idx;
+    }
+    residuals[res_index] -= mu;
+    residuals[res_index] /= sqrtf(mu + mu * mu * inv_theta);
+    // clamp to [-clip, clip]
+    if (residuals[res_index] < -clip) residuals[res_index] = -clip;
+    if (residuals[res_index] > clip) residuals[res_index] = clip;
+  }
+}
+
+template <typename T>
+__global__ void sparse_norm_res_csr_kernel(
+    const int* __restrict__ indptr, const int* __restrict__ index, const T* __restrict__ data,
+    const T* __restrict__ sums_cells, const T* __restrict__ sums_genes, T* __restrict__ residuals,
+    const T inv_sum_total, const T clip, const T inv_theta, int n_cells, int n_genes) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  if (cell >= n_cells) {
+    return;
+  }
+  int start = indptr[cell];
+  int stop = indptr[cell + 1];
+  int sparse_idx = start;
+  for (int gene = 0; gene < n_genes; ++gene) {
+    long long res_index = static_cast<long long>(cell) * n_genes + gene;
+    T mu = sums_genes[gene] * sums_cells[cell] * inv_sum_total;
+    if (sparse_idx < stop && index[sparse_idx] == gene) {
+      residuals[res_index] += data[sparse_idx];
+      ++sparse_idx;
+    }
+    residuals[res_index] -= mu;
+    residuals[res_index] /= sqrtf(mu + mu * mu * inv_theta);
+
+    if (residuals[res_index] < -clip) residuals[res_index] = -clip;
+    if (residuals[res_index] > clip) residuals[res_index] = clip;
+  }
+}
+
+template <typename T>
+__global__ void dense_norm_res_kernel(const T* __restrict__ X, T* __restrict__ residuals,
+                                      const T* __restrict__ sums_cells,
+                                      const T* __restrict__ sums_genes, const T inv_inv_sum_total,
+                                      const T clip, const T inv_theta, int n_cells, int n_genes) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  int gene = blockDim.y * blockIdx.y + threadIdx.y;
+  if (cell >= n_cells || gene >= n_genes) {
+    return;
+  }
+  T mu = sums_genes[gene] * sums_cells[cell] * inv_inv_sum_total;
+  long long res_index = static_cast<long long>(cell) * n_genes + gene;
+  T r = X[res_index] - mu;
+  r /= sqrt(mu + mu * mu * inv_theta);
+  if (r < -clip) r = -clip;
+  if (r > clip) r = clip;
+  residuals[res_index] = r;
+}
diff --git a/src/rapids_singlecell/_cuda/pr/kernels_pr_hvg.cuh b/src/rapids_singlecell/_cuda/pr/kernels_pr_hvg.cuh
new file mode 100644
index 00000000..23fdc246
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/pr/kernels_pr_hvg.cuh
@@ -0,0 +1,90 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void csc_hvg_res_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                   const T* __restrict__ data, const T* __restrict__ sums_genes,
+                                   const T* __restrict__ sums_cells, T* __restrict__ residuals,
+                                   const T inv_sum_total, const T clip, const T inv_theta,
+                                   int n_genes, int n_cells) {
+  int gene = blockDim.x * blockIdx.x + threadIdx.x;
+  if (gene >= n_genes) {
+    return;
+  }
+  int start = indptr[gene];
+  int stop = indptr[gene + 1];
+
+  int sparse_idx = start;
+  T var_sum = (T)0;
+  T sum_clipped_res = (T)0;
+  // first pass to compute mean of clipped residuals per gene
+  for (int cell = 0; cell < n_cells; ++cell) {
+    T mu = sums_genes[gene] * sums_cells[cell] * inv_sum_total;
+    T value = (T)0;
+    if (sparse_idx < stop && index[sparse_idx] == cell) {
+      value = data[sparse_idx];
+      ++sparse_idx;
+    }
+    T mu_sum = value - mu;
+    T clipped_res = mu_sum / sqrt(mu + mu * mu * inv_theta);
+    if (clipped_res < -clip) clipped_res = -clip;
+    if (clipped_res > clip) clipped_res = clip;
+    sum_clipped_res += clipped_res;
+  }
+  T mean_clipped_res = sum_clipped_res / n_cells;
+
+  // second pass for variance
+  sparse_idx = start;
+  for (int cell = 0; cell < n_cells; ++cell) {
+    T mu = sums_genes[gene] * sums_cells[cell] * inv_sum_total;
+    T value = (T)0;
+    if (sparse_idx < stop && index[sparse_idx] == cell) {
+      value = data[sparse_idx];
+      ++sparse_idx;
+    }
+    T mu_sum = value - mu;
+    T clipped_res = mu_sum / sqrt(mu + mu * mu * inv_theta);
+    if (clipped_res < -clip) clipped_res = -clip;
+    if (clipped_res > clip) clipped_res = clip;
+    T diff = clipped_res - mean_clipped_res;
+    var_sum += diff * diff;
+  }
+  residuals[gene] = var_sum / n_cells;
+}
+
+template <typename T>
+__global__ void dense_hvg_res_kernel(const T* __restrict__ data, const T* __restrict__ sums_genes,
+                                     const T* __restrict__ sums_cells, T* __restrict__ residuals,
+                                     const T inv_sum_total, const T clip, const T inv_theta,
+                                     int n_genes, int n_cells) {
+  int gene = blockDim.x * blockIdx.x + threadIdx.x;
+  if (gene >= n_genes) {
+    return;
+  }
+  T var_sum = (T)0;
+  T sum_clipped_res = (T)0;
+  for (int cell = 0; cell < n_cells; ++cell) {
+    long long res_index = static_cast<long long>(gene) * n_cells + cell;
+    T mu = sums_genes[gene] * sums_cells[cell] * inv_sum_total;
+    T value = data[res_index];
+    T mu_sum = value - mu;
+    T clipped_res = mu_sum / sqrt(mu + mu * mu * inv_theta);
+    if (clipped_res < -clip) clipped_res = -clip;
+    if (clipped_res > clip) clipped_res = clip;
+    sum_clipped_res += clipped_res;
+  }
+  T mean_clipped_res = sum_clipped_res / n_cells;
+  for (int cell = 0; cell < n_cells; ++cell) {
+    long long res_index = static_cast<long long>(gene) * n_cells + cell;
+    T mu = sums_genes[gene] * sums_cells[cell] * inv_sum_total;
+    T value = data[res_index];
+    T mu_sum = value - mu;
+    T clipped_res = mu_sum / sqrt(mu + mu * mu * inv_theta);
+    if (clipped_res < -clip) clipped_res = -clip;
+    if (clipped_res > clip) clipped_res = clip;
+    T diff = clipped_res - mean_clipped_res;
+    var_sum += diff * diff;
+  }
+  residuals[gene] = var_sum / n_cells;
+}
diff --git a/src/rapids_singlecell/_cuda/pr/pr.cu b/src/rapids_singlecell/_cuda/pr/pr.cu
new file mode 100644
index 00000000..e4825519
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/pr/pr.cu
@@ -0,0 +1,153 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_pr.cuh"
+#include "kernels_pr_hvg.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_sparse_norm_res_csc(std::uintptr_t indptr, std::uintptr_t index,
+                                              std::uintptr_t data, std::uintptr_t sums_cells,
+                                              std::uintptr_t sums_genes, std::uintptr_t residuals,
+                                              T inv_sum_total, T clip, T inv_theta, int n_cells,
+                                              int n_genes) {
+  dim3 block(32);
+  dim3 grid((n_genes + block.x - 1) / block.x);
+  sparse_norm_res_csc_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_cells),
+                        reinterpret_cast<const T*>(sums_genes), reinterpret_cast<T*>(residuals),
+                        inv_sum_total, clip, inv_theta, n_cells, n_genes);
+}
+
+template <typename T>
+static inline void launch_sparse_norm_res_csr(std::uintptr_t indptr, std::uintptr_t index,
+                                              std::uintptr_t data, std::uintptr_t sums_cells,
+                                              std::uintptr_t sums_genes, std::uintptr_t residuals,
+                                              T inv_sum_total, T clip, T inv_theta, int n_cells,
+                                              int n_genes) {
+  dim3 block(8);
+  dim3 grid((n_cells + block.x - 1) / block.x);
+  sparse_norm_res_csr_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_cells),
+                        reinterpret_cast<const T*>(sums_genes), reinterpret_cast<T*>(residuals),
+                        inv_sum_total, clip, inv_theta, n_cells, n_genes);
+}
+
+template <typename T>
+static inline void launch_dense_norm_res(std::uintptr_t X, std::uintptr_t residuals,
+                                         std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                         T inv_sum_total, T clip, T inv_theta, int n_cells,
+                                         int n_genes) {
+  dim3 block(8, 8);
+  dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
+  dense_norm_res_kernel<T><<<grid, block>>>(
+      reinterpret_cast<const T*>(X), reinterpret_cast<T*>(residuals),
+      reinterpret_cast<const T*>(sums_cells), reinterpret_cast<const T*>(sums_genes), inv_sum_total,
+      clip, inv_theta, n_cells, n_genes);
+}
+
+template <typename T>
+static inline void launch_csc_hvg_res(std::uintptr_t indptr, std::uintptr_t index,
+                                      std::uintptr_t data, std::uintptr_t sums_genes,
+                                      std::uintptr_t sums_cells, std::uintptr_t residuals,
+                                      T inv_sum_total, T clip, T inv_theta, int n_genes,
+                                      int n_cells) {
+  dim3 block(32);
+  dim3 grid((n_genes + block.x - 1) / block.x);
+  csc_hvg_res_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_genes),
+                        reinterpret_cast<const T*>(sums_cells), reinterpret_cast<T*>(residuals),
+                        inv_sum_total, clip, inv_theta, n_genes, n_cells);
+}
+
+template <typename T>
+static inline void launch_dense_hvg_res(std::uintptr_t data, std::uintptr_t sums_genes,
+                                        std::uintptr_t sums_cells, std::uintptr_t residuals,
+                                        T inv_sum_total, T clip, T inv_theta, int n_genes,
+                                        int n_cells) {
+  dim3 block(32);
+  dim3 grid((n_genes + block.x - 1) / block.x);
+  dense_hvg_res_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_genes),
+                        reinterpret_cast<const T*>(sums_cells), reinterpret_cast<T*>(residuals),
+                        inv_sum_total, clip, inv_theta, n_genes, n_cells);
+}
+
+NB_MODULE(_pr_cuda, m) {
+  m.def("sparse_norm_res_csc", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                  std::uintptr_t residuals, double inv_sum_total, double clip,
+                                  double inv_theta, int n_cells, int n_genes, int itemsize) {
+    if (itemsize == 4)
+      launch_sparse_norm_res_csc<float>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                        (float)inv_sum_total, (float)clip, (float)inv_theta,
+                                        n_cells, n_genes);
+    else if (itemsize == 8)
+      launch_sparse_norm_res_csc<double>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                         inv_sum_total, clip, inv_theta, n_cells, n_genes);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+
+  m.def("sparse_norm_res_csr", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+                                  std::uintptr_t residuals, double inv_sum_total, double clip,
+                                  double inv_theta, int n_cells, int n_genes, int itemsize) {
+    if (itemsize == 4)
+      launch_sparse_norm_res_csr<float>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                        (float)inv_sum_total, (float)clip, (float)inv_theta,
+                                        n_cells, n_genes);
+    else if (itemsize == 8)
+      launch_sparse_norm_res_csr<double>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                         inv_sum_total, clip, inv_theta, n_cells, n_genes);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+
+  m.def("dense_norm_res", [](std::uintptr_t X, std::uintptr_t residuals, std::uintptr_t sums_cells,
+                             std::uintptr_t sums_genes, double inv_sum_total, double clip,
+                             double inv_theta, int n_cells, int n_genes, int itemsize) {
+    if (itemsize == 4)
+      launch_dense_norm_res<float>(X, residuals, sums_cells, sums_genes, (float)inv_sum_total,
+                                   (float)clip, (float)inv_theta, n_cells, n_genes);
+    else if (itemsize == 8)
+      launch_dense_norm_res<double>(X, residuals, sums_cells, sums_genes, inv_sum_total, clip,
+                                    inv_theta, n_cells, n_genes);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+
+  m.def("csc_hvg_res", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                          std::uintptr_t sums_genes, std::uintptr_t sums_cells,
+                          std::uintptr_t residuals, double inv_sum_total, double clip,
+                          double inv_theta, int n_genes, int n_cells, int itemsize) {
+    if (itemsize == 4)
+      launch_csc_hvg_res<float>(indptr, index, data, sums_genes, sums_cells, residuals,
+                                (float)inv_sum_total, (float)clip, (float)inv_theta, n_genes,
+                                n_cells);
+    else if (itemsize == 8)
+      launch_csc_hvg_res<double>(indptr, index, data, sums_genes, sums_cells, residuals,
+                                 inv_sum_total, clip, inv_theta, n_genes, n_cells);
+    else
+      throw nb::value_error("Unsupported itemsize");
+  });
+
+  m.def(
+      "dense_hvg_res", [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t sums_cells,
+                          std::uintptr_t residuals, double inv_sum_total, double clip,
+                          double inv_theta, int n_genes, int n_cells, int itemsize) {
+        if (itemsize == 4)
+          launch_dense_hvg_res<float>(data, sums_genes, sums_cells, residuals, (float)inv_sum_total,
+                                      (float)clip, (float)inv_theta, n_genes, n_cells);
+        else if (itemsize == 8)
+          launch_dense_hvg_res<double>(data, sums_genes, sums_cells, residuals, inv_sum_total, clip,
+                                       inv_theta, n_genes, n_cells);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      });
+}
diff --git a/src/rapids_singlecell/_cuda/qc/kernels.cuh b/src/rapids_singlecell/_cuda/qc/kernels_qc.cuh
similarity index 100%
rename from src/rapids_singlecell/_cuda/qc/kernels.cuh
rename to src/rapids_singlecell/_cuda/qc/kernels_qc.cuh
diff --git a/src/rapids_singlecell/_cuda/qc/qc.cu b/src/rapids_singlecell/_cuda/qc/qc.cu
index 5748126a..65c66414 100644
--- a/src/rapids_singlecell/_cuda/qc/qc.cu
+++ b/src/rapids_singlecell/_cuda/qc/qc.cu
@@ -2,7 +2,7 @@
 #include <nanobind/nanobind.h>
 #include <cstdint>
 
-#include "kernels.cuh"
+#include "kernels_qc.cuh"
 
 namespace nb = nanobind;
 
diff --git a/src/rapids_singlecell/_cuda/qc_dask/kernels.cuh b/src/rapids_singlecell/_cuda/qc_dask/kernels_qcd.cuh
similarity index 100%
rename from src/rapids_singlecell/_cuda/qc_dask/kernels.cuh
rename to src/rapids_singlecell/_cuda/qc_dask/kernels_qcd.cuh
diff --git a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
index 7730cac6..f4d5f0dc 100644
--- a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
+++ b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
@@ -2,7 +2,7 @@
 #include <nanobind/nanobind.h>
 #include <cstdint>
 
-#include "kernels.cuh"
+#include "kernels_qcd.cuh"
 
 namespace nb = nanobind;
 
diff --git a/src/rapids_singlecell/_cuda/scale/kernels.cuh b/src/rapids_singlecell/_cuda/scale/kernels_scale.cuh
similarity index 100%
rename from src/rapids_singlecell/_cuda/scale/kernels.cuh
rename to src/rapids_singlecell/_cuda/scale/kernels_scale.cuh
diff --git a/src/rapids_singlecell/_cuda/scale/scale.cu b/src/rapids_singlecell/_cuda/scale/scale.cu
index c4635482..6cdc1fc7 100644
--- a/src/rapids_singlecell/_cuda/scale/scale.cu
+++ b/src/rapids_singlecell/_cuda/scale/scale.cu
@@ -2,7 +2,7 @@
 #include <nanobind/nanobind.h>
 #include <cstdint>
 
-#include "kernels.cuh"
+#include "kernels_scale.cuh"
 
 namespace nb = nanobind;
 
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh b/src/rapids_singlecell/_cuda/sparse2dense/kernels_s2d.cuh
similarity index 54%
rename from src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
rename to src/rapids_singlecell/_cuda/sparse2dense/kernels_s2d.cuh
index 168f33b4..71911eaa 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/kernels.cuh
+++ b/src/rapids_singlecell/_cuda/sparse2dense/kernels_s2d.cuh
@@ -2,18 +2,31 @@
 
 #include <cuda_runtime.h>
 
-template <typename T>
+template <typename T, bool C_ORDER>
 __global__ void sparse2dense_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
                                     const T* __restrict__ data, T* __restrict__ out,
-                                    long long major, long long minor, int c_switch) {
+                                    long long major, long long minor) {
   long long row = (long long)blockIdx.x * blockDim.x + threadIdx.x;
   long long col = (long long)blockIdx.y * blockDim.y + threadIdx.y;
   if (row >= major) return;
+
   long long start = (long long)indptr[row];
   long long stop = (long long)indptr[row + 1];
-  if (col >= (stop - start)) return;
-  long long idx = (long long)index[start + col];
-  if (idx >= minor) return;
-  long long res_index = (c_switch == 1) ? (row * minor + idx) : (row + idx * major);
+  long long nnz_in_row = stop - start;
+  if (col >= nnz_in_row) return;
+
+  long long j = (long long)index[start + col];
+  if (j >= minor) return;
+
+  long long res_index;
+  if constexpr (C_ORDER) {
+    // row-major: [row, j] -> row*minor + j
+    res_index = row * minor + j;
+  } else {
+    // col-major (Fortran): [row, j] -> row + j*major
+    res_index = row + j * major;
+  }
+
+  // If duplicates per row/col are impossible, replace with a simple store.
   atomicAdd(&out[res_index], data[start + col]);
 }
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
index 45c11f1f..df551424 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
+++ b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
@@ -2,29 +2,45 @@
 #include <nanobind/nanobind.h>
 #include <cstdint>
 
-#include "kernels.cuh"
+#include "kernels_s2d.cuh"
 
 namespace nb = nanobind;
 
+template <typename T, bool C_ORDER>
+static inline void launch_typed(const int* indptr, const int* index, const T* data, T* out,
+                                long long major, long long minor, int max_nnz, dim3 grid,
+                                dim3 block) {
+  sparse2dense_kernel<T, C_ORDER><<<grid, block>>>(indptr, index, data, out, major, minor);
+}
+
 template <typename T>
 static inline void launch_sparse2dense(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
                                        std::uintptr_t data_ptr, std::uintptr_t out_ptr,
-                                       long long major, long long minor, int c_switch,
+                                       long long major, long long minor,
+                                       bool c_switch,  // 1 = C (row-major), 0 = F (col-major)
                                        int max_nnz) {
+  // Threads: 32x32 (1024) as you had; adjust if register pressure is high.
   dim3 block(32, 32);
   dim3 grid((unsigned)((major + block.x - 1) / block.x),
             (unsigned)((max_nnz + block.y - 1) / block.y));
+
   const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
   const int* index = reinterpret_cast<const int*>(index_ptr);
   const T* data = reinterpret_cast<const T*>(data_ptr);
   T* out = reinterpret_cast<T*>(out_ptr);
-  sparse2dense_kernel<T><<<grid, block>>>(indptr, index, data, out, major, minor, c_switch);
+
+  if (c_switch == true) {
+    launch_typed<T, /*C_ORDER=*/true>(indptr, index, data, out, major, minor, max_nnz, grid, block);
+  } else {
+    launch_typed<T, /*C_ORDER=*/false>(indptr, index, data, out, major, minor, max_nnz, grid,
+                                       block);
+  }
 }
 
 NB_MODULE(_sparse2dense_cuda, m) {
   m.def("sparse2dense",
         [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t out,
-           long long major, long long minor, int c_switch, int max_nnz, int itemsize) {
+           long long major, long long minor, bool c_switch, int max_nnz, int itemsize) {
           if (itemsize == 4) {
             launch_sparse2dense<float>(indptr, index, data, out, major, minor, c_switch, max_nnz);
           } else if (itemsize == 8) {
diff --git a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
index 966b8c2b..70c16de4 100644
--- a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
+++ b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
@@ -3,6 +3,7 @@
 import cupy as cp
 import numpy as np
 
+from rapids_singlecell._cuda import _aucell_cuda as _au
 from rapids_singlecell.decoupler_gpu._helper._docs import docs
 from rapids_singlecell.decoupler_gpu._helper._log import _log
 from rapids_singlecell.decoupler_gpu._helper._Method import Method, MethodMeta
@@ -18,46 +19,6 @@ def rank_rows_desc(x: cp.ndarray) -> cp.ndarray:
     return ranks
 
 
-_auc_kernel = cp.RawKernel(
-    r"""
-extern "C" __global__
-void auc_kernel(
-    const int* __restrict__ ranks,
-    const int R, const int C,
-    const int* __restrict__ cnct,
-    const int* __restrict__ starts,
-    const int* __restrict__ lens,
-    const int n_sets,
-    const int n_up,
-    const float*  __restrict__ max_aucs,
-    float*        __restrict__ es)
-{
-    const int set = blockIdx.x;
-    const int row = blockIdx.y * blockDim.x + threadIdx.x;
-    if (set >= n_sets || row >= R) return;
-
-    const int start = starts[set];
-    const int end   = start + lens[set];
-
-    int r = 0;
-    int s = 0;
-
-    for (int i = start; i < end; ++i) {
-        const int g = cnct[i];
-        const int rk = ranks[row * C + g];
-        if (rk <= n_up) {
-            r += 1;
-            s += rk;
-        }
-    }
-    const float val = (float)((r * (long long)n_up) - s) / max_aucs[set];
-    es[row * n_sets + set] = val;
-}
-""",
-    "auc_kernel",
-)
-
-
 def _auc(row, cnct, *, starts, offsets, n_up, n_fsets, max_aucs):
     # Cast dtypes to what the kernel expects
     ranks = rank_rows_desc(row)
@@ -67,12 +28,17 @@ def _auc(row, cnct, *, starts, offsets, n_up, n_fsets, max_aucs):
     R, C = ranks.shape
     es = cp.zeros((R, n_fsets), dtype=cp.float32)
 
-    tpb = 32
-    grid_y = (R + tpb - 1) // tpb
-    _auc_kernel(
-        (n_fsets, grid_y),
-        (tpb,),
-        (ranks, R, C, cnct, starts, offsets, n_fsets, n_up, max_aucs, es),
+    _au.auc(
+        ranks.data.ptr,
+        int(R),
+        int(C),
+        cnct.data.ptr,
+        starts.data.ptr,
+        offsets.data.ptr,
+        int(n_fsets),
+        int(n_up),
+        max_aucs.data.ptr,
+        es.data.ptr,
     )
     return es
 
diff --git a/src/rapids_singlecell/get/_aggregated.py b/src/rapids_singlecell/get/_aggregated.py
index cad33ba4..f7beb9bd 100644
--- a/src/rapids_singlecell/get/_aggregated.py
+++ b/src/rapids_singlecell/get/_aggregated.py
@@ -1,11 +1,6 @@
 from __future__ import annotations
 
-from typing import (
-    TYPE_CHECKING,
-    Literal,
-    Union,
-    get_args,
-)
+from typing import TYPE_CHECKING, Literal, Union, get_args
 
 import cupy as cp
 from anndata import AnnData
@@ -13,10 +8,8 @@
 from scanpy._utils import _resolve_axis
 from scanpy.get._aggregated import _combine_categories
 
-from rapids_singlecell._compat import (
-    DaskArray,
-    _meta_dense,
-)
+from rapids_singlecell._compat import DaskArray, _meta_dense
+from rapids_singlecell._cuda import _aggr_cuda
 from rapids_singlecell.get import _check_mask
 from rapids_singlecell.preprocessing._utils import _check_gpu_X
 
@@ -59,6 +52,8 @@ def __init__(
         self.n_cells = cp.array(cp.bincount(self.groupby), dtype=cp.float64).reshape(
             -1, 1
         )
+        if data.dtype.kind != "f" and not isinstance(data, DaskArray):
+            data = data.astype(cp.float32, copy=False)
         self.data = data
 
     groupby: cp.ndarray
@@ -79,57 +74,40 @@ def count_mean_var_dask(self, dof: int = 1, split_every: int = 2):
         import dask.array as da
 
         assert dof >= 0
-        from ._kernels._aggr_kernels import (
-            _get_aggr_dense_kernel_C,
-            _get_aggr_sparse_kernel,
-        )
-
-        if isinstance(self.data._meta, cp.ndarray):
-            kernel = _get_aggr_dense_kernel_C(self.data.dtype)
-            is_sparse = False
-        else:
-            kernel = _get_aggr_sparse_kernel(self.data.dtype)
-            is_sparse = True
-
-        kernel.compile()
+        is_sparse = not isinstance(self.data._meta, cp.ndarray)
         n_groups = self.n_cells.shape[0]
 
         def __aggregate_dask(X_part, mask_part, groupby_part):
             out = cp.zeros((1, 3, n_groups, self.data.shape[1]), dtype=cp.float64)
-            threads_per_block = 512
+            gb = groupby_part.ravel()
+            mk = mask_part.ravel()
 
             if is_sparse:
-                # Sparse matrix kernel parameters
-                grid = (X_part.shape[0],)
-                kernel_args = (
-                    X_part.indptr,
-                    X_part.indices,
-                    X_part.data,
+                _aggr_cuda.sparse_aggr(
+                    X_part.indptr.data.ptr,
+                    X_part.indices.data.ptr,
+                    X_part.data.data.ptr,
+                    out.data.ptr,
+                    gb.data.ptr,
+                    mk.data.ptr,
+                    X_part.shape[0],
+                    X_part.shape[1],
+                    int(n_groups),
+                    bool(0),
+                    int(X_part.data.dtype.itemsize),
                 )
             else:
-                # Dense matrix kernel parameters
-                N = X_part.shape[0] * X_part.shape[1]
-
-                blocks = min(
-                    (N + threads_per_block - 1) // threads_per_block,
-                    cp.cuda.Device().attributes["MultiProcessorCount"] * 8,
+                _aggr_cuda.dense_aggr(
+                    int(X_part.data.ptr),
+                    int(out.data.ptr),
+                    int(gb.data.ptr),
+                    int(mk.data.ptr),
+                    int(X_part.shape[0]),
+                    int(X_part.shape[1]),
+                    int(n_groups),
+                    bool(0 if X_part.flags.c_contiguous else 1),
+                    int(X_part.dtype.itemsize),
                 )
-                grid = (blocks,)
-                kernel_args = (X_part,)
-
-            kernel(
-                grid,
-                (threads_per_block,),
-                (
-                    *kernel_args,
-                    out,
-                    groupby_part,
-                    mask_part,
-                    X_part.shape[0],
-                    X_part.shape[1],
-                    n_groups,
-                ),
-            )
             return out
 
         # Prepare Dask arrays
@@ -179,37 +157,23 @@ def count_mean_var_sparse(self, dof: int = 1):
         """
 
         assert dof >= 0
-        from ._kernels._aggr_kernels import (
-            _get_aggr_sparse_kernel,
-            _get_aggr_sparse_kernel_csc,
-        )
-
         out = cp.zeros(
             (3, self.n_cells.shape[0] * self.data.shape[1]), dtype=cp.float64
         )
-
-        block = (512,)
-        if self.data.format == "csc":
-            grid = (self.data.shape[1],)
-            aggr_kernel = _get_aggr_sparse_kernel_csc(self.data.dtype)
-        else:
-            grid = (self.data.shape[0],)
-            aggr_kernel = _get_aggr_sparse_kernel(self.data.dtype)
         mask = self._get_mask()
-        aggr_kernel(
-            grid,
-            block,
-            (
-                self.data.indptr,
-                self.data.indices,
-                self.data.data,
-                out,
-                self.groupby,
-                mask,
-                self.data.shape[0],
-                self.data.shape[1],
-                self.n_cells.shape[0],
-            ),
+
+        _aggr_cuda.sparse_aggr(
+            self.data.indptr.data.ptr,
+            self.data.indices.data.ptr,
+            self.data.data.data.ptr,
+            out.data.ptr,
+            self.groupby.data.ptr,
+            mask.data.ptr,
+            int(self.data.shape[0]),
+            int(self.data.shape[1]),
+            int(self.n_cells.shape[0]),
+            self.data.format == "csc",
+            int(self.data.data.dtype.itemsize),
         )
         sums, counts, sq_sums = out[0, :], out[1, :], out[2, :]
         sums = sums.reshape(self.n_cells.shape[0], self.data.shape[1])
@@ -230,10 +194,6 @@ def count_mean_var_sparse_sparse(self, funcs, dof: int = 1):
         """
 
         assert dof >= 0
-        from ._kernels._aggr_kernels import (
-            _get_aggr_sparse_sparse_kernel,
-            _get_sparse_var_kernel,
-        )
 
         if self.data.format == "csc":
             self.data = self.data.tocsr()
@@ -241,24 +201,19 @@ def count_mean_var_sparse_sparse(self, funcs, dof: int = 1):
         src_row = cp.zeros(self.data.nnz, dtype=cp.int32)
         src_col = cp.zeros(self.data.nnz, dtype=cp.int32)
         src_data = cp.zeros(self.data.nnz, dtype=cp.float64)
-        block = (128,)
-        grid = (self.data.shape[0],)
-        aggr_kernel = _get_aggr_sparse_sparse_kernel(self.data.dtype)
         mask = self._get_mask()
-        aggr_kernel(
-            grid,
-            block,
-            (
-                self.data.indptr,
-                self.data.indices,
-                self.data.data,
-                src_row,
-                src_col,
-                src_data,
-                self.groupby,
-                mask,
-                self.data.shape[0],
-            ),
+
+        _aggr_cuda.csr_to_coo(
+            self.data.indptr.data.ptr,
+            self.data.indices.data.ptr,
+            self.data.data.data.ptr,
+            src_row.data.ptr,
+            src_col.data.ptr,
+            src_data.data.ptr,
+            self.groupby.data.ptr,
+            mask.data.ptr,
+            int(self.data.shape[0]),
+            int(self.data.data.dtype.itemsize),
         )
 
         keys = cp.stack([src_col, src_row])
@@ -346,19 +301,14 @@ def count_mean_var_sparse_sparse(self, funcs, dof: int = 1):
                     shape=(self.n_cells.shape[0], self.data.shape[1]),
                 )
 
-                sparse_var = _get_sparse_var_kernel(var.dtype)
-                sparse_var(
-                    grid,
-                    block,
-                    (
-                        var.indptr,
-                        var.indices,
-                        var.data,
-                        means,
-                        self.n_cells,
-                        dof,
-                        var.shape[0],
-                    ),
+                _aggr_cuda.sparse_var(
+                    var.indptr.data.ptr,
+                    var.indices.data.ptr,
+                    var.data.data.ptr,
+                    means.data.ptr,
+                    self.n_cells.data.ptr,
+                    int(dof),
+                    int(var.shape[0]),
                 )
                 results["var"] = var
         if "count_nonzero" in funcs:
@@ -387,36 +337,20 @@ def count_mean_var_dense(self, dof: int = 1):
         """
 
         assert dof >= 0
-        from ._kernels._aggr_kernels import (
-            _get_aggr_dense_kernel_C,
-            _get_aggr_dense_kernel_F,
-        )
-
         out = cp.zeros((3, self.n_cells.shape[0], self.data.shape[1]), dtype=cp.float64)
 
-        N = self.data.shape[0] * self.data.shape[1]
-        threads_per_block = 512
-        blocks = min(
-            (N + threads_per_block - 1) // threads_per_block,
-            cp.cuda.Device().attributes["MultiProcessorCount"] * 8,
-        )
-        if self.data.flags.c_contiguous:
-            aggr_kernel = _get_aggr_dense_kernel_C(self.data.dtype)
-        else:
-            aggr_kernel = _get_aggr_dense_kernel_F(self.data.dtype)
         mask = self._get_mask()
-        aggr_kernel(
-            (blocks,),
-            (threads_per_block,),
-            (
-                self.data,
-                out,
-                self.groupby,
-                mask,
-                self.data.shape[0],
-                self.data.shape[1],
-                self.n_cells.shape[0],
-            ),
+
+        _aggr_cuda.dense_aggr(
+            self.data.data.ptr,
+            out.data.ptr,
+            self.groupby.data.ptr,
+            mask.data.ptr,
+            self.data.shape[0],
+            int(self.data.shape[1]),
+            int(self.n_cells.shape[0]),
+            bool(0 if self.data.flags.c_contiguous else 1),
+            int(self.data.dtype.itemsize),
         )
         sums, counts, sq_sums = out[0], out[1], out[2]
         sums = sums.reshape(self.n_cells.shape[0], self.data.shape[1])
diff --git a/src/rapids_singlecell/preprocessing/_hvg.py b/src/rapids_singlecell/preprocessing/_hvg.py
index 9cdf1d36..8f2b588d 100644
--- a/src/rapids_singlecell/preprocessing/_hvg.py
+++ b/src/rapids_singlecell/preprocessing/_hvg.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-import math
 import warnings
 from dataclasses import dataclass
 from inspect import signature
@@ -706,15 +705,8 @@ def _highly_variable_pearson_residuals(
 
     n_batches = len(np.unique(batch_info))
     residual_gene_vars = []
-    if issparse(X):
-        from ._kernels._pr_kernels import _csc_hvg_res, _sparse_sum_csc
 
-        sum_csc = _sparse_sum_csc(X.dtype)
-        csc_hvg_res = _csc_hvg_res(X.dtype)
-    else:
-        from ._kernels._pr_kernels import _dense_hvg_res
-
-        dense_hvg_res = _dense_hvg_res(X.dtype)
+    from rapids_singlecell._cuda import _pr_cuda as _pr
 
     for b in np.unique(batch_info):
         if issparse(X):
@@ -724,72 +716,47 @@ def _highly_variable_pearson_residuals(
             X_batch = cp.array(X[batch_info == b], dtype=X.dtype)
             nnz_per_gene = cp.sum(X_batch != 0, axis=0).ravel()
         nonzero_genes = cp.array(nnz_per_gene >= 1)
-        X_batch = X_batch[:, nonzero_genes]
+        X_batch = X_batch[:, nonzero_genes].copy()
         if clip is None:
             n = X_batch.shape[0]
             clip = cp.sqrt(n, dtype=X.dtype)
         if clip < 0:
             raise ValueError("Pearson residuals require `clip>=0` or `clip=None`.")
 
-        clip = cp.array([clip], dtype=X.dtype)
-        theta = cp.array([theta], dtype=X.dtype)
+        inv_theta = float(1.0 / theta)
+        from rapids_singlecell.preprocessing._qc import _basic_qc
+
+        sums_cells, sums_genes, _, _ = _basic_qc(X_batch)
+        inv_sum_total = float(1 / sums_genes.sum())
         residual_gene_var = cp.zeros(X_batch.shape[1], dtype=X.dtype, order="C")
         if issparse(X_batch):
-            sums_genes = cp.zeros(X_batch.shape[1], dtype=X.dtype)
-            sums_cells = cp.zeros(X_batch.shape[0], dtype=X.dtype)
-            block = (32,)
-            grid = (int(math.ceil(X_batch.shape[1] / block[0])),)
-
-            sum_csc(
-                grid,
-                block,
-                (
-                    X_batch.indptr,
-                    X_batch.indices,
-                    X_batch.data,
-                    sums_genes,
-                    sums_cells,
-                    X_batch.shape[1],
-                ),
-            )
-            sum_total = sums_genes.sum().squeeze()
-            csc_hvg_res(
-                grid,
-                block,
-                (
-                    X_batch.indptr,
-                    X_batch.indices,
-                    X_batch.data,
-                    sums_genes,
-                    sums_cells,
-                    residual_gene_var,
-                    sum_total,
-                    clip,
-                    theta,
-                    X_batch.shape[1],
-                    X_batch.shape[0],
-                ),
+            _pr.csc_hvg_res(
+                X_batch.indptr.data.ptr,
+                X_batch.indices.data.ptr,
+                X_batch.data.data.ptr,
+                sums_genes.data.ptr,
+                sums_cells.data.ptr,
+                residual_gene_var.data.ptr,
+                inv_sum_total,
+                clip,
+                inv_theta,
+                int(X_batch.shape[1]),
+                int(X_batch.shape[0]),
+                int(cp.dtype(X_batch.dtype).itemsize),
             )
         else:
-            sums_genes = cp.sum(X_batch, axis=0, dtype=X.dtype).ravel()
-            sums_cells = cp.sum(X_batch, axis=1, dtype=X.dtype).ravel()
-            sum_total = sums_genes.sum().squeeze()
-            block = (32,)
-            grid = (int(math.ceil(X_batch.shape[1] / block[0])),)
-            dense_hvg_res(
-                grid,
-                block,
-                (
-                    cp.array(X_batch, dtype=X.dtype, order="F"),
-                    sums_genes,
-                    sums_cells,
-                    residual_gene_var,
-                    sum_total,
-                    clip,
-                    theta,
-                    X_batch.shape[1],
-                    X_batch.shape[0],
-                ),
+            X_batch = cp.asfortranarray(X_batch)
+            _pr.dense_hvg_res(
+                X_batch.data.ptr,
+                sums_genes.data.ptr,
+                sums_cells.data.ptr,
+                residual_gene_var.data.ptr,
+                inv_sum_total,
+                clip,
+                inv_theta,
+                int(X_batch.shape[1]),
+                int(X_batch.shape[0]),
+                int(cp.dtype(X.dtype).itemsize),
             )
 
         unmasked_residual_gene_var = cp.zeros(len(nonzero_genes))
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_bbknn.py b/src/rapids_singlecell/preprocessing/_kernels/_bbknn.py
deleted file mode 100644
index e8607efc..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_bbknn.py
+++ /dev/null
@@ -1,89 +0,0 @@
-from __future__ import annotations
-
-import cupy as cp
-
-_find_top_k_kernel = r"""
-extern "C" __global__
-void find_top_k_per_row(
-    const float* __restrict__ data,
-    const int* __restrict__ indptr,
-    const int n_rows,
-    const int trim,
-    float* __restrict__ vals) {
-
-    extern __shared__ float shared_memory[];
-
-    int row = blockIdx.x * blockDim.x + threadIdx.x;
-    if (row >= n_rows) return;
-
-    int start = indptr[row];
-    int end = indptr[row + 1];
-    int length = end - start;
-
-    if (length <= trim) {
-        vals[row] = 0.0f;  // Or another default value indicating insufficient elements
-        return;
-    }
-
-    // Each thread has its own top_k array in shared memory
-    int thread_idx = threadIdx.x;
-    int shared_offset = thread_idx * trim;
-    float* top_k = &shared_memory[shared_offset];
-
-    // Initialize top_k with 0
-    for (int i = 0; i < trim; ++i) {
-        top_k[i] = 0;
-    }
-
-    // Process each element in the row
-    int min_index = 0;
-    for (int idx = start; idx < end; ++idx) {
-        if (data[idx] <= top_k[min_index]) continue;
-
-        // If current value is larger than the smallest in top_k, replace it
-        top_k[min_index] = data[idx];
-
-        // Find the new smallest value in top_k and set min_index
-        for (int i = 0; i < trim; ++i) {
-            if (top_k[i] < top_k[min_index]) {
-                min_index = i;
-            }
-        }
-    }
-
-    // After processing, use min_index to write the smallest value in top_k to vals
-    float kth_largest = top_k[min_index];
-    vals[row] = kth_largest;
-}
-"""
-
-# Compile the kernel
-find_top_k_per_row_kernel = cp.RawKernel(_find_top_k_kernel, "find_top_k_per_row")
-
-_cut_smaller_kernel = r"""
-extern "C" __global__
-void cut_smaller(
-    const int *indptr,
-    const int * index,
-    float *data,
-    float* vals,
-    int n_rows) {
-    int row_id = blockIdx.x;
-    if(row_id >= n_rows){
-        return;
-    }
-    int start_idx = indptr[row_id];
-    int stop_idx = indptr[row_id+1];
-
-    float cut_row = vals[row_id];
-    for(int i = start_idx+threadIdx.x; i < stop_idx; i+= blockDim.x){
-        float cut = max(vals[index[i]], cut_row);
-        if(data[i]<cut){
-            data[i] = 0;
-        }
-
-    }
-
-}
-"""
-cut_smaller_func = cp.RawKernel(_cut_smaller_kernel, "cut_smaller")
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_nn_descent.py b/src/rapids_singlecell/preprocessing/_kernels/_nn_descent.py
deleted file mode 100644
index 1eb95235..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_nn_descent.py
+++ /dev/null
@@ -1,105 +0,0 @@
-from __future__ import annotations
-
-import cupy as cp
-
-kernel_code_cos = r"""
-extern "C" __global__
-void computeDistances_Cosine(const float* data,
-                    float* out,
-                    const unsigned int* pairs,
-                    const long long int n_samples,
-                    const long long int n_features,
-                    const long long int n_neighbors)
-{
-    long long int i1 = blockDim.x * blockIdx.x + threadIdx.x;
-    if(i1 >= n_samples){
-        return;
-    }
-
-    float sum_i1 = 0.0f;
-    for (long long int d = 0; d < n_features; d++) {
-        sum_i1 += powf(data[i1 * n_features + d], 2);
-    }
-    for (long long int j = 0; j < n_neighbors; j++){
-        long long int i2 = static_cast<long long>(pairs[i1 * n_neighbors + j]);
-        float dist = 0.0f;
-
-        float sum_i2 = 0.0f;
-        for (long long int d = 0; d < n_features; d++) {
-            dist += data[i1 * n_features + d] * data[i2 * n_features + d];
-            sum_i2 += powf(data[i2 * n_features + d], 2);
-        }
-        out[i1 * n_neighbors + j] = 1-dist/ (sqrtf(sum_i1) * sqrtf(sum_i2));
-    }
-
-}
-"""
-
-calc_distance_kernel_cos = cp.RawKernel(
-    code=kernel_code_cos,
-    name="computeDistances_Cosine",
-)
-
-kernel_code = r"""
-extern "C" __global__
-void computeDistances(const float* data,
-                    float* out,
-                    const unsigned int* pairs,
-                    const long long int n_samples,
-                    const long long int n_features,
-                    const long long int n_neighbors)
-{
-    long long int i1 = blockDim.x * blockIdx.x + threadIdx.x;
-    if(i1 >= n_samples){
-        return;
-    }
-    for (long long int j = 0; j < n_neighbors; j++){
-        long long int i2 = static_cast<long long>(pairs[i1 * n_neighbors + j]);
-        float dist = 0.0f;
-        for (long long int d = 0; d < n_features; d++) {
-            float diff = data[i1 * n_features + d] - data[i2 * n_features + d];
-            dist += powf(diff, 2);
-        }
-        out[i1 * n_neighbors + j] = dist;
-    }
-}
-"""
-
-calc_distance_kernel = cp.RawKernel(
-    code=kernel_code,
-    name="computeDistances",
-)
-
-kernel_code_inner = r"""
-extern "C" __global__
-void computeDistances_inner(const float* data,
-                    float* out,
-                    const unsigned int* pairs,
-                    const long long int n_samples,
-                    const long long int n_features,
-                    const long long int n_neighbors)
-{
-    long long int i1 = blockDim.x * blockIdx.x + threadIdx.x;
-    if(i1 >= n_samples){
-        return;
-    }
-
-
-    for (long long int j = 0; j < n_neighbors; j++){
-        long long int i2 = static_cast<long long>(pairs[i1 * n_neighbors + j]);
-        float dist = 0.0f;
-
-        for (long long int d = 0; d < n_features; d++) {
-            dist += data[i1 * n_features + d] * data[i2 * n_features + d];
-
-        }
-        out[i1 * n_neighbors + j] =  dist;
-    }
-
-}
-"""
-
-calc_distance_kernel_inner = cp.RawKernel(
-    code=kernel_code_inner,
-    name="computeDistances_inner",
-)
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_norm_kernel.py b/src/rapids_singlecell/preprocessing/_kernels/_norm_kernel.py
deleted file mode 100644
index 430592f0..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_norm_kernel.py
+++ /dev/null
@@ -1,92 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_mul_kernel_csr = r"""
-(const int *indptr, {0} *data,
-                    int nrows, int tsum) {
-        int row = blockDim.x * blockIdx.x + threadIdx.x;
-
-        if(row >= nrows)
-            return;
-
-        {0} scale = 0.0;
-        int start_idx = indptr[row];
-        int stop_idx = indptr[row+1];
-
-        for(int i = start_idx; i < stop_idx; i++)
-            scale += data[i];
-
-        if(scale > 0.0) {
-            scale = tsum / scale;
-            for(int i = start_idx; i < stop_idx; i++)
-                data[i] *= scale;
-        }
-    }
-"""
-
-_mul_kernel_dense = r"""
-({0} *data, int nrows, int ncols, int tsum) {
-    int row = blockDim.x * blockIdx.x + threadIdx.x;
-
-    if(row >= nrows)
-        return;
-
-    {0} scale = 0.0;
-    for(int i = 0; i < ncols; i++)
-        scale += data[row * ncols + i];
-
-    if(scale > 0.0) {
-        scale = tsum / scale;
-        for(int i = 0; i < ncols; i++)
-            data[row * ncols + i] *= scale;
-    }
-}
-"""
-
-_get_sparse_sum_major_kernel = r"""
-        (const int *indptr,const {0} *data,
-            {0}* sums, int major) {
-        int major_idx = blockIdx.x;
-        if(major_idx >= major){
-            return;
-        }
-        int start_idx = indptr[major_idx];
-        int stop_idx = indptr[major_idx+1];
-
-        __shared__ {0} sum_place[64];
-
-        sum_place[threadIdx.x] = 0.0;
-        __syncthreads();
-
-        for(int minor_idx = start_idx+threadIdx.x; minor_idx < stop_idx; minor_idx+= blockDim.x){
-               sum_place[threadIdx.x] += data[minor_idx];
-        }
-        __syncthreads();
-
-        for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
-            if (threadIdx.x < s) {
-                sum_place[threadIdx.x] += sum_place[threadIdx.x + s];
-            }
-            __syncthreads(); // Synchronize at each step of the reduction
-        }
-        if (threadIdx.x == 0) {
-            sums[major_idx] = sum_place[threadIdx.x];
-        }
-
-        }
-"""
-
-
-def _mul_csr(dtype):
-    return cuda_kernel_factory(_mul_kernel_csr, (dtype,), "_mul_kernel_csr")
-
-
-def _mul_dense(dtype):
-    return cuda_kernel_factory(_mul_kernel_dense, (dtype,), "_mul_kernel_dense")
-
-
-def _get_sparse_sum_major(dtype):
-    return cuda_kernel_factory(
-        _get_sparse_sum_major_kernel, (dtype,), "_get_sparse_sum_major_kernel"
-    )
diff --git a/src/rapids_singlecell/preprocessing/_kernels/_pr_kernels.py b/src/rapids_singlecell/preprocessing/_kernels/_pr_kernels.py
deleted file mode 100644
index 58761d9a..00000000
--- a/src/rapids_singlecell/preprocessing/_kernels/_pr_kernels.py
+++ /dev/null
@@ -1,262 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_sparse_kernel_sum_csc = r"""
-        (const int *indptr,const int *index,const {0} *data,
-            {0}* sums_genes, {0}* sums_cells,
-            int n_genes) {
-        int gene = blockDim.x * blockIdx.x + threadIdx.x;
-        if(gene >= n_genes){
-            return;
-        }
-        int start_idx = indptr[gene];
-        int stop_idx = indptr[gene+1];
-
-        for(int cell = start_idx; cell < stop_idx; cell++){
-            {0} value = data[cell];
-            int cell_number = index[cell];
-            atomicAdd(&sums_genes[gene], value);
-            atomicAdd(&sums_cells[cell_number], value);
-
-        }
-    }
-    """
-
-_sparse_kernel_norm_res_csc = r"""
-        (const int *indptr,const int *index,const {0} *data,
-            const {0}* sums_cells,const {0}* sums_genes,
-            {0}* residuals ,const {0}* sum_total, const {0}* clip,
-            const {0}* theta,const int n_cells,const int n_genes) {
-        int gene = blockDim.x * blockIdx.x + threadIdx.x;
-        if(gene >= n_genes){
-            return;
-        }
-        int start_idx = indptr[gene];
-        int stop_idx = indptr[gene + 1];
-
-        int sparse_idx = start_idx;
-        for(int cell = 0; cell < n_cells; cell++){
-            {0} mu = sums_genes[gene]*sums_cells[cell]*sum_total[0];
-            long long int res_index = static_cast<long long int>(cell) * n_genes + gene;
-            if (sparse_idx < stop_idx && index[sparse_idx] == cell){
-                residuals[res_index] += data[sparse_idx];
-                sparse_idx++;
-            }
-            residuals[res_index] -= mu;
-            residuals[res_index] /= sqrt(mu + mu * mu * theta[0]);
-            residuals[res_index]= fminf(fmaxf(residuals[res_index], -clip[0]), clip[0]);
-        }
-    }
-    """
-
-_sparse_kernel_sum_csr = r"""
-        (const int *indptr,const int *index,const {0} *data,
-            {0}* sums_genes, {0}* sums_cells,
-            int n_cells) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        if(cell >= n_cells){
-            return;
-        }
-        int start_idx = indptr[cell];
-        int stop_idx = indptr[cell + 1];
-
-        for(int gene = start_idx; gene < stop_idx; gene++){
-            {0} value = data[gene];
-            int gene_number = index[gene];
-            atomicAdd(&sums_genes[gene_number], value);
-            atomicAdd(&sums_cells[cell], value);
-
-        }
-    }
-    """
-_sparse_kernel_norm_res_csr = r"""
-        (const int * indptr, const int * index, const {0} * data,
-            const {0} * sums_cells, const {0} * sums_genes,
-            {0} * residuals, const {0} * sum_total, const {0} * clip,
-            const {0} * theta, const int n_cells, const int n_genes) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        if(cell >= n_cells){
-            return;
-        }
-        int start_idx = indptr[cell];
-        int stop_idx = indptr[cell + 1];
-
-        int sparse_idx = start_idx;
-        for(int gene = 0; gene < n_genes; gene++){
-            long long int res_index = static_cast<long long int>(cell) * n_genes + gene;
-            {0} mu = sums_genes[gene]*sums_cells[cell]*sum_total[0];
-            if (sparse_idx < stop_idx && index[sparse_idx] == gene){
-                residuals[res_index] += data[sparse_idx];
-                sparse_idx++;
-            }
-            residuals[res_index] -= mu;
-            residuals[res_index] /= sqrt(mu + mu * mu * theta[0]);
-            residuals[res_index]= fminf(fmaxf(residuals[res_index], -clip[0]), clip[0]);
-        }
-    }
-    """
-
-_dense_kernel_sum = r"""
-        (const {0}* residuals,
-                        {0}* sums_cells,{0}* sums_genes,
-                        const int n_cells,const int n_genes) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        int gene = blockDim.y * blockIdx.y + threadIdx.y;
-        if(cell >= n_cells || gene >= n_genes){
-            return;
-        }
-        long long int res_index = static_cast<long long int>(cell) * n_genes + gene;
-        atomicAdd(&sums_genes[gene], residuals[res_index]);
-        atomicAdd(&sums_cells[cell], residuals[res_index]);
-    }
-    """
-
-
-_kernel_norm_res_dense = r"""
-        (const {0}* X,{0}* residuals,
-                            const {0}* sums_cells,const {0}* sums_genes,
-                            const {0}* sum_total,const {0}* clip,const {0}* theta,
-                            const int n_cells, const int n_genes) {
-        int cell = blockDim.x * blockIdx.x + threadIdx.x;
-        int gene = blockDim.y * blockIdx.y + threadIdx.y;
-        if(cell >= n_cells || gene >= n_genes){
-            return;
-        }
-
-        {0} mu = sums_genes[gene]*sums_cells[cell]*sum_total[0];
-        long long int res_index = static_cast<long long int>(cell) * n_genes + gene;
-        residuals[res_index] = X[res_index] - mu;
-        residuals[res_index] /= sqrt(mu + mu * mu * theta[0]);
-        residuals[res_index]= fminf(fmaxf(residuals[res_index], -clip[0]), clip[0]);
-    }
-    """
-
-
-def _sparse_sum_csc(dtype):
-    return cuda_kernel_factory(
-        _sparse_kernel_sum_csc, (dtype,), "_sparse_kernel_sum_csc"
-    )
-
-
-def _sparse_norm_res_csc(dtype):
-    return cuda_kernel_factory(
-        _sparse_kernel_norm_res_csc, (dtype,), "_sparse_kernel_norm_res_csc"
-    )
-
-
-def _sparse_sum_csr(dtype):
-    return cuda_kernel_factory(
-        _sparse_kernel_sum_csr, (dtype,), "_sparse_kernel_sum_csr"
-    )
-
-
-def _sparse_norm_res_csr(dtype):
-    return cuda_kernel_factory(
-        _sparse_kernel_norm_res_csr, (dtype,), "_sparse_kernel_norm_res_csr"
-    )
-
-
-def _sum_dense(dtype):
-    return cuda_kernel_factory(_dense_kernel_sum, (dtype,), "_dense_kernel_sum")
-
-
-def _norm_res_dense(dtype):
-    return cuda_kernel_factory(
-        _kernel_norm_res_dense, (dtype,), "_kernel_norm_res_dense"
-    )
-
-
-# PR HVG
-
-_csc_hvg_res_kernel = r"""
-    (const int *indptr,const int *index,const {0} *data,
-        const {0}* sums_genes,const {0}* sums_cells,
-        {0}* residuals ,{0}* sum_total,{0}* clip,{0}* theta,int n_genes, int n_cells) {
-        int gene = blockDim.x * blockIdx.x + threadIdx.x;
-        if(gene >= n_genes){
-            return;
-        }
-        int start_idx = indptr[gene];
-        int stop_idx = indptr[gene + 1];
-
-        int sparse_idx = start_idx;
-        {0} var_sum = 0.0;
-        {0} sum_clipped_res = 0.0;
-        for(int cell = 0; cell < n_cells; cell++){
-            {0} mu = sums_genes[gene]*sums_cells[cell]/sum_total[0];
-            {0} value = 0.0;
-            if (sparse_idx < stop_idx && index[sparse_idx] == cell){
-                value = data[sparse_idx];
-                sparse_idx++;
-            }
-            {0} mu_sum = value - mu;
-            {0} pre_res =  mu_sum / sqrt(mu + mu * mu / theta[0]);
-            {0} clipped_res = fminf(fmaxf(pre_res, -clip[0]), clip[0]);
-            sum_clipped_res += clipped_res;
-        }
-
-        {0} mean_clipped_res = sum_clipped_res / n_cells;
-        sparse_idx = start_idx;
-        for(int cell = 0; cell < n_cells; cell++){
-            {0} mu = sums_genes[gene]*sums_cells[cell]/sum_total[0];
-            {0} value = 0.0;
-            if (sparse_idx < stop_idx && index[sparse_idx] == cell){
-                value = data[sparse_idx];
-                sparse_idx++;
-            }
-            {0} mu_sum = value - mu;
-            {0} pre_res =  mu_sum / sqrt(mu + mu * mu / theta[0]);
-            {0} clipped_res = fminf(fmaxf(pre_res, -clip[0]), clip[0]);
-            {0} diff = clipped_res - mean_clipped_res;
-            var_sum += diff * diff;
-        }
-        residuals[gene] = var_sum / n_cells;
-    }
-
-    """
-
-
-def _csc_hvg_res(dtype):
-    return cuda_kernel_factory(_csc_hvg_res_kernel, (dtype,), "_csc_hvg_res_kernel")
-
-
-_dense_hvg_res_kernel = r"""
-    (const {0} *data,
-        const {0}* sums_genes,const {0}* sums_cells,
-        {0}* residuals ,{0}* sum_total,{0}* clip,{0}* theta,int n_genes, int n_cells) {
-        int gene = blockDim.x * blockIdx.x + threadIdx.x;
-        if(gene >= n_genes){
-            return;
-        }
-
-        {0} var_sum = 0.0;
-        {0} sum_clipped_res = 0.0;
-        for(int cell = 0; cell < n_cells; cell++){
-            long long int res_index = static_cast<long long int>(gene) * n_cells + cell;
-            {0} mu = sums_genes[gene]*sums_cells[cell]/sum_total[0];
-            {0} value = data[res_index];
-            {0} mu_sum = value - mu;
-            {0} pre_res =  mu_sum / sqrt(mu + mu * mu / theta[0]);
-            {0} clipped_res = fminf(fmaxf(pre_res, -clip[0]), clip[0]);
-            sum_clipped_res += clipped_res;
-        }
-
-        {0} mean_clipped_res = sum_clipped_res / n_cells;
-        for(int cell = 0; cell < n_cells; cell++){
-            long long int res_index = static_cast<long long int>(gene) * n_cells + cell;
-            {0} mu = sums_genes[gene]*sums_cells[cell]/sum_total[0];
-            {0} value = data[res_index];
-            {0} mu_sum = value - mu;
-            {0} pre_res =  mu_sum / sqrt(mu + mu * mu / theta[0]);
-            {0} clipped_res = fminf(fmaxf(pre_res, -clip[0]), clip[0]);
-            {0} diff = clipped_res - mean_clipped_res;
-            var_sum += diff * diff;
-        }
-        residuals[gene] = var_sum / n_cells;
-    }
-    """
-
-
-def _dense_hvg_res(dtype):
-    return cuda_kernel_factory(_dense_hvg_res_kernel, (dtype,), "_dense_hvg_res_kernel")
diff --git a/src/rapids_singlecell/preprocessing/_neighbors.py b/src/rapids_singlecell/preprocessing/_neighbors.py
index b35cdd98..f721393c 100644
--- a/src/rapids_singlecell/preprocessing/_neighbors.py
+++ b/src/rapids_singlecell/preprocessing/_neighbors.py
@@ -261,20 +261,36 @@ def _nn_descent_knn(
         dataset=X,
     )
     neighbors = cp.array(idx.graph).astype(cp.uint32)
+    from rapids_singlecell._cuda import _nn_descent_cuda as _nd
+
+    distances = cp.zeros((X.shape[0], neighbors.shape[1]), dtype=cp.float32)
     if metric == "euclidean" or metric == "sqeuclidean":
-        from ._kernels._nn_descent import calc_distance_kernel as dist_func
+        _nd.sqeuclidean(
+            X.data.ptr,
+            distances.data.ptr,
+            neighbors.data.ptr,
+            int(X.shape[0]),
+            int(X.shape[1]),
+            int(neighbors.shape[1]),
+        )
     elif metric == "cosine":
-        from ._kernels._nn_descent import calc_distance_kernel_cos as dist_func
+        _nd.cosine(
+            X.data.ptr,
+            distances.data.ptr,
+            neighbors.data.ptr,
+            int(X.shape[0]),
+            int(X.shape[1]),
+            int(neighbors.shape[1]),
+        )
     elif metric == "inner_product":
-        from ._kernels._nn_descent import calc_distance_kernel_inner as dist_func
-    grid_size = (X.shape[0] + 32 - 1) // 32
-    distances = cp.zeros((X.shape[0], neighbors.shape[1]), dtype=cp.float32)
-
-    dist_func(
-        (grid_size,),
-        (32,),
-        (X, distances, neighbors, X.shape[0], X.shape[1], neighbors.shape[1]),
-    )
+        _nd.inner(
+            X.data.ptr,
+            distances.data.ptr,
+            neighbors.data.ptr,
+            int(X.shape[0]),
+            int(X.shape[1]),
+            int(neighbors.shape[1]),
+        )
     if metric == "euclidean":
         distances = cp.sqrt(distances)
     if metric in ("cosine", "euclidean", "sqeuclidean"):
@@ -399,28 +415,27 @@ def _get_connectivities(
 
 
 def _trimming(cnts: cp_sparse.csr_matrix, trim: int) -> cp_sparse.csr_matrix:
-    from ._kernels._bbknn import cut_smaller_func, find_top_k_per_row_kernel
+    from rapids_singlecell._cuda import _bbknn_cuda as _bb
 
     n_rows = cnts.shape[0]
     vals_gpu = cp.zeros(n_rows, dtype=cp.float32)
 
-    threads_per_block = 64
-    blocks_per_grid = (n_rows + threads_per_block - 1) // threads_per_block
-
-    shared_mem_per_thread = trim * cp.dtype(cp.float32).itemsize
-    shared_mem_size = threads_per_block * shared_mem_per_thread
-
-    find_top_k_per_row_kernel(
-        (blocks_per_grid,),
-        (threads_per_block,),
-        (cnts.data, cnts.indptr, cnts.shape[0], trim, vals_gpu),
-        shared_mem=shared_mem_size,
+    _bb.find_top_k_per_row(
+        cnts.data.data.ptr,
+        cnts.indptr.data.ptr,
+        int(cnts.shape[0]),
+        int(trim),
+        vals_gpu.data.ptr,
     )
-    cut_smaller_func(
-        (cnts.shape[0],),
-        (64,),
-        (cnts.indptr, cnts.indices, cnts.data, vals_gpu, cnts.shape[0]),
+
+    _bb.cut_smaller(
+        cnts.indptr.data.ptr,
+        cnts.indices.data.ptr,
+        cnts.data.data.ptr,
+        vals_gpu.data.ptr,
+        int(cnts.shape[0]),
     )
+
     cnts.eliminate_zeros()
     return cnts
 
diff --git a/src/rapids_singlecell/preprocessing/_normalize.py b/src/rapids_singlecell/preprocessing/_normalize.py
index 0cc7df53..c7ff2805 100644
--- a/src/rapids_singlecell/preprocessing/_normalize.py
+++ b/src/rapids_singlecell/preprocessing/_normalize.py
@@ -90,15 +90,16 @@ def _normalize_total(X: ArrayTypesDask, target_sum: int):
     elif isinstance(X, DaskArray):
         return _normalize_total_dask(X, target_sum)
     elif isinstance(X, cp.ndarray):
-        from ._kernels._norm_kernel import _mul_dense
+        from rapids_singlecell._cuda import _norm_cuda as _nc
 
         if not X.flags.c_contiguous:
             X = cp.asarray(X, order="C")
-        mul_kernel = _mul_dense(X.dtype)
-        mul_kernel(
-            (math.ceil(X.shape[0] / 128),),
-            (128,),
-            (X, X.shape[0], X.shape[1], int(target_sum)),
+        _nc.mul_dense(
+            X.data.ptr,
+            int(X.shape[0]),
+            int(X.shape[1]),
+            float(target_sum),
+            int(cp.dtype(X.dtype).itemsize),
         )
         return X
     else:
@@ -106,44 +107,43 @@ def _normalize_total(X: ArrayTypesDask, target_sum: int):
 
 
 def _normalize_total_csr(X: sparse.csr_matrix, target_sum: int) -> sparse.csr_matrix:
-    from ._kernels._norm_kernel import _mul_csr
-
-    mul_kernel = _mul_csr(X.dtype)
-    mul_kernel(
-        (math.ceil(X.shape[0] / 128),),
-        (128,),
-        (X.indptr, X.data, X.shape[0], int(target_sum)),
+    from rapids_singlecell._cuda import _norm_cuda as _nc
+
+    _nc.mul_csr(
+        X.indptr.data.ptr,
+        X.data.data.ptr,
+        int(X.shape[0]),
+        float(target_sum),
+        int(cp.dtype(X.dtype).itemsize),
     )
     return X
 
 
 def _normalize_total_dask(X: DaskArray, target_sum: int) -> DaskArray:
     if isinstance(X._meta, sparse.csr_matrix):
-        from ._kernels._norm_kernel import _mul_csr
-
-        mul_kernel = _mul_csr(X.dtype)
-        mul_kernel.compile()
+        from rapids_singlecell._cuda import _norm_cuda as _nc
 
         def __mul(X_part):
-            mul_kernel(
-                (math.ceil(X_part.shape[0] / 32),),
-                (32,),
-                (X_part.indptr, X_part.data, X_part.shape[0], int(target_sum)),
+            _nc.mul_csr(
+                X_part.indptr.data.ptr,
+                X_part.data.data.ptr,
+                int(X_part.shape[0]),
+                float(target_sum),
+                int(cp.dtype(X_part.dtype).itemsize),
             )
             return X_part
 
         X = X.map_blocks(__mul, meta=_meta_sparse(X.dtype))
     elif isinstance(X._meta, cp.ndarray):
-        from ._kernels._norm_kernel import _mul_dense
-
-        mul_kernel = _mul_dense(X.dtype)
-        mul_kernel.compile()
+        from rapids_singlecell._cuda import _norm_cuda as _nc
 
         def __mul(X_part):
-            mul_kernel(
-                (math.ceil(X_part.shape[0] / 128),),
-                (128,),
-                (X_part, X_part.shape[0], X_part.shape[1], int(target_sum)),
+            _nc.mul_dense(
+                X_part.data.ptr,
+                int(X_part.shape[0]),
+                int(X_part.shape[1]),
+                float(target_sum),
+                int(cp.dtype(X_part.dtype).itemsize),
             )
             return X_part
 
@@ -163,14 +163,15 @@ def _get_target_sum(X: ArrayTypesDask) -> int:
 
 
 def _get_target_sum_csr(X: sparse.csr_matrix) -> int:
-    from ._kernels._norm_kernel import _get_sparse_sum_major
+    from rapids_singlecell._cuda import _norm_cuda as _nc
 
     counts_per_cell = cp.zeros(X.shape[0], dtype=X.dtype)
-    sum_kernel = _get_sparse_sum_major(X.dtype)
-    sum_kernel(
-        (X.shape[0],),
-        (64,),
-        (X.indptr, X.data, counts_per_cell, X.shape[0]),
+    _nc.sum_major(
+        X.indptr.data.ptr,
+        X.data.data.ptr,
+        counts_per_cell.data.ptr,
+        int(X.shape[0]),
+        int(cp.dtype(X.dtype).itemsize),
     )
     counts_per_cell = counts_per_cell[counts_per_cell > 0]
     target_sum = cp.median(counts_per_cell)
@@ -179,17 +180,16 @@ def _get_target_sum_csr(X: sparse.csr_matrix) -> int:
 
 def _get_target_sum_dask(X: DaskArray) -> int:
     if isinstance(X._meta, sparse.csr_matrix):
-        from ._kernels._norm_kernel import _get_sparse_sum_major
-
-        sum_kernel = _get_sparse_sum_major(X.dtype)
-        sum_kernel.compile()
+        from rapids_singlecell._cuda import _norm_cuda as _nc
 
         def __sum(X_part):
             counts_per_cell = cp.zeros(X_part.shape[0], dtype=X_part.dtype)
-            sum_kernel(
-                (X.shape[0],),
-                (64,),
-                (X_part.indptr, X_part.data, counts_per_cell, X_part.shape[0]),
+            _nc.sum_major(
+                X_part.indptr.data.ptr,
+                X_part.data.data.ptr,
+                counts_per_cell.data.ptr,
+                int(X_part.shape[0]),
+                int(cp.dtype(X_part.dtype).itemsize),
             )
             return counts_per_cell
 
@@ -344,111 +344,70 @@ def normalize_pearson_residuals(
         raise ValueError("Pearson residuals require theta > 0")
     if clip is None:
         n = X.shape[0]
-        clip = cp.sqrt(n, dtype=X.dtype)
+        clip = math.sqrt(n)
     if clip < 0:
         raise ValueError("Pearson residuals require `clip>=0` or `clip=None`.")
-    theta = cp.array([1 / theta], dtype=X.dtype)
-    clip = cp.array([clip], dtype=X.dtype)
-    sums_cells = cp.zeros(X.shape[0], dtype=X.dtype)
-    sums_genes = cp.zeros(X.shape[1], dtype=X.dtype)
+    inv_theta = 1.0 / theta
+    # sums_cells = cp.zeros(X.shape[0], dtype=X.dtype)
+    # sums_genes = cp.zeros(X.shape[1], dtype=X.dtype)
+
+    from rapids_singlecell.preprocessing._qc import _basic_qc
+
+    sums_cells, sums_genes, _, _ = _basic_qc(X)
+    inv_sum_total = float(1 / sums_genes.sum())
+    residuals = cp.zeros(X.shape, dtype=X.dtype)
 
     if sparse.issparse(X):
-        residuals = cp.zeros(X.shape, dtype=X.dtype)
+        from rapids_singlecell._cuda import _pr_cuda as _pr
+
         if sparse.isspmatrix_csc(X):
-            from ._kernels._pr_kernels import _sparse_norm_res_csc, _sparse_sum_csc
-
-            block = (8,)
-            grid = (int(math.ceil(X.shape[1] / block[0])),)
-            sum_csc = _sparse_sum_csc(X.dtype)
-            sum_csc(
-                grid,
-                block,
-                (X.indptr, X.indices, X.data, sums_genes, sums_cells, X.shape[1]),
-            )
-            sum_total = 1 / sums_genes.sum().squeeze()
-            norm_res = _sparse_norm_res_csc(X.dtype)
-            norm_res(
-                grid,
-                block,
-                (
-                    X.indptr,
-                    X.indices,
-                    X.data,
-                    sums_cells,
-                    sums_genes,
-                    residuals,
-                    sum_total,
-                    clip,
-                    theta,
-                    X.shape[0],
-                    X.shape[1],
-                ),
+            _pr.sparse_norm_res_csc(
+                X.indptr.data.ptr,
+                X.indices.data.ptr,
+                X.data.data.ptr,
+                sums_cells.data.ptr,
+                sums_genes.data.ptr,
+                residuals.data.ptr,
+                inv_sum_total,
+                clip,
+                inv_theta,
+                int(X.shape[0]),
+                int(X.shape[1]),
+                int(cp.dtype(X.dtype).itemsize),
             )
         elif sparse.isspmatrix_csr(X):
-            from ._kernels._pr_kernels import _sparse_norm_res_csr, _sparse_sum_csr
-
-            block = (8,)
-            grid = (int(math.ceil(X.shape[0] / block[0])),)
-            sum_csr = _sparse_sum_csr(X.dtype)
-            sum_csr(
-                grid,
-                block,
-                (X.indptr, X.indices, X.data, sums_genes, sums_cells, X.shape[0]),
-            )
-            sum_total = 1 / sums_genes.sum().squeeze()
-            norm_res = _sparse_norm_res_csr(X.dtype)
-            norm_res(
-                grid,
-                block,
-                (
-                    X.indptr,
-                    X.indices,
-                    X.data,
-                    sums_cells,
-                    sums_genes,
-                    residuals,
-                    sum_total,
-                    clip,
-                    theta,
-                    X.shape[0],
-                    X.shape[1],
-                ),
+            _pr.sparse_norm_res_csr(
+                X.indptr.data.ptr,
+                X.indices.data.ptr,
+                X.data.data.ptr,
+                sums_cells.data.ptr,
+                sums_genes.data.ptr,
+                residuals.data.ptr,
+                inv_sum_total,
+                clip,
+                inv_theta,
+                int(X.shape[0]),
+                int(X.shape[1]),
+                int(cp.dtype(X.dtype).itemsize),
             )
         else:
             raise ValueError(
                 "Please transform you sparse matrix into CSR or CSC format."
             )
     else:
-        from ._kernels._pr_kernels import _norm_res_dense, _sum_dense
-
-        residuals = cp.zeros(X.shape, dtype=X.dtype)
-        block = (8, 8)
-        grid = (
-            math.ceil(residuals.shape[0] / block[0]),
-            math.ceil(residuals.shape[1] / block[1]),
-        )
-        sum_dense = _sum_dense(X.dtype)
-        sum_dense(
-            grid,
-            block,
-            (X, sums_cells, sums_genes, residuals.shape[0], residuals.shape[1]),
-        )
-        sum_total = 1 / sums_genes.sum().squeeze()
-        norm_res = _norm_res_dense(X.dtype)
-        norm_res(
-            grid,
-            block,
-            (
-                X,
-                residuals,
-                sums_cells,
-                sums_genes,
-                sum_total,
-                clip,
-                theta,
-                residuals.shape[0],
-                residuals.shape[1],
-            ),
+        from rapids_singlecell._cuda import _pr_cuda as _pr
+
+        _pr.dense_norm_res(
+            X.data.ptr,
+            residuals.data.ptr,
+            sums_cells.data.ptr,
+            sums_genes.data.ptr,
+            inv_sum_total,
+            clip,
+            inv_theta,
+            int(residuals.shape[0]),
+            int(residuals.shape[1]),
+            int(cp.dtype(X.dtype).itemsize),
         )
 
     if inplace is True:
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index 5cf35fcc..ac19893f 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -24,10 +24,10 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
 
     if isspmatrix_csr(X):
         major, minor = X.shape[0], X.shape[1]
-        switcher = 1 if order == "C" else 0
+        switcher = True if order == "C" else False
     elif isspmatrix_csc(X):
         major, minor = X.shape[1], X.shape[0]
-        switcher = 0 if order == "C" else 1
+        switcher = False if order == "C" else True
     else:
         raise ValueError("Input matrix must be a sparse `csc` or `csr` matrix")
 
@@ -40,7 +40,7 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
         dense.data.ptr,
         int(major),
         int(minor),
-        int(switcher),
+        switcher,
         int(max_nnz),
         int(cp.dtype(X.dtype).itemsize),
     )
diff --git a/src/rapids_singlecell/squidpy_gpu/_co_oc.py b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
index 9711b3c2..caad8017 100644
--- a/src/rapids_singlecell/squidpy_gpu/_co_oc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
@@ -6,17 +6,12 @@
 import numpy as np
 from cuml.metrics import pairwise_distances
 
+from rapids_singlecell._cuda import _cooc_cuda as _co
 from rapids_singlecell.preprocessing._harmony._helper import (
     _create_category_index_mapping,
 )
 
 from ._utils import _assert_categorical_obs, _assert_spatial_basis
-from .kernels._co_oc import (
-    occur_count_kernel_csr_catpairs,
-    occur_count_kernel_pairwise,
-    occur_reduction_kernel_global,
-    occur_reduction_kernel_shared,
-)
 
 if TYPE_CHECKING:
     from anndata import AnnData
@@ -120,7 +115,6 @@ def _co_occurrence_helper(
         A 3D array of shape (k, k, len(v_radium)-1) containing the co-occurrence probabilities.
 
     """
-    n = spatial.shape[0]
     # labels are dense [0, k)
     k = int(cp.asnumpy(labs.max())) + 1
     l_val = len(v_radium) - 1
@@ -140,76 +134,55 @@ def _co_occurrence_helper(
                 pair_right.append(b)
         pair_left = cp.asarray(pair_left, dtype=cp.int32)
         pair_right = cp.asarray(pair_right, dtype=cp.int32)
-        # Choose the largest block size that fits shared memory
-        props = cp.cuda.runtime.getDeviceProperties(0)
-        max_smem = int(props.get("sharedMemPerBlock", 48 * 1024))
-
-        chosen_threads = None
-        for tpb in (1024, 512, 256, 128, 64, 32):
-            warps = tpb // 32
-            l_pad = ((l_val + 31) // 32) * 32
-            required = warps * l_pad * cp.dtype(cp.int32).itemsize
-            if required <= max_smem:
-                chosen_threads = tpb
-                shared_mem_size_fast = required
-                break
-
-        if chosen_threads is not None:
-            counts = cp.zeros((k, k, l_val), dtype=cp.int32)
-            grid = (pair_left.size,)
-            block = (chosen_threads,)
-            occur_count_kernel_csr_catpairs(
-                grid,
-                block,
-                (
-                    spatial,
-                    thresholds,
-                    cat_offsets,
-                    cell_indices,
-                    pair_left,
-                    pair_right,
-                    counts,
-                    k,
-                    l_val,
-                ),
-                shared_mem=shared_mem_size_fast,
-            )
-            # CSR kernel now writes counts in (k, k, l_val) layout
-            reader = 1
-            use_fast_kernel = True
+        # Let C++ pick tpb; fall back to slow if insufficient shared memory
+        counts = cp.zeros((k, k, l_val), dtype=cp.int32)
+        reader = 1
+        use_fast_kernel = _co.count_csr_catpairs_auto(
+            spatial.data.ptr,
+            thresholds.data.ptr,
+            cat_offsets.data.ptr,
+            cell_indices.data.ptr,
+            pair_left.data.ptr,
+            pair_right.data.ptr,
+            counts.data.ptr,
+            int(pair_left.size),
+            int(k),
+            int(l_val),
+        )
 
     # Fallback to the standard kernel if fast=False or shared memory was insufficient
     if not use_fast_kernel:
         counts = cp.zeros((k, k, l_val * 2), dtype=cp.int32)
-        grid = (n,)
-        block = (32,)
-        occur_count_kernel_pairwise(
-            grid, block, (spatial, thresholds, labs, counts, n, k, l_val)
+        _co.count_pairwise(
+            spatial.data.ptr,
+            thresholds.data.ptr,
+            labs.data.ptr,
+            counts.data.ptr,
+            int(spatial.shape[0]),
+            int(k),
+            int(l_val),
         )
         reader = 0
 
     occ_prob = cp.empty((k, k, l_val), dtype=np.float32)
-    shared_mem_size = (k * k + k) * cp.dtype("float32").itemsize
-    props = cp.cuda.runtime.getDeviceProperties(0)
-    if fast and shared_mem_size < props["sharedMemPerBlock"]:
-        grid2 = (l_val,)
-        block2 = (32,)
-        occur_reduction_kernel_shared(
-            grid2,
-            block2,
-            (counts, occ_prob, k, l_val, reader),
-            shared_mem=shared_mem_size,
+    ok = False
+    if fast:
+        ok = _co.reduce_shared(
+            counts.data.ptr,
+            occ_prob.data.ptr,
+            int(k),
+            int(l_val),
+            int(reader),
         )
-    else:
-        shared_mem_size = (k) * cp.dtype("float32").itemsize
-        grid2 = (l_val,)
-        block2 = (32,)
+    if not ok:
         inter_out = cp.zeros((l_val, k, k), dtype=np.float32)
-        occur_reduction_kernel_global(
-            grid2,
-            block2,
-            (counts, inter_out, occ_prob, k, l_val, reader),
-            shared_mem=shared_mem_size,
+        _co.reduce_global(
+            counts.data.ptr,
+            inter_out.data.ptr,
+            occ_prob.data.ptr,
+            int(k),
+            int(l_val),
+            int(reader),
         )
 
     return occ_prob
diff --git a/src/rapids_singlecell/squidpy_gpu/_gearysc.py b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
index 8139aa5d..d66b3cb8 100644
--- a/src/rapids_singlecell/squidpy_gpu/_gearysc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
@@ -1,129 +1,23 @@
 from __future__ import annotations
 
-import math
-
 import cupy as cp
 from cupyx.scipy import sparse
 
-from ._moransi import pre_den_calc_sparse
-
-kernel_gearys_C_num_dense = r"""
-extern "C" __global__ void gearys_C_num_dense(const float* data,
-const int* adj_matrix_row_ptr, const int* adj_matrix_col_ind, const float* adj_matrix_data,
-float* num, int n_samples, int n_features) {
-    int f = blockIdx.x * blockDim.x + threadIdx.x;
-    int i = blockIdx.y * blockDim.y + threadIdx.y;
-
-    if (i >= n_samples || f >= n_features) {
-        return;
-    }
-
-    int k_start = adj_matrix_row_ptr[i];
-    int k_end = adj_matrix_row_ptr[i + 1];
-
-    for (int k = k_start; k < k_end; ++k) {
-        int j = adj_matrix_col_ind[k];
-        float edge_weight = adj_matrix_data[k];
-        float diff_sq = (data[i * n_features + f] - data[j * n_features + f]) * (data[i * n_features + f] - data[j * n_features + f]);
-        atomicAdd(&num[f], edge_weight * diff_sq);
-    }
-}
-"""
-kernel_gearys_C_num_sparse = r"""
-extern "C" __global__
-void gearys_C_num_sparse(const int* adj_matrix_row_ptr, const int* adj_matrix_col_ind, const float* adj_matrix_data,
-                    const int* data_row_ptr, const int* data_col_ind, const float* data_values,
-                    const int n_samples, const int n_features,
-                    float* num) {
-    int i = blockIdx.x;
-    int numThreads = blockDim.x;
-    int threadid = threadIdx.x;
-
-    // Create cache
-    __shared__ float cell1[3072];
-    __shared__ float cell2[3072];
-
-    int numruns = (n_features + 3072 - 1) / 3072;
-
-    if (i >= n_samples) {
-        return;
-    }
-
-    int k_start = adj_matrix_row_ptr[i];
-    int k_end = adj_matrix_row_ptr[i + 1];
-
-    for (int k = k_start; k < k_end; ++k) {
-        int j = adj_matrix_col_ind[k];
-        float edge_weight = adj_matrix_data[k];
-
-        int cell1_start = data_row_ptr[i];
-        int cell1_stop = data_row_ptr[i+1];
-
-        int cell2_start = data_row_ptr[j];
-        int cell2_stop = data_row_ptr[j+1];
-
-        for(int batch_runner = 0; batch_runner < numruns; batch_runner++){
-            // Set cache to 0
-            for (int idx = threadid; idx < 3072; idx += numThreads) {
-                cell1[idx] = 0.0f;
-                cell2[idx] = 0.0f;
-            }
-            __syncthreads();
-            int batch_start = 3072 * batch_runner;
-            int batch_end = 3072 * (batch_runner + 1);
-
-            // Densify sparse into cache
-            for (int cell1_idx = cell1_start+ threadid; cell1_idx < cell1_stop;cell1_idx+=numThreads) {
-                int gene_id = data_col_ind[cell1_idx];
-                if (gene_id >= batch_start && gene_id < batch_end){
-                    cell1[gene_id % 3072] = data_values[cell1_idx];
-                }
-            }
-            __syncthreads();
-            for (int cell2_idx = cell2_start+threadid; cell2_idx < cell2_stop;cell2_idx+=numThreads) {
-                int gene_id = data_col_ind[cell2_idx];
-                if (gene_id >= batch_start && gene_id < batch_end){
-                    cell2[gene_id % 3072] = data_values[cell2_idx];
-                }
-            }
-            __syncthreads();
-
-            // Calc num
-            for(int gene = threadid; gene < 3072; gene+= numThreads){
-                int global_gene_index = batch_start + gene;
-                if (global_gene_index < n_features) {
-                    float diff_sq = (cell1[gene] - cell2[gene]) * (cell1[gene] - cell2[gene]);
-                    atomicAdd(&num[global_gene_index], edge_weight * diff_sq);
-                }
-            }
-        }
-    }
-}
-"""
+from rapids_singlecell._cuda import _autocorr_cuda as _ac
 
 
 def _gearys_C_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
     n_samples, n_features = data.shape
     # Calculate the numerator for Geary's C
     num = cp.zeros(n_features, dtype=cp.float32)
-    num_kernel = cp.RawKernel(kernel_gearys_C_num_dense, "gearys_C_num_dense")
-
-    block_size = 8
-    fg = int(math.ceil(n_features / block_size))
-    sg = int(math.ceil(n_samples / block_size))
-    grid_size = (fg, sg, 1)
-    num_kernel(
-        grid_size,
-        (block_size, block_size, 1),
-        (
-            data,
-            adj_matrix_cupy.indptr,
-            adj_matrix_cupy.indices,
-            adj_matrix_cupy.data,
-            num,
-            n_samples,
-            n_features,
-        ),
+    _ac.gearys_dense(
+        data.data.ptr,
+        adj_matrix_cupy.indptr.data.ptr,
+        adj_matrix_cupy.indices.data.ptr,
+        adj_matrix_cupy.data.data.ptr,
+        num.data.ptr,
+        int(n_samples),
+        int(n_features),
     )
     # Calculate the denominator for Geary's C
     gene_mean = data.mean(axis=0).ravel()
@@ -141,18 +35,14 @@ def _gearys_C_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
         for p in range(n_permutations):
             idx_shuffle = cp.random.permutation(adj_matrix_cupy.shape[0])
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
-            num_kernel(
-                grid_size,
-                (block_size, block_size, 1),
-                (
-                    data,
-                    adj_matrix_permuted.indptr,
-                    adj_matrix_permuted.indices,
-                    adj_matrix_permuted.data,
-                    num_permuted,
-                    n_samples,
-                    n_features,
-                ),
+            _ac.gearys_dense(
+                data.data.ptr,
+                adj_matrix_permuted.indptr.data.ptr,
+                adj_matrix_permuted.indices.data.ptr,
+                adj_matrix_permuted.data.data.ptr,
+                num_permuted.data.ptr,
+                int(n_samples),
+                int(n_features),
             )
             gearys_C_permutations[p, :] = (n_samples - 1) * num_permuted / den
             num_permuted[:] = 0
@@ -166,35 +56,30 @@ def _gearys_C_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
     n_samples, n_features = data.shape
     # Calculate the numerator for Geary's C
     num = cp.zeros(n_features, dtype=cp.float32)
-    num_kernel = cp.RawKernel(kernel_gearys_C_num_sparse, "gearys_C_num_sparse")
 
     n_samples, n_features = data.shape
-    sg = n_samples
-    # Launch the kernel
-    num_kernel(
-        (sg,),
-        (1024,),
-        (
-            adj_matrix_cupy.indptr,
-            adj_matrix_cupy.indices,
-            adj_matrix_cupy.data,
-            data.indptr,
-            data.indices,
-            data.data,
-            n_samples,
-            n_features,
-            num,
-        ),
+    _ac.gearys_sparse(
+        adj_matrix_cupy.indptr.data.ptr,
+        adj_matrix_cupy.indices.data.ptr,
+        adj_matrix_cupy.data.data.ptr,
+        data.indptr.data.ptr,
+        data.indices.data.ptr,
+        data.data.data.ptr,
+        int(n_samples),
+        int(n_features),
+        num.data.ptr,
     )
     # Calculate the denominator for Geary's C
     means = data.mean(axis=0).ravel()
     den = cp.zeros(n_features, dtype=cp.float32)
     counter = cp.zeros(n_features, dtype=cp.int32)
-    block_den = math.ceil(data.nnz / 32)
-    pre_den_kernel = cp.RawKernel(pre_den_calc_sparse, "pre_den_sparse_kernel")
-
-    pre_den_kernel(
-        (block_den,), (32,), (data.indices, data.data, data.nnz, means, den, counter)
+    _ac.pre_den_sparse(
+        data.indices.data.ptr,
+        data.data.data.ptr,
+        int(data.nnz),
+        means.data.ptr,
+        den.data.ptr,
+        counter.data.ptr,
     )
     counter = n_samples - counter
     den += counter * means**2
@@ -210,20 +95,16 @@ def _gearys_C_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
         for p in range(n_permutations):
             idx_shuffle = cp.random.permutation(adj_matrix_cupy.shape[0])
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
-            num_kernel(
-                (sg,),
-                (1024,),
-                (
-                    adj_matrix_permuted.indptr,
-                    adj_matrix_permuted.indices,
-                    adj_matrix_permuted.data,
-                    data.indptr,
-                    data.indices,
-                    data.data,
-                    n_samples,
-                    n_features,
-                    num_permuted,
-                ),
+            _ac.gearys_sparse(
+                adj_matrix_permuted.indptr.data.ptr,
+                adj_matrix_permuted.indices.data.ptr,
+                adj_matrix_permuted.data.data.ptr,
+                data.indptr.data.ptr,
+                data.indices.data.ptr,
+                data.data.data.ptr,
+                int(n_samples),
+                int(n_features),
+                num_permuted.data.ptr,
             )
             gearys_C_permutations[p, :] = (n_samples - 1) * num_permuted / den
             num_permuted[:] = 0
diff --git a/src/rapids_singlecell/squidpy_gpu/_moransi.py b/src/rapids_singlecell/squidpy_gpu/_moransi.py
index b712bcfc..2635d4c2 100644
--- a/src/rapids_singlecell/squidpy_gpu/_moransi.py
+++ b/src/rapids_singlecell/squidpy_gpu/_moransi.py
@@ -1,121 +1,9 @@
 from __future__ import annotations
 
-import math
-
 import cupy as cp
 from cupyx.scipy import sparse
 
-kernel_morans_I_num_dense = r"""
-extern "C" __global__
-void morans_I_num_dense(const float* data_centered, const int* adj_matrix_row_ptr, const int* adj_matrix_col_ind,
-const float* adj_matrix_data, float* num, int n_samples, int n_features) {
-    int f = blockIdx.x * blockDim.x + threadIdx.x;
-    int i = blockIdx.y * blockDim.y + threadIdx.y;
-
-    if (i >= n_samples || f >= n_features) {
-        return;
-    }
-
-    int k_start = adj_matrix_row_ptr[i];
-    int k_end = adj_matrix_row_ptr[i + 1];
-
-    for (int k = k_start; k < k_end; ++k) {
-        int j = adj_matrix_col_ind[k];
-        float edge_weight = (adj_matrix_data[k]);
-        float product = data_centered[i * n_features + f] * data_centered[j * n_features + f];
-        atomicAdd(&num[f], edge_weight * product);
-    }
-}
-"""
-
-kernel_morans_I_num_sparse = r"""
-extern "C" __global__
-void morans_I_num_sparse(const int* adj_matrix_row_ptr, const int* adj_matrix_col_ind, const float* adj_matrix_data,
-            const int* data_row_ptr, const int* data_col_ind, const float* data_values,
-            const int n_samples, const int n_features, const float* mean_array,
-            float* num) {
-    int i = blockIdx.x;
-
-    if (i >= n_samples) {
-        return;
-    }
-    int numThreads = blockDim.x;
-    int threadid = threadIdx.x;
-
-    // Create cache
-    __shared__ float cell1[3072];
-    __shared__ float cell2[3072];
-
-    int numruns = (n_features + 3072 - 1) / 3072;
-
-    int k_start = adj_matrix_row_ptr[i];
-    int k_end = adj_matrix_row_ptr[i + 1];
-
-    for (int k = k_start; k < k_end; ++k) {
-        int j = adj_matrix_col_ind[k];
-        float edge_weight = adj_matrix_data[k];
-
-        int cell1_start = data_row_ptr[i];
-        int cell1_stop = data_row_ptr[i+1];
-
-        int cell2_start = data_row_ptr[j];
-        int cell2_stop = data_row_ptr[j+1];
-
-        for(int batch_runner = 0; batch_runner < numruns; batch_runner++){
-            // Set cache to 0
-            for (int idx = threadid; idx < 3072; idx += numThreads) {
-                cell1[idx] = 0.0f;
-                cell2[idx] = 0.0f;
-            }
-            __syncthreads();
-            int batch_start = 3072 * batch_runner;
-            int batch_end = 3072 * (batch_runner + 1);
-
-            // Densify sparse into cache
-            for (int cell1_idx = cell1_start+ threadid; cell1_idx < cell1_stop;cell1_idx+=numThreads) {
-                int gene_id = data_col_ind[cell1_idx];
-                if (gene_id >= batch_start && gene_id < batch_end){
-                    cell1[gene_id % 3072] = data_values[cell1_idx];
-                }
-            }
-            __syncthreads();
-            for (int cell2_idx = cell2_start+threadid; cell2_idx < cell2_stop;cell2_idx+=numThreads) {
-                int gene_id = data_col_ind[cell2_idx];
-                if (gene_id >= batch_start && gene_id < batch_end){
-                    cell2[gene_id % 3072] = data_values[cell2_idx];
-                }
-            }
-            __syncthreads();
-
-            // Calc num
-            for(int gene = threadid; gene < 3072; gene+= numThreads){
-                int global_gene_index = batch_start + gene;
-                if (global_gene_index < n_features) {
-                    float product = (cell1[gene] - mean_array[global_gene_index]) * (cell2[gene]-mean_array[global_gene_index]);
-                    atomicAdd(&num[global_gene_index], edge_weight * product);
-                }
-            }
-        }
-    }
-}
-"""
-
-pre_den_calc_sparse = r"""
-extern "C" __global__
-    void pre_den_sparse_kernel(const int* data_col_ind, const float* data_values, int nnz,
-                        const float* mean_array,
-                        float* den, int* counter) {
-            int i = blockIdx.x * blockDim.x + threadIdx.x;
-            if(i >= nnz){
-                return;
-            }
-
-            int geneidx = data_col_ind[i];
-            float value = data_values[i]- mean_array[geneidx];
-            atomicAdd(&counter[geneidx], 1);
-            atomicAdd(&den[geneidx], value*value);
-}
-"""
+from rapids_singlecell._cuda import _autocorr_cuda as _ac
 
 
 def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
@@ -124,24 +12,15 @@ def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
 
     # Calculate the numerator and denominator for Moran's I
     num = cp.zeros(n_features, dtype=cp.float32)
-    block_size = 8
-    fg = int(math.ceil(n_features / block_size))
-    sg = int(math.ceil(n_samples / block_size))
-    grid_size = (fg, sg, 1)
 
-    num_kernel = cp.RawKernel(kernel_morans_I_num_dense, "morans_I_num_dense")
-    num_kernel(
-        grid_size,
-        (block_size, block_size, 1),
-        (
-            data_centered_cupy,
-            adj_matrix_cupy.indptr,
-            adj_matrix_cupy.indices,
-            adj_matrix_cupy.data,
-            num,
-            n_samples,
-            n_features,
-        ),
+    _ac.morans_dense(
+        data_centered_cupy.data.ptr,
+        adj_matrix_cupy.indptr.data.ptr,
+        adj_matrix_cupy.indices.data.ptr,
+        adj_matrix_cupy.data.data.ptr,
+        num.data.ptr,
+        int(n_samples),
+        int(n_features),
     )
 
     # Calculate the denominator for Moarn's I
@@ -156,18 +35,14 @@ def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
         for p in range(n_permutations):
             idx_shuffle = cp.random.permutation(adj_matrix_cupy.shape[0])
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
-            num_kernel(
-                grid_size,
-                (block_size, block_size, 1),
-                (
-                    data_centered_cupy,
-                    adj_matrix_permuted.indptr,
-                    adj_matrix_permuted.indices,
-                    adj_matrix_permuted.data,
-                    num_permuted,
-                    n_samples,
-                    n_features,
-                ),
+            _ac.morans_dense(
+                data_centered_cupy.data.ptr,
+                adj_matrix_permuted.indptr.data.ptr,
+                adj_matrix_permuted.indices.data.ptr,
+                adj_matrix_permuted.data.data.ptr,
+                num_permuted.data.ptr,
+                int(n_samples),
+                int(n_features),
             )
             morans_I_permutations[p, :] = num_permuted / den
             num_permuted[:] = 0
@@ -181,37 +56,33 @@ def _morans_I_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
     n_samples, n_features = data.shape
     # Calculate the numerator for Moarn's I
     num = cp.zeros(n_features, dtype=cp.float32)
-    num_kernel = cp.RawKernel(kernel_morans_I_num_sparse, "morans_I_num_sparse")
     means = data.mean(axis=0).ravel()
 
     n_samples, n_features = data.shape
-    sg = n_samples
     # Launch the kernel
-    num_kernel(
-        (sg,),
-        (1024,),
-        (
-            adj_matrix_cupy.indptr,
-            adj_matrix_cupy.indices,
-            adj_matrix_cupy.data,
-            data.indptr,
-            data.indices,
-            data.data,
-            n_samples,
-            n_features,
-            means,
-            num,
-        ),
+    _ac.morans_sparse(
+        adj_matrix_cupy.indptr.data.ptr,
+        adj_matrix_cupy.indices.data.ptr,
+        adj_matrix_cupy.data.data.ptr,
+        data.indptr.data.ptr,
+        data.indices.data.ptr,
+        data.data.data.ptr,
+        int(n_samples),
+        int(n_features),
+        means.data.ptr,
+        num.data.ptr,
     )
 
     # Calculate the denominator for Moarn's I
     den = cp.zeros(n_features, dtype=cp.float32)
     counter = cp.zeros(n_features, dtype=cp.int32)
-    block_den = math.ceil(data.nnz / 32)
-    pre_den_kernel = cp.RawKernel(pre_den_calc_sparse, "pre_den_sparse_kernel")
-
-    pre_den_kernel(
-        (block_den,), (32,), (data.indices, data.data, data.nnz, means, den, counter)
+    _ac.pre_den_sparse(
+        data.indices.data.ptr,
+        data.data.data.ptr,
+        int(data.nnz),
+        means.data.ptr,
+        den.data.ptr,
+        counter.data.ptr,
     )
     counter = n_samples - counter
     den += counter * means**2
@@ -227,21 +98,17 @@ def _morans_I_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
             idx_shuffle = cp.random.permutation(adj_matrix_cupy.shape[0])
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
             num_permuted = cp.zeros(n_features, dtype=data.dtype)
-            num_kernel(
-                (sg,),
-                (1024,),
-                (
-                    adj_matrix_permuted.indptr,
-                    adj_matrix_permuted.indices,
-                    adj_matrix_permuted.data,
-                    data.indptr,
-                    data.indices,
-                    data.data,
-                    n_samples,
-                    n_features,
-                    means,
-                    num_permuted,
-                ),
+            _ac.morans_sparse(
+                adj_matrix_permuted.indptr.data.ptr,
+                adj_matrix_permuted.indices.data.ptr,
+                adj_matrix_permuted.data.data.ptr,
+                data.indptr.data.ptr,
+                data.indices.data.ptr,
+                data.data.data.ptr,
+                int(n_samples),
+                int(n_features),
+                means.data.ptr,
+                num_permuted.data.ptr,
             )
 
             morans_I_permutations[p, :] = num_permuted / den
diff --git a/src/rapids_singlecell/tools/_utils.py b/src/rapids_singlecell/tools/_utils.py
index d68a58f3..7890be99 100644
--- a/src/rapids_singlecell/tools/_utils.py
+++ b/src/rapids_singlecell/tools/_utils.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 
-import math
+import math  # noqa: F401
 
 import cupy as cp
 from cupyx.scipy.sparse import issparse, isspmatrix_csc, isspmatrix_csr
@@ -50,18 +50,20 @@ def _choose_representation(adata, use_rep=None, n_pcs=None):
 
 
 def _nan_mean_minor_dask_sparse(X, major, minor, *, mask=None, n_features=None):
-    from ._kernels._nan_mean_kernels import _get_nan_mean_minor
-
-    kernel = _get_nan_mean_minor(X.dtype)
-    kernel.compile()
+    from rapids_singlecell._cuda import _nanmean_cuda as _nm
 
     def __nan_mean_minor(X_part):
         mean = cp.zeros(minor, dtype=cp.float64)
         nans = cp.zeros(minor, dtype=cp.int32)
-        tpb = (32,)
-        bpg_x = math.ceil(X_part.nnz / 32)
-        bpg = (bpg_x,)
-        kernel(bpg, tpb, (X_part.indices, X_part.data, mean, nans, mask, X_part.nnz))
+        _nm.nan_mean_minor(
+            X_part.indices.data.ptr,
+            X_part.data.data.ptr,
+            mean.data.ptr,
+            nans.data.ptr,
+            mask.data.ptr,
+            int(X_part.nnz),
+            int(cp.dtype(X_part.dtype).itemsize),
+        )
         return cp.vstack([mean, nans.astype(cp.float64)])[None, ...]
 
     n_blocks = X.blocks.size
@@ -77,30 +79,22 @@ def __nan_mean_minor(X_part):
 
 
 def _nan_mean_major_dask_sparse(X, major, minor, *, mask=None, n_features=None):
-    from ._kernels._nan_mean_kernels import _get_nan_mean_major
-
-    kernel = _get_nan_mean_major(X.dtype)
-    kernel.compile()
+    from rapids_singlecell._cuda import _nanmean_cuda as _nm
 
     def __nan_mean_major(X_part):
         major_part = X_part.shape[0]
         mean = cp.zeros(major_part, dtype=cp.float64)
         nans = cp.zeros(major_part, dtype=cp.int32)
-        block = (64,)
-        grid = (major_part,)
-        kernel(
-            grid,
-            block,
-            (
-                X_part.indptr,
-                X_part.indices,
-                X_part.data,
-                mean,
-                nans,
-                mask,
-                major_part,
-                minor,
-            ),
+        _nm.nan_mean_major(
+            X_part.indptr.data.ptr,
+            X_part.indices.data.ptr,
+            X_part.data.data.ptr,
+            mean.data.ptr,
+            nans.data.ptr,
+            mask.data.ptr,
+            int(major_part),
+            int(minor),
+            int(cp.dtype(X_part.dtype).itemsize),
         )
         return cp.stack([mean, nans.astype(cp.float64)], axis=1)
 
@@ -144,30 +138,38 @@ def __nan_mean_dense(X_part):
 
 
 def _nan_mean_minor(X, major, minor, *, mask=None, n_features=None):
-    from ._kernels._nan_mean_kernels import _get_nan_mean_minor
+    from rapids_singlecell._cuda import _nanmean_cuda as _nm
 
     mean = cp.zeros(minor, dtype=cp.float64)
     nans = cp.zeros(minor, dtype=cp.int32)
-    tpb = (32,)
-    bpg_x = math.ceil(X.nnz / 32)
-
-    bpg = (bpg_x,)
-    get_mean_var_minor = _get_nan_mean_minor(X.data.dtype)
-    get_mean_var_minor(bpg, tpb, (X.indices, X.data, mean, nans, mask, X.nnz))
+    _nm.nan_mean_minor(
+        X.indices.data.ptr,
+        X.data.data.ptr,
+        mean.data.ptr,
+        nans.data.ptr,
+        mask.data.ptr,
+        int(X.nnz),
+        int(cp.dtype(X.data.dtype).itemsize),
+    )
     mean /= n_features - nans
     return mean
 
 
 def _nan_mean_major(X, major, minor, *, mask=None, n_features=None):
-    from ._kernels._nan_mean_kernels import _get_nan_mean_major
+    from rapids_singlecell._cuda import _nanmean_cuda as _nm
 
     mean = cp.zeros(major, dtype=cp.float64)
     nans = cp.zeros(major, dtype=cp.int32)
-    block = (64,)
-    grid = (major,)
-    get_mean_var_major = _get_nan_mean_major(X.data.dtype)
-    get_mean_var_major(
-        grid, block, (X.indptr, X.indices, X.data, mean, nans, mask, major, minor)
+    _nm.nan_mean_major(
+        X.indptr.data.ptr,
+        X.indices.data.ptr,
+        X.data.data.ptr,
+        mean.data.ptr,
+        nans.data.ptr,
+        mask.data.ptr,
+        int(major),
+        int(minor),
+        int(cp.dtype(X.data.dtype).itemsize),
     )
     mean /= n_features - nans
 
diff --git a/tests/test_aggregated.py b/tests/test_aggregated.py
index bc89b9cc..c56f5195 100644
--- a/tests/test_aggregated.py
+++ b/tests/test_aggregated.py
@@ -338,7 +338,7 @@ def test_factors():
         X=cp.arange(obs.shape[0]).reshape(-1, 1),
         obs=obs,
     )
-
+    adata.X = adata.X.astype(np.float32)
     res = rsc.get.aggregate(adata, by=["a", "b", "c", "d"], func="sum")
     cp.testing.assert_array_equal(res.layers["sum"], adata.X)
 
diff --git a/tests/test_hvg.py b/tests/test_hvg.py
index fb8f9cf4..e50ca17f 100644
--- a/tests/test_hvg.py
+++ b/tests/test_hvg.py
@@ -309,6 +309,12 @@ def test_highly_variable_genes_pearson_residuals_general(
     ]:
         assert key in cudata.var.columns
 
+    print(cudata.var["residual_variances"].values.shape)
+    print(residual_variances_reference.shape)
+    print(
+        f"cudata.var['residual_variances'].values: {cudata.var['residual_variances'].values}"
+    )
+    print(f"residual_variances_reference: {residual_variances_reference}")
     assert np.allclose(
         cudata.var["residual_variances"].values, residual_variances_reference
     )
diff --git a/tests/test_normalization.py b/tests/test_normalization.py
index 295d3089..e8288372 100644
--- a/tests/test_normalization.py
+++ b/tests/test_normalization.py
@@ -4,7 +4,7 @@
 import numpy as np
 import pytest
 from anndata import AnnData
-from cupyx.scipy.sparse import csr_matrix
+from cupyx.scipy.sparse import csc_matrix, csr_matrix
 
 import rapids_singlecell as rsc
 
@@ -38,7 +38,7 @@ def test_normalize_total_layers(dtype):
 
 
 @pytest.mark.parametrize(
-    "sparsity_func", [cp.array, csr_matrix], ids=lambda x: x.__name__
+    "sparsity_func", [cp.array, csr_matrix, csc_matrix], ids=lambda x: x.__name__
 )
 @pytest.mark.parametrize("dtype", [np.float32, np.float64])
 @pytest.mark.parametrize("theta", [0.01, 1.0, 100, np.inf])

From 0685436f13315e8ea058a992784288f3799a2877 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 11:10:34 +0200
Subject: [PATCH 32/54] add pca and make safe docs

---
 CMakeLists.txt                                |  1 +
 .../_cuda/spca/kernels_spca.cuh               | 49 +++++++++++
 src/rapids_singlecell/_cuda/spca/spca.cu      | 88 +++++++++++++++++++
 .../decoupler_gpu/_method_aucell.py           |  6 +-
 .../preprocessing/_sparse_pca/_helper.py      | 60 +++++--------
 .../_kernels/_pca_sparse_kernel.py            | 77 ----------------
 .../preprocessing/_sparse_pca/_sparse_pca.py  | 55 +++++-------
 src/rapids_singlecell/squidpy_gpu/_co_oc.py   |  6 +-
 src/rapids_singlecell/squidpy_gpu/_gearysc.py |  5 +-
 src/rapids_singlecell/squidpy_gpu/_moransi.py |  5 +-
 10 files changed, 199 insertions(+), 153 deletions(-)
 create mode 100644 src/rapids_singlecell/_cuda/spca/kernels_spca.cuh
 create mode 100644 src/rapids_singlecell/_cuda/spca/spca.cu
 delete mode 100644 src/rapids_singlecell/preprocessing/_sparse_pca/_kernels/_pca_sparse_kernel.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index a0b7c7cf..e2867f4b 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -54,4 +54,5 @@ if (RSC_BUILD_EXTENSIONS)
   add_nb_cuda_module(_autocorr_cuda     src/rapids_singlecell/_cuda/autocorr/autocorr.cu)
   add_nb_cuda_module(_cooc_cuda         src/rapids_singlecell/_cuda/cooc/cooc.cu)
   add_nb_cuda_module(_aggr_cuda         src/rapids_singlecell/_cuda/aggr/aggr.cu)
+  add_nb_cuda_module(_spca_cuda         src/rapids_singlecell/_cuda/spca/spca.cu)
 endif()
diff --git a/src/rapids_singlecell/_cuda/spca/kernels_spca.cuh b/src/rapids_singlecell/_cuda/spca/kernels_spca.cuh
new file mode 100644
index 00000000..d6895240
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/spca/kernels_spca.cuh
@@ -0,0 +1,49 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void gram_csr_upper_kernel(const int* indptr, const int* index, const T* data, int nrows,
+                                      int ncols, T* out) {
+  int row = blockIdx.x;
+  int col_offset = threadIdx.x;
+  if (row >= nrows) return;
+
+  int start = indptr[row];
+  int end = indptr[row + 1];
+
+  for (int idx1 = start; idx1 < end; ++idx1) {
+    int index1 = index[idx1];
+    T data1 = data[idx1];
+    for (int idx2 = idx1 + col_offset; idx2 < end; idx2 += blockDim.x) {
+      int index2 = index[idx2];
+      T data2 = data[idx2];
+      atomicAdd(&out[(size_t)index1 * ncols + index2], data1 * data2);
+    }
+  }
+}
+
+template <typename T>
+__global__ void copy_upper_to_lower_kernel(T* output, int ncols) {
+  int row = blockIdx.y * blockDim.y + threadIdx.y;
+  int col = blockIdx.x * blockDim.x + threadIdx.x;
+  if (row >= ncols || col >= ncols) return;
+  if (row > col) {
+    output[row * ncols + col] = output[col * ncols + row];
+  }
+}
+
+template <typename T>
+__global__ void cov_from_gram_kernel(T* cov_values, const T* gram_matrix, const T* mean_x,
+                                     const T* mean_y, int ncols) {
+  int rid = blockDim.x * blockIdx.x + threadIdx.x;
+  int cid = blockDim.y * blockIdx.y + threadIdx.y;
+  if (rid >= ncols || cid >= ncols) return;
+  cov_values[rid * ncols + cid] = gram_matrix[rid * ncols + cid] - mean_x[rid] * mean_y[cid];
+}
+
+__global__ void check_zero_genes_kernel(const int* indices, int* genes, int nnz) {
+  int value = blockIdx.x * blockDim.x + threadIdx.x;
+  if (value >= nnz) return;
+  atomicAdd(&genes[indices[value]], 1);
+}
diff --git a/src/rapids_singlecell/_cuda/spca/spca.cu b/src/rapids_singlecell/_cuda/spca/spca.cu
new file mode 100644
index 00000000..dbcd3d48
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/spca/spca.cu
@@ -0,0 +1,88 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_spca.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_gram_csr_upper(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
+                                         std::uintptr_t data_ptr, int nrows, int ncols,
+                                         std::uintptr_t out_ptr) {
+  dim3 block(128);
+  dim3 grid(nrows);
+  const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
+  const int* index = reinterpret_cast<const int*>(index_ptr);
+  const T* data = reinterpret_cast<const T*>(data_ptr);
+  T* out = reinterpret_cast<T*>(out_ptr);
+  gram_csr_upper_kernel<T><<<grid, block>>>(indptr, index, data, nrows, ncols, out);
+}
+
+template <typename T>
+static inline void launch_copy_upper_to_lower(std::uintptr_t out_ptr, int ncols) {
+  dim3 block(32, 32);
+  dim3 grid((ncols + block.x - 1) / block.x, (ncols + block.y - 1) / block.y);
+  T* out = reinterpret_cast<T*>(out_ptr);
+  copy_upper_to_lower_kernel<T><<<grid, block>>>(out, ncols);
+}
+
+template <typename T>
+static inline void launch_cov_from_gram(std::uintptr_t cov_ptr, std::uintptr_t gram_ptr,
+                                        std::uintptr_t meanx_ptr, std::uintptr_t meany_ptr,
+                                        int ncols) {
+  dim3 block(32, 32);
+  dim3 grid((ncols + 31) / 32, (ncols + 31) / 32);
+  T* cov = reinterpret_cast<T*>(cov_ptr);
+  const T* gram = reinterpret_cast<const T*>(gram_ptr);
+  const T* meanx = reinterpret_cast<const T*>(meanx_ptr);
+  const T* meany = reinterpret_cast<const T*>(meany_ptr);
+  cov_from_gram_kernel<T><<<grid, block>>>(cov, gram, meanx, meany, ncols);
+}
+
+static inline void launch_check_zero_genes(std::uintptr_t indices_ptr, std::uintptr_t genes_ptr,
+                                           int nnz) {
+  dim3 block(32);
+  dim3 grid((nnz + block.x - 1) / block.x);
+  const int* indices = reinterpret_cast<const int*>(indices_ptr);
+  int* genes = reinterpret_cast<int*>(genes_ptr);
+  check_zero_genes_kernel<<<grid, block>>>(indices, genes, nnz);
+}
+
+NB_MODULE(_spca_cuda, m) {
+  m.def("gram_csr_upper", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                             int nrows, int ncols, std::uintptr_t out, int itemsize) {
+    if (itemsize == 4) {
+      launch_gram_csr_upper<float>(indptr, index, data, nrows, ncols, out);
+    } else if (itemsize == 8) {
+      launch_gram_csr_upper<double>(indptr, index, data, nrows, ncols, out);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("copy_upper_to_lower", [](std::uintptr_t out, int ncols, int itemsize) {
+    if (itemsize == 4) {
+      launch_copy_upper_to_lower<float>(out, ncols);
+    } else if (itemsize == 8) {
+      launch_copy_upper_to_lower<double>(out, ncols);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("cov_from_gram", [](std::uintptr_t cov, std::uintptr_t gram, std::uintptr_t meanx,
+                            std::uintptr_t meany, int ncols, int itemsize) {
+    if (itemsize == 4) {
+      launch_cov_from_gram<float>(cov, gram, meanx, meany, ncols);
+    } else if (itemsize == 8) {
+      launch_cov_from_gram<double>(cov, gram, meanx, meany, ncols);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("check_zero_genes", [](std::uintptr_t indices, std::uintptr_t genes, int nnz) {
+    launch_check_zero_genes(indices, genes, nnz);
+  });
+}
diff --git a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
index 70c16de4..f3d98b10 100644
--- a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
+++ b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
@@ -3,7 +3,11 @@
 import cupy as cp
 import numpy as np
 
-from rapids_singlecell._cuda import _aucell_cuda as _au
+try:
+    from rapids_singlecell._cuda import _aucell_cuda as _au
+except ImportError:
+    _au = None
+
 from rapids_singlecell.decoupler_gpu._helper._docs import docs
 from rapids_singlecell.decoupler_gpu._helper._log import _log
 from rapids_singlecell.decoupler_gpu._helper._Method import Method, MethodMeta
diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
index faf5a557..559724bc 100644
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
+++ b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
@@ -1,62 +1,46 @@
 from __future__ import annotations
 
-import math
 from typing import TYPE_CHECKING
 
 import cupy as cp
 
-from ._kernels._pca_sparse_kernel import _copy_kernel, _cov_kernel
-
 if TYPE_CHECKING:
     from cupyx.scipy.sparse import spmatrix
+try:
+    from rapids_singlecell._cuda import _spca_cuda as _spca
+except ImportError:
+    _spca = None
 
 
-def _copy_gram(gram_matrix, n_cols):
-    """
-    Flips the upper triangle of the gram matrix to the lower triangle. This is necessary because the kernel only computes the upper triangle.
-    """
-    copy_gram = _copy_kernel(gram_matrix.dtype)
-    block = (32, 32)
-    grid = (math.ceil(n_cols / block[0]), math.ceil(n_cols / block[1]))
-    copy_gram(
-        grid,
-        block,
-        (gram_matrix, n_cols),
+def _copy_gram(gram_matrix: cp.ndarray, n_cols: int) -> cp.ndarray:
+    _spca.copy_upper_to_lower(
+        gram_matrix.data.ptr, int(n_cols), int(cp.dtype(gram_matrix.dtype).itemsize)
     )
     return gram_matrix
 
 
-def _compute_cov(cov_result, gram_matrix, mean_x):
-    compute_cov = _cov_kernel(gram_matrix.dtype)
-
-    block_size = (32, 32)
-    grid_size = (math.ceil(gram_matrix.shape[0] / 8),) * 2
-    compute_cov(
-        grid_size,
-        block_size,
-        (cov_result, gram_matrix, mean_x, mean_x, gram_matrix.shape[0]),
+def _compute_cov(
+    cov_result: cp.ndarray, gram_matrix: cp.ndarray, mean_x: cp.ndarray
+) -> cp.ndarray:
+    _spca.cov_from_gram(
+        cov_result.data.ptr,
+        gram_matrix.data.ptr,
+        mean_x.data.ptr,
+        mean_x.data.ptr,
+        int(gram_matrix.shape[0]),
+        int(cp.dtype(gram_matrix.dtype).itemsize),
     )
     return cov_result
 
 
 def _check_matrix_for_zero_genes(X: spmatrix) -> None:
     gene_ex = cp.zeros(X.shape[1], dtype=cp.int32)
-
-    from ._kernels._pca_sparse_kernel import _zero_genes_kernel
-
-    block = (32,)
-    grid = (int(math.ceil(X.nnz / block[0])),)
-    _zero_genes_kernel(
-        grid,
-        block,
-        (
-            X.indices,
-            gene_ex,
-            X.nnz,
-        ),
+    _spca.check_zero_genes(
+        X.indices.data.ptr,
+        gene_ex.data.ptr,
+        int(X.nnz),
     )
     if cp.any(gene_ex == 0):
         raise ValueError(
-            "There are genes with zero expression. "
-            "Please remove them before running PCA."
+            "There are genes with zero expression. Please remove them before running PCA."
         )
diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_kernels/_pca_sparse_kernel.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_kernels/_pca_sparse_kernel.py
deleted file mode 100644
index b8cc1c1c..00000000
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_kernels/_pca_sparse_kernel.py
+++ /dev/null
@@ -1,77 +0,0 @@
-from __future__ import annotations
-
-import cupy as cp
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-cov_kernel_str = r"""
-({0} *cov_values, {0} *gram_matrix, {0} *mean_x, {0} *mean_y, int n_cols) {
-
-    int rid = blockDim.x * blockIdx.x + threadIdx.x;
-    int cid = blockDim.y * blockIdx.y + threadIdx.y;
-
-    if(rid >= n_cols || cid >= n_cols) return;
-
-    cov_values[rid * n_cols + cid] = \
-        gram_matrix[rid * n_cols + cid] - mean_x[rid] * mean_y[cid];
-}
-"""
-
-gramm_kernel_csr = r"""
-(const int *indptr, const int *index, {0} *data, int nrows, int ncols, {0} *out) {
-    int row = blockIdx.x;
-    int col = threadIdx.x;
-
-    if(row >= nrows) return;
-
-    int start = indptr[row];
-    int end = indptr[row + 1];
-
-    for (int idx1 = start; idx1 < end; idx1++){
-        int index1 = index[idx1];
-        {0} data1 = data[idx1];
-        for(int idx2 = idx1 + col; idx2 < end; idx2 += blockDim.x){
-            int index2 = index[idx2];
-            {0} data2 = data[idx2];
-            atomicAdd(&out[(size_t)index1 * ncols + index2], data1 * data2);
-        }
-    }
-}
-"""
-
-
-copy_kernel = r"""
-({0} *output, int ncols) {
-    int row = blockIdx.y * blockDim.y + threadIdx.y;
-    int col = blockIdx.x * blockDim.x + threadIdx.x;
-
-    if (row >= ncols || col >= ncols) return;
-
-    if (row > col) {
-        output[row * ncols + col] = output[col * ncols + row];
-    }
-}
-"""
-check_zero_genes = r"""
-extern "C" __global__ void check_zero_genes(const int* indices, int* genes, int nnz) {
-    int value = blockIdx.x * blockDim.x + threadIdx.x;
-    if(value >= nnz){
-        return;
-    }
-    atomicAdd(&genes[indices[value]], 1);
-
-}
-"""
-
-_zero_genes_kernel = cp.RawKernel(check_zero_genes, "check_zero_genes")
-
-
-def _cov_kernel(dtype):
-    return cuda_kernel_factory(cov_kernel_str, (dtype,), "cov_kernel")
-
-
-def _gramm_kernel_csr(dtype):
-    return cuda_kernel_factory(gramm_kernel_csr, (dtype,), "gramm_kernel_csr")
-
-
-def _copy_kernel(dtype):
-    return cuda_kernel_factory(copy_kernel, (dtype,), "copy_kernel")
diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
index 351b0d4d..dd69a769 100644
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
+++ b/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
@@ -16,6 +16,11 @@
 
 from ._helper import _check_matrix_for_zero_genes, _compute_cov, _copy_gram
 
+try:
+    from rapids_singlecell._cuda import _spca_cuda as _spca
+except ImportError:
+    _spca = None
+
 
 class PCA_sparse:
     def __init__(self, n_components: int | None, *, zero_center: bool = True) -> None:
@@ -199,50 +204,32 @@ def _cov_sparse(
 
 
 def _create_gram_matrix(x):
-    from ._kernels._pca_sparse_kernel import (
-        _gramm_kernel_csr,
-    )
-
     if isinstance(x, csr_matrix):
         gram_matrix = cp.zeros((x.shape[1], x.shape[1]), dtype=x.data.dtype)
-
-        block = (128,)
-        grid = (x.shape[0],)
-        compute_mean_cov = _gramm_kernel_csr(x.dtype)
-        compute_mean_cov(
-            grid,
-            block,
-            (
-                x.indptr,
-                x.indices,
-                x.data,
-                x.shape[0],
-                x.shape[1],
-                gram_matrix,
-            ),
+        _spca.gram_csr_upper(
+            x.indptr.data.ptr,
+            x.indices.data.ptr,
+            x.data.data.ptr,
+            int(x.shape[0]),
+            int(x.shape[1]),
+            gram_matrix.data.ptr,
+            int(cp.dtype(x.dtype).itemsize),
         )
     elif isinstance(x, DaskArray):
-        compute_mean_cov = _gramm_kernel_csr(x.dtype)
-        compute_mean_cov.compile()
         n_cols = x.shape[1]
         if isinstance(x._meta, csr_matrix):
             # Gram matrix for CSR matrix
             def __gram_block(x_part):
                 gram_matrix = cp.zeros((n_cols, n_cols), dtype=x.dtype)
 
-                block = (128,)
-                grid = (x_part.shape[0],)
-                compute_mean_cov(
-                    grid,
-                    block,
-                    (
-                        x_part.indptr,
-                        x_part.indices,
-                        x_part.data,
-                        x_part.shape[0],
-                        n_cols,
-                        gram_matrix,
-                    ),
+                _spca.gram_csr_upper(
+                    x_part.indptr.data.ptr,
+                    x_part.indices.data.ptr,
+                    x_part.data.data.ptr,
+                    int(x_part.shape[0]),
+                    int(n_cols),
+                    gram_matrix.data.ptr,
+                    int(cp.dtype(x_part.dtype).itemsize),
                 )
                 return gram_matrix[None, ...]  # need new axis for summing
         else:
diff --git a/src/rapids_singlecell/squidpy_gpu/_co_oc.py b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
index caad8017..befe2ac8 100644
--- a/src/rapids_singlecell/squidpy_gpu/_co_oc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
@@ -6,7 +6,11 @@
 import numpy as np
 from cuml.metrics import pairwise_distances
 
-from rapids_singlecell._cuda import _cooc_cuda as _co
+try:
+    from rapids_singlecell._cuda import _cooc_cuda as _co
+except ImportError:
+    _co = None
+
 from rapids_singlecell.preprocessing._harmony._helper import (
     _create_category_index_mapping,
 )
diff --git a/src/rapids_singlecell/squidpy_gpu/_gearysc.py b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
index d66b3cb8..f0908fa3 100644
--- a/src/rapids_singlecell/squidpy_gpu/_gearysc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
@@ -3,7 +3,10 @@
 import cupy as cp
 from cupyx.scipy import sparse
 
-from rapids_singlecell._cuda import _autocorr_cuda as _ac
+try:
+    from rapids_singlecell._cuda import _autocorr_cuda as _ac
+except ImportError:
+    _ac = None
 
 
 def _gearys_C_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
diff --git a/src/rapids_singlecell/squidpy_gpu/_moransi.py b/src/rapids_singlecell/squidpy_gpu/_moransi.py
index 2635d4c2..91292283 100644
--- a/src/rapids_singlecell/squidpy_gpu/_moransi.py
+++ b/src/rapids_singlecell/squidpy_gpu/_moransi.py
@@ -3,7 +3,10 @@
 import cupy as cp
 from cupyx.scipy import sparse
 
-from rapids_singlecell._cuda import _autocorr_cuda as _ac
+try:
+    from rapids_singlecell._cuda import _autocorr_cuda as _ac
+except ImportError:
+    _ac = None
 
 
 def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):

From 5d327bdb32bf14b2021b9ca4948cc25d724c4327 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 11:13:08 +0200
Subject: [PATCH 33/54] make aggr safe

---
 src/rapids_singlecell/get/_aggregated.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/src/rapids_singlecell/get/_aggregated.py b/src/rapids_singlecell/get/_aggregated.py
index f7beb9bd..42496e86 100644
--- a/src/rapids_singlecell/get/_aggregated.py
+++ b/src/rapids_singlecell/get/_aggregated.py
@@ -9,7 +9,11 @@
 from scanpy.get._aggregated import _combine_categories
 
 from rapids_singlecell._compat import DaskArray, _meta_dense
-from rapids_singlecell._cuda import _aggr_cuda
+
+try:
+    from rapids_singlecell._cuda import _aggr_cuda
+except ImportError:
+    _aggr_cuda = None
 from rapids_singlecell.get import _check_mask
 from rapids_singlecell.preprocessing._utils import _check_gpu_X
 

From 30414ab41bad484e47673c5fd1fdf2ed3b8383be Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 11:59:22 +0200
Subject: [PATCH 34/54] add harmony

---
 CMakeLists.txt                                |   7 +
 .../_cuda/harmony/colsum/colsum.cu            |  56 +++++
 .../_cuda/harmony/colsum/kernels_colsum.cuh   |  40 ++++
 .../_cuda/harmony/kmeans/kernels_kmeans.cuh   |  41 ++++
 .../_cuda/harmony/kmeans/kmeans.cu            |  29 +++
 .../harmony/normalize/kernels_normalize.cuh   |  31 +++
 .../_cuda/harmony/normalize/normalize.cu      |  26 +++
 .../_cuda/harmony/outer/kernels_outer.cuh     |  31 +++
 .../_cuda/harmony/outer/outer.cu              |  52 +++++
 .../_cuda/harmony/pen/kernels_pen.cuh         |  16 ++
 .../_cuda/harmony/pen/pen.cu                  |  30 +++
 .../_cuda/harmony/scatter/kernels_scatter.cuh | 180 +++++++++++++++
 .../_cuda/harmony/scatter/scatter.cu          |  99 ++++++++
 .../get/_kernels/_aggr_kernels.py             | 172 --------------
 .../preprocessing/_harmony/__init__.py        |   2 +-
 .../preprocessing/_harmony/_fuses.py          |  14 +-
 .../preprocessing/_harmony/_helper.py         | 191 +++++++++-------
 .../_harmony/_kernels/_kmeans.py              |  64 ------
 .../_harmony/_kernels/_normalize.py           |  52 -----
 .../preprocessing/_harmony/_kernels/_outer.py | 153 -------------
 .../preprocessing/_harmony/_kernels/_pen.py   |  29 ---
 .../_harmony/_kernels/_scatter_add.py         | 213 ------------------
 src/rapids_singlecell/preprocessing/_utils.py |   8 +-
 23 files changed, 761 insertions(+), 775 deletions(-)
 create mode 100644 src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
 create mode 100644 src/rapids_singlecell/_cuda/harmony/colsum/kernels_colsum.cuh
 create mode 100644 src/rapids_singlecell/_cuda/harmony/kmeans/kernels_kmeans.cuh
 create mode 100644 src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
 create mode 100644 src/rapids_singlecell/_cuda/harmony/normalize/kernels_normalize.cuh
 create mode 100644 src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
 create mode 100644 src/rapids_singlecell/_cuda/harmony/outer/kernels_outer.cuh
 create mode 100644 src/rapids_singlecell/_cuda/harmony/outer/outer.cu
 create mode 100644 src/rapids_singlecell/_cuda/harmony/pen/kernels_pen.cuh
 create mode 100644 src/rapids_singlecell/_cuda/harmony/pen/pen.cu
 create mode 100644 src/rapids_singlecell/_cuda/harmony/scatter/kernels_scatter.cuh
 create mode 100644 src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
 delete mode 100644 src/rapids_singlecell/get/_kernels/_aggr_kernels.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_harmony/_kernels/_kmeans.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_harmony/_kernels/_normalize.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_harmony/_kernels/_outer.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_harmony/_kernels/_pen.py
 delete mode 100644 src/rapids_singlecell/preprocessing/_harmony/_kernels/_scatter_add.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index e2867f4b..ac3aaf01 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -55,4 +55,11 @@ if (RSC_BUILD_EXTENSIONS)
   add_nb_cuda_module(_cooc_cuda         src/rapids_singlecell/_cuda/cooc/cooc.cu)
   add_nb_cuda_module(_aggr_cuda         src/rapids_singlecell/_cuda/aggr/aggr.cu)
   add_nb_cuda_module(_spca_cuda         src/rapids_singlecell/_cuda/spca/spca.cu)
+  # Harmony CUDA modules
+  add_nb_cuda_module(_harmony_scatter_cuda   src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu)
+  add_nb_cuda_module(_harmony_outer_cuda     src/rapids_singlecell/_cuda/harmony/outer/outer.cu)
+  add_nb_cuda_module(_harmony_colsum_cuda    src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu)
+  add_nb_cuda_module(_harmony_kmeans_cuda    src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu)
+  add_nb_cuda_module(_harmony_normalize_cuda src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu)
+  add_nb_cuda_module(_harmony_pen_cuda       src/rapids_singlecell/_cuda/harmony/pen/pen.cu)
 endif()
diff --git a/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
new file mode 100644
index 00000000..ded7a5fc
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
@@ -0,0 +1,56 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_colsum.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_colsum(std::uintptr_t A, std::uintptr_t out, std::size_t rows,
+                                 std::size_t cols) {
+  int threads = 32;
+  int blocks = (int)cols;
+  colsum_kernel<T>
+      <<<blocks, threads>>>(reinterpret_cast<const T*>(A), reinterpret_cast<T*>(out), rows, cols);
+}
+
+template <typename T>
+static inline void launch_colsum_atomic(std::uintptr_t A, std::uintptr_t out, std::size_t rows,
+                                        std::size_t cols) {
+  int tile_rows = (rows + 31) / 32;
+  int tile_cols = (cols + 31) / 32;
+  int blocks = tile_rows * tile_cols;
+  dim3 threads(32, 32);
+  colsum_atomic_kernel<T>
+      <<<blocks, threads>>>(reinterpret_cast<const T*>(A), reinterpret_cast<T*>(out), rows, cols);
+}
+
+NB_MODULE(_harmony_colsum_cuda, m) {
+  m.def("colsum", [](std::uintptr_t A, std::uintptr_t out, std::size_t rows, std::size_t cols,
+                     int dtype_code) {
+    // dtype_code: 0=float32, 1=float64, 2=int32; Back-compat: 4->float32, 8->float64
+    if (dtype_code == 0 || dtype_code == 4) {
+      launch_colsum<float>(A, out, rows, cols);
+    } else if (dtype_code == 1 || dtype_code == 8) {
+      launch_colsum<double>(A, out, rows, cols);
+    } else if (dtype_code == 2) {
+      launch_colsum<int>(A, out, rows, cols);
+    } else {
+      throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
+    }
+  });
+
+  m.def("colsum_atomic", [](std::uintptr_t A, std::uintptr_t out, std::size_t rows,
+                            std::size_t cols, int dtype_code) {
+    if (dtype_code == 0 || dtype_code == 4) {
+      launch_colsum_atomic<float>(A, out, rows, cols);
+    } else if (dtype_code == 1 || dtype_code == 8) {
+      launch_colsum_atomic<double>(A, out, rows, cols);
+    } else if (dtype_code == 2) {
+      launch_colsum_atomic<int>(A, out, rows, cols);
+    } else {
+      throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
+    }
+  });
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/colsum/kernels_colsum.cuh b/src/rapids_singlecell/_cuda/harmony/colsum/kernels_colsum.cuh
new file mode 100644
index 00000000..f8f82fa4
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/colsum/kernels_colsum.cuh
@@ -0,0 +1,40 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void colsum_kernel(const T* __restrict__ A, T* __restrict__ out, std::size_t rows,
+                              std::size_t cols) {
+  std::size_t tid = threadIdx.x;
+  for (std::size_t col = blockIdx.x; col < cols; col += gridDim.x) {
+    T acc = (T)0;
+    for (std::size_t i = tid; i < rows; i += blockDim.x) {
+      acc += A[i * cols + col];
+    }
+    for (int offset = 16; offset > 0; offset >>= 1)
+      acc += __shfl_down_sync(0xffffffff, acc, offset);
+    __shared__ T s[32];
+    if ((threadIdx.x & 31) == 0) s[threadIdx.x >> 5] = acc;
+    __syncthreads();
+    if (threadIdx.x < 32) {
+      T val = (threadIdx.x < (blockDim.x >> 5)) ? s[threadIdx.x] : (T)0;
+      for (int off = 16; off > 0; off >>= 1) val += __shfl_down_sync(0xffffffff, val, off);
+      if (threadIdx.x == 0) out[col] = val;
+    }
+  }
+}
+
+template <typename T>
+__global__ void colsum_atomic_kernel(const T* __restrict__ A, T* __restrict__ out, std::size_t rows,
+                                     std::size_t cols) {
+  std::size_t tile_cols = (cols + 31) / 32;
+  std::size_t tid = blockIdx.x;
+  std::size_t tile_r = tid / tile_cols;
+  std::size_t tile_c = tid % tile_cols;
+  std::size_t row = tile_r * 32 + threadIdx.x;
+  std::size_t col = tile_c * 32 + threadIdx.y;
+  T v = (T)0;
+  if (row < rows && col < cols) v = A[row * cols + col];
+  for (int off = 16; off > 0; off >>= 1) v += __shfl_down_sync(0xffffffff, v, off);
+  if (threadIdx.x == 0 && col < cols) atomicAdd(&out[col], v);
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/kmeans/kernels_kmeans.cuh b/src/rapids_singlecell/_cuda/harmony/kmeans/kernels_kmeans.cuh
new file mode 100644
index 00000000..5a9d65f3
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/kmeans/kernels_kmeans.cuh
@@ -0,0 +1,41 @@
+#pragma once
+
+#include <cuda_runtime.h>
+#include <type_traits>
+
+template <typename T>
+__global__ void kmeans_err_kernel(const T* __restrict__ r, const T* __restrict__ dot, std::size_t n,
+                                  T* __restrict__ out) {
+  T acc = (T)0;
+  using Vec = typename std::conditional<std::is_same<T, float>::value, float4, double4>::type;
+
+  std::size_t i = (blockIdx.x * blockDim.x + threadIdx.x) * 4;
+  const std::size_t stride = gridDim.x * blockDim.x * 4;
+
+  while (i + 3 < n) {
+    Vec r4 = *(const Vec*)(r + i);
+    Vec dot4 = *(const Vec*)(dot + i);
+    acc += ((T*)&r4)[0] * (T)2 * ((T)1 - ((T*)&dot4)[0]);
+    acc += ((T*)&r4)[1] * (T)2 * ((T)1 - ((T*)&dot4)[1]);
+    acc += ((T*)&r4)[2] * (T)2 * ((T)1 - ((T*)&dot4)[2]);
+    acc += ((T*)&r4)[3] * (T)2 * ((T)1 - ((T*)&dot4)[3]);
+    i += stride;
+  }
+  while (i < n) {
+    T rv = r[i];
+    T dotv = dot[i];
+    acc += rv * (T)2 * ((T)1 - dotv);
+    i++;
+  }
+
+  for (int offset = 16; offset > 0; offset >>= 1) acc += __shfl_down_sync(0xffffffff, acc, offset);
+  __shared__ T s[32];
+  if ((threadIdx.x & 31) == 0) s[threadIdx.x >> 5] = acc;
+  __syncthreads();
+  if (threadIdx.x < 32) {
+    T val = (threadIdx.x < (blockDim.x >> 5)) ? s[threadIdx.x] : (T)0;
+    for (int offset = 16; offset > 0; offset >>= 1)
+      val += __shfl_down_sync(0xffffffff, val, offset);
+    if (threadIdx.x == 0) atomicAdd(out, val);
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
new file mode 100644
index 00000000..a161b972
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
@@ -0,0 +1,29 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_kmeans.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_kmeans_err(std::uintptr_t r, std::uintptr_t dot, std::size_t n,
+                                     std::uintptr_t out) {
+  int threads = 256;
+  int blocks = min((int)((n + threads - 1) / threads), (int)(8 * 128));
+  kmeans_err_kernel<T><<<blocks, threads>>>(
+      reinterpret_cast<const T*>(r), reinterpret_cast<const T*>(dot), n, reinterpret_cast<T*>(out));
+}
+
+NB_MODULE(_harmony_kmeans_cuda, m) {
+  m.def("kmeans_err",
+        [](std::uintptr_t r, std::uintptr_t dot, std::size_t n, std::uintptr_t out, int itemsize) {
+          if (itemsize == 4) {
+            launch_kmeans_err<float>(r, dot, n, out);
+          } else if (itemsize == 8) {
+            launch_kmeans_err<double>(r, dot, n, out);
+          } else {
+            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+          }
+        });
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/normalize/kernels_normalize.cuh b/src/rapids_singlecell/_cuda/harmony/normalize/kernels_normalize.cuh
new file mode 100644
index 00000000..8a943542
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/normalize/kernels_normalize.cuh
@@ -0,0 +1,31 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void normalize_kernel_optimized(T* X, long long rows, long long cols) {
+  __shared__ T shared[32];
+  long long row = blockIdx.x;
+  long long tid = threadIdx.x;
+  if (row >= rows) return;
+  T norm = (T)0;
+  for (long long col = tid; col < cols; col += blockDim.x) {
+    T v = X[row * cols + col];
+    norm += (v < 0 ? -v : v);
+  }
+  shared[tid] = norm;
+  __syncthreads();
+  for (long long offset = 16; offset > 0; offset /= 2) {
+    shared[tid] += __shfl_down_sync(0xFFFFFFFF, shared[tid], offset);
+  }
+  __syncthreads();
+  if (tid == 0) {
+    T final_norm = shared[0];
+    final_norm = final_norm < (T)1e-12 ? (T)1e-12 : final_norm;
+    shared[0] = (T)1 / final_norm;
+  }
+  __syncthreads();
+  for (long long col = tid; col < cols; col += blockDim.x) {
+    X[row * cols + col] *= shared[0];
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
new file mode 100644
index 00000000..a08355b8
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
@@ -0,0 +1,26 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_normalize.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_normalize(std::uintptr_t X, long long rows, long long cols) {
+  dim3 block(32);
+  dim3 grid(rows);
+  normalize_kernel_optimized<T><<<grid, block>>>(reinterpret_cast<T*>(X), rows, cols);
+}
+
+NB_MODULE(_harmony_normalize_cuda, m) {
+  m.def("normalize", [](std::uintptr_t X, long long rows, long long cols, int itemsize) {
+    if (itemsize == 4) {
+      launch_normalize<float>(X, rows, cols);
+    } else if (itemsize == 8) {
+      launch_normalize<double>(X, rows, cols);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/outer/kernels_outer.cuh b/src/rapids_singlecell/_cuda/harmony/outer/kernels_outer.cuh
new file mode 100644
index 00000000..aa7c6cc4
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/outer/kernels_outer.cuh
@@ -0,0 +1,31 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void outer_kernel(T* __restrict__ E, const T* __restrict__ Pr_b,
+                             const T* __restrict__ R_sum, long long n_cats, long long n_pcs,
+                             long long switcher) {
+  long long i = blockIdx.x * blockDim.x + threadIdx.x;
+  long long N = n_cats * n_pcs;
+  if (i >= N) return;
+  long long row = i / n_pcs;
+  long long col = i % n_pcs;
+  if (switcher == 0)
+    E[i] -= (Pr_b[row] * R_sum[col]);
+  else
+    E[i] += (Pr_b[row] * R_sum[col]);
+}
+
+template <typename T>
+__global__ void harmony_correction_kernel(T* __restrict__ Z, const T* __restrict__ W,
+                                          const int* __restrict__ cats, const T* __restrict__ R,
+                                          long long n_cells, long long n_pcs) {
+  long long i = blockIdx.x * blockDim.x + threadIdx.x;
+  if (i >= n_cells * n_pcs) return;
+  long long cell_idx = i / n_pcs;
+  long long pc_idx = i % n_pcs;
+  int cat = cats[cell_idx];
+  T correction = W[(cat + 1) * n_pcs + pc_idx] * R[cell_idx];
+  Z[i] -= correction;
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/outer/outer.cu b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
new file mode 100644
index 00000000..7ff09e05
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
@@ -0,0 +1,52 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_outer.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_outer(std::uintptr_t E, std::uintptr_t Pr_b, std::uintptr_t R_sum,
+                                long long n_cats, long long n_pcs, long long switcher) {
+  dim3 block(256);
+  long long N = n_cats * n_pcs;
+  dim3 grid((unsigned)((N + block.x - 1) / block.x));
+  outer_kernel<T><<<grid, block>>>(reinterpret_cast<T*>(E), reinterpret_cast<const T*>(Pr_b),
+                                   reinterpret_cast<const T*>(R_sum), n_cats, n_pcs, switcher);
+}
+
+template <typename T>
+static inline void launch_harmony_corr(std::uintptr_t Z, std::uintptr_t W, std::uintptr_t cats,
+                                       std::uintptr_t R, long long n_cells, long long n_pcs) {
+  dim3 block(256);
+  long long N = n_cells * n_pcs;
+  dim3 grid((unsigned)((N + block.x - 1) / block.x));
+  harmony_correction_kernel<T><<<grid, block>>>(
+      reinterpret_cast<T*>(Z), reinterpret_cast<const T*>(W), reinterpret_cast<const int*>(cats),
+      reinterpret_cast<const T*>(R), n_cells, n_pcs);
+}
+
+NB_MODULE(_harmony_outer_cuda, m) {
+  m.def("outer", [](std::uintptr_t E, std::uintptr_t Pr_b, std::uintptr_t R_sum, long long n_cats,
+                    long long n_pcs, long long switcher, int itemsize) {
+    if (itemsize == 4) {
+      launch_outer<float>(E, Pr_b, R_sum, n_cats, n_pcs, switcher);
+    } else if (itemsize == 8) {
+      launch_outer<double>(E, Pr_b, R_sum, n_cats, n_pcs, switcher);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("harmony_corr", [](std::uintptr_t Z, std::uintptr_t W, std::uintptr_t cats,
+                           std::uintptr_t R, long long n_cells, long long n_pcs, int itemsize) {
+    if (itemsize == 4) {
+      launch_harmony_corr<float>(Z, W, cats, R, n_cells, n_pcs);
+    } else if (itemsize == 8) {
+      launch_harmony_corr<double>(Z, W, cats, R, n_cells, n_pcs);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/pen/kernels_pen.cuh b/src/rapids_singlecell/_cuda/harmony/pen/kernels_pen.cuh
new file mode 100644
index 00000000..eb4e326b
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/pen/kernels_pen.cuh
@@ -0,0 +1,16 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void pen_kernel(T* __restrict__ R, const T* __restrict__ penalty,
+                           const int* __restrict__ cats, std::size_t n_rows, std::size_t n_cols) {
+  std::size_t i = blockIdx.x * blockDim.x + threadIdx.x;
+  std::size_t N = n_rows * n_cols;
+  if (i >= N) return;
+  std::size_t row = i / n_cols;
+  std::size_t col = i % n_cols;
+  int cat = cats[row];
+  T scale = penalty[(std::size_t)cat * n_cols + col];
+  R[i] *= scale;
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/pen/pen.cu b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
new file mode 100644
index 00000000..1bd295b0
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
@@ -0,0 +1,30 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_pen.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_pen(std::uintptr_t R, std::uintptr_t penalty, std::uintptr_t cats,
+                              std::size_t n_rows, std::size_t n_cols) {
+  dim3 block(256);
+  std::size_t N = n_rows * n_cols;
+  dim3 grid((unsigned)((N + block.x - 1) / block.x));
+  pen_kernel<T><<<grid, block>>>(reinterpret_cast<T*>(R), reinterpret_cast<const T*>(penalty),
+                                 reinterpret_cast<const int*>(cats), n_rows, n_cols);
+}
+
+NB_MODULE(_harmony_pen_cuda, m) {
+  m.def("pen", [](std::uintptr_t R, std::uintptr_t penalty, std::uintptr_t cats, std::size_t n_rows,
+                  std::size_t n_cols, int itemsize) {
+    if (itemsize == 4) {
+      launch_pen<float>(R, penalty, cats, n_rows, n_cols);
+    } else if (itemsize == 8) {
+      launch_pen<double>(R, penalty, cats, n_rows, n_cols);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/scatter/kernels_scatter.cuh b/src/rapids_singlecell/_cuda/harmony/scatter/kernels_scatter.cuh
new file mode 100644
index 00000000..4252616a
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/scatter/kernels_scatter.cuh
@@ -0,0 +1,180 @@
+#pragma once
+
+#include <cuda_runtime.h>
+#include <type_traits>
+
+template <typename T>
+__global__ void scatter_add_kernel_optimized(const T* __restrict__ v, const int* __restrict__ cats,
+                                             std::size_t n_cells, std::size_t n_pcs,
+                                             std::size_t switcher, T* __restrict__ a) {
+  std::size_t i = blockIdx.x * blockDim.x + threadIdx.x;
+  std::size_t N = n_cells * n_pcs;
+  if (i >= N) return;
+
+  std::size_t row = i / n_pcs;
+  std::size_t col = i % n_pcs;
+
+  std::size_t cat = static_cast<std::size_t>(cats[row]);
+  std::size_t out_index = cat * n_pcs + col;
+
+  if (switcher == 0)
+    atomicAdd(&a[out_index], -v[i]);
+  else
+    atomicAdd(&a[out_index], v[i]);
+}
+
+template <typename T>
+__global__ void aggregated_matrix_kernel(T* __restrict__ aggregated_matrix,
+                                         const T* __restrict__ sum, T top_corner, int n_batches) {
+  int i = blockIdx.x * blockDim.x + threadIdx.x;
+  if (i >= n_batches + 1) return;
+
+  if (i == 0) {
+    aggregated_matrix[0] = top_corner;
+  } else {
+    aggregated_matrix[i] = sum[i - 1];
+    aggregated_matrix[(n_batches + 1) * i] = sum[i - 1];
+    aggregated_matrix[(n_batches + 1) * i + i] = sum[i - 1];
+  }
+}
+
+template <typename T>
+__global__ void scatter_add_kernel_with_bias_cat0(const T* __restrict__ v, int n_cells, int n_pcs,
+                                                  T* __restrict__ a, const T* __restrict__ bias) {
+  using VecPC = typename std::conditional<std::is_same<T, float>::value, float2, double2>::type;
+  int pairs = (n_pcs + 1) / 2;
+  int pc_pair = blockIdx.x;
+  int eighth = blockIdx.y;
+  if (pc_pair >= pairs) return;
+
+  int pc0 = pc_pair * 2;
+  int pc1 = pc0 + 1;
+  bool has_pc1 = (pc1 < n_pcs);
+
+  T acc0 = T(0);
+  T acc1 = T(0);
+
+  int cells_per_eighth = (n_cells + 7) / 8;
+  int start_cell = eighth * cells_per_eighth;
+  int end_cell = min(start_cell + cells_per_eighth, n_cells);
+
+  for (int i = start_cell + threadIdx.x; i < end_cell; i += blockDim.x) {
+    std::size_t base = static_cast<std::size_t>(i) * n_pcs + pc0;
+    VecPC vv = *(const VecPC*)(v + base);
+    T bb = __ldg(bias + i);
+    acc0 += (T)vv.x * bb;
+    if (has_pc1) acc1 += (T)vv.y * bb;
+  }
+
+  for (int offset = 16; offset > 0; offset >>= 1) {
+    acc0 += __shfl_down_sync(0xffffffff, acc0, offset);
+    if (has_pc1) acc1 += __shfl_down_sync(0xffffffff, acc1, offset);
+  }
+
+  __shared__ float2 s_f[32];
+  __shared__ double2 s_d[32];
+  if (std::is_same<T, float>::value) {
+    if ((threadIdx.x & 31) == 0) s_f[threadIdx.x >> 5] = make_float2((float)acc0, (float)acc1);
+    __syncthreads();
+    if (threadIdx.x < 32) {
+      float2 val = (threadIdx.x < (blockDim.x >> 5)) ? s_f[threadIdx.x] : make_float2(0.f, 0.f);
+      for (int off = 16; off > 0; off >>= 1) {
+        val.x += __shfl_down_sync(0xffffffff, val.x, off);
+        val.y += __shfl_down_sync(0xffffffff, val.y, off);
+      }
+      if (threadIdx.x == 0) {
+        int out_base = 0 * n_pcs + pc0;
+        atomicAdd(&a[out_base], (T)val.x);
+        if (has_pc1) atomicAdd(&a[out_base + 1], (T)val.y);
+      }
+    }
+  } else {
+    if ((threadIdx.x & 31) == 0) s_d[threadIdx.x >> 5] = make_double2((double)acc0, (double)acc1);
+    __syncthreads();
+    if (threadIdx.x < 32) {
+      double2 val = (threadIdx.x < (blockDim.x >> 5)) ? s_d[threadIdx.x] : make_double2(0.0, 0.0);
+      for (int off = 16; off > 0; off >>= 1) {
+        val.x += __shfl_down_sync(0xffffffff, val.x, off);
+        val.y += __shfl_down_sync(0xffffffff, val.y, off);
+      }
+      if (threadIdx.x == 0) {
+        int out_base = 0 * n_pcs + pc0;
+        atomicAdd(&a[out_base], (T)val.x);
+        if (has_pc1) atomicAdd(&a[out_base + 1], (T)val.y);
+      }
+    }
+  }
+}
+
+template <typename T>
+__global__ void scatter_add_kernel_with_bias_block(const T* __restrict__ v,
+                                                   const int* __restrict__ cat_offsets,
+                                                   const int* __restrict__ cell_indices,
+                                                   int n_cells, int n_pcs, int n_batches,
+                                                   T* __restrict__ a, const T* __restrict__ bias) {
+  using VecPC = typename std::conditional<std::is_same<T, float>::value, float2, double2>::type;
+  int pairs = (n_pcs + 1) / 2;
+  int block_idx = blockIdx.x;
+  if (block_idx >= n_batches * pairs) return;
+
+  int cat = block_idx / pairs + 1;
+  int pc_pair = block_idx % pairs;
+
+  int pc0 = pc_pair * 2;
+  int pc1 = pc0 + 1;
+  bool has_pc1 = (pc1 < n_pcs);
+
+  T acc0 = T(0);
+  T acc1 = T(0);
+
+  int start_idx = cat_offsets[cat - 1];
+  int end_idx = cat_offsets[cat];
+
+  for (int i = start_idx + threadIdx.x; i < end_idx; i += blockDim.x) {
+    int cell_idx = cell_indices[i];
+    std::size_t in_index = static_cast<std::size_t>(cell_idx) * n_pcs + pc0;
+    VecPC vv = *(const VecPC*)(v + in_index);
+    T bb = __ldg(bias + cell_idx);
+    acc0 += (T)vv.x * bb;
+    if (has_pc1) acc1 += (T)vv.y * bb;
+  }
+
+  for (int offset = 16; offset > 0; offset >>= 1) {
+    acc0 += __shfl_down_sync(0xffffffff, acc0, offset);
+    if (has_pc1) acc1 += __shfl_down_sync(0xffffffff, acc1, offset);
+  }
+
+  __shared__ float2 s_f[32];
+  __shared__ double2 s_d[32];
+  if (std::is_same<T, float>::value) {
+    if ((threadIdx.x & 31) == 0) s_f[threadIdx.x >> 5] = make_float2((float)acc0, (float)acc1);
+    __syncthreads();
+    if (threadIdx.x < 32) {
+      float2 val = (threadIdx.x < (blockDim.x >> 5)) ? s_f[threadIdx.x] : make_float2(0.f, 0.f);
+      for (int off = 16; off > 0; off >>= 1) {
+        val.x += __shfl_down_sync(0xffffffff, val.x, off);
+        val.y += __shfl_down_sync(0xffffffff, val.y, off);
+      }
+      if (threadIdx.x == 0) {
+        int out_base = cat * n_pcs + pc0;
+        a[out_base] = (T)val.x;
+        if (has_pc1) a[out_base + 1] = (T)val.y;
+      }
+    }
+  } else {
+    if ((threadIdx.x & 31) == 0) s_d[threadIdx.x >> 5] = make_double2((double)acc0, (double)acc1);
+    __syncthreads();
+    if (threadIdx.x < 32) {
+      double2 val = (threadIdx.x < (blockDim.x >> 5)) ? s_d[threadIdx.x] : make_double2(0.0, 0.0);
+      for (int off = 16; off > 0; off >>= 1) {
+        val.x += __shfl_down_sync(0xffffffff, val.x, off);
+        val.y += __shfl_down_sync(0xffffffff, val.y, off);
+      }
+      if (threadIdx.x == 0) {
+        int out_base = cat * n_pcs + pc0;
+        a[out_base] = (T)val.x;
+        if (has_pc1) a[out_base + 1] = (T)val.y;
+      }
+    }
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
new file mode 100644
index 00000000..137ad274
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
@@ -0,0 +1,99 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_scatter.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_scatter_add(std::uintptr_t v, std::uintptr_t cats, std::size_t n_cells,
+                                      std::size_t n_pcs, std::size_t switcher, std::uintptr_t a) {
+  dim3 block(256);
+  std::size_t N = n_cells * n_pcs;
+  dim3 grid((unsigned)((N + block.x - 1) / block.x));
+  scatter_add_kernel_optimized<T><<<grid, block>>>(reinterpret_cast<const T*>(v),
+                                                   reinterpret_cast<const int*>(cats), n_cells,
+                                                   n_pcs, switcher, reinterpret_cast<T*>(a));
+}
+
+template <typename T>
+static inline void launch_aggregated_matrix(std::uintptr_t aggregated_matrix, std::uintptr_t sum,
+                                            double top_corner, int n_batches) {
+  dim3 block(32);
+  dim3 grid((n_batches + 1 + 31) / 32);
+  aggregated_matrix_kernel<T><<<grid, block>>>(reinterpret_cast<T*>(aggregated_matrix),
+                                               reinterpret_cast<const T*>(sum), (T)top_corner,
+                                               n_batches);
+}
+
+template <typename T>
+static inline void launch_scatter_add_cat0(std::uintptr_t v, int n_cells, int n_pcs,
+                                           std::uintptr_t a, std::uintptr_t bias) {
+  dim3 block(1024);
+  dim3 grid((n_pcs + 1) / 2, 8);
+  scatter_add_kernel_with_bias_cat0<T><<<grid, block>>>(reinterpret_cast<const T*>(v), n_cells,
+                                                        n_pcs, reinterpret_cast<T*>(a),
+                                                        reinterpret_cast<const T*>(bias));
+}
+
+template <typename T>
+static inline void launch_scatter_add_block(std::uintptr_t v, std::uintptr_t cat_offsets,
+                                            std::uintptr_t cell_indices, int n_cells, int n_pcs,
+                                            int n_batches, std::uintptr_t a, std::uintptr_t bias) {
+  dim3 block(1024);
+  dim3 grid(n_batches * ((n_pcs + 1) / 2));
+  scatter_add_kernel_with_bias_block<T>
+      <<<grid, block>>>(reinterpret_cast<const T*>(v), reinterpret_cast<const int*>(cat_offsets),
+                        reinterpret_cast<const int*>(cell_indices), n_cells, n_pcs, n_batches,
+                        reinterpret_cast<T*>(a), reinterpret_cast<const T*>(bias));
+}
+
+NB_MODULE(_harmony_scatter_cuda, m) {
+  m.def("scatter_add", [](std::uintptr_t v, std::uintptr_t cats, std::size_t n_cells,
+                          std::size_t n_pcs, std::size_t switcher, std::uintptr_t a, int itemsize) {
+    if (itemsize == 4) {
+      launch_scatter_add<float>(v, cats, n_cells, n_pcs, switcher, a);
+    } else if (itemsize == 8) {
+      launch_scatter_add<double>(v, cats, n_cells, n_pcs, switcher, a);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("aggregated_matrix", [](std::uintptr_t aggregated_matrix, std::uintptr_t sum,
+                                double top_corner, int n_batches, int itemsize) {
+    if (itemsize == 4) {
+      launch_aggregated_matrix<float>(aggregated_matrix, sum, top_corner, n_batches);
+    } else if (itemsize == 8) {
+      launch_aggregated_matrix<double>(aggregated_matrix, sum, top_corner, n_batches);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("scatter_add_cat0", [](std::uintptr_t v, int n_cells, int n_pcs, std::uintptr_t a,
+                               std::uintptr_t bias, int itemsize) {
+    if (itemsize == 4) {
+      launch_scatter_add_cat0<float>(v, n_cells, n_pcs, a, bias);
+    } else if (itemsize == 8) {
+      launch_scatter_add_cat0<double>(v, n_cells, n_pcs, a, bias);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("scatter_add_block",
+        [](std::uintptr_t v, std::uintptr_t cat_offsets, std::uintptr_t cell_indices, int n_cells,
+           int n_pcs, int n_batches, std::uintptr_t a, std::uintptr_t bias, int itemsize) {
+          if (itemsize == 4) {
+            launch_scatter_add_block<float>(v, cat_offsets, cell_indices, n_cells, n_pcs, n_batches,
+                                            a, bias);
+          } else if (itemsize == 8) {
+            launch_scatter_add_block<double>(v, cat_offsets, cell_indices, n_cells, n_pcs,
+                                             n_batches, a, bias);
+          } else {
+            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+          }
+        });
+}
diff --git a/src/rapids_singlecell/get/_kernels/_aggr_kernels.py b/src/rapids_singlecell/get/_kernels/_aggr_kernels.py
deleted file mode 100644
index cda671d1..00000000
--- a/src/rapids_singlecell/get/_kernels/_aggr_kernels.py
+++ /dev/null
@@ -1,172 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-sparse_dense_aggr_kernel = r"""
-    (const int *indptr, const int *index,const {0} *data,
-    double* out, int* cats,bool* mask,
-    size_t n_cells, size_t n_genes, size_t n_groups){
-    size_t cell = blockIdx.x;
-    if(cell >= n_cells || !mask[cell]){
-        return;
-    }
-    int cell_start = indptr[cell];
-    int cell_end = indptr[cell+1];
-    size_t group = (size_t)cats[cell];
-    for (int gene = cell_start+threadIdx.x; gene<cell_end; gene+= blockDim.x){
-        size_t gene_pos = (size_t)index[gene];
-        double value = (double)data[gene];
-        atomicAdd(&out[group*n_genes+gene_pos], value);
-        atomicAdd(&out[group*n_genes+gene_pos+n_genes*n_groups], 1);
-        atomicAdd(&out[group*n_genes+gene_pos+2*n_genes*n_groups], value*value);
-    }
-}
-"""
-
-
-sparse_dense_aggr_kernel_csc = r"""
-    (const int *indptr, const int *index,const {0} *data,
-    double* out, int* cats,bool* mask,
-    size_t n_cells, size_t n_genes, size_t n_groups){
-    size_t gene = blockIdx.x;
-    if(gene >= n_genes){
-        return;
-    }
-    int gene_start = indptr[gene];
-    int gene_end = indptr[gene+1];
-
-    for (int cell_idx = gene_start+threadIdx.x; cell_idx<gene_end; cell_idx+= blockDim.x){
-        size_t cell = (size_t)index[cell_idx];
-        if(!mask[cell]){
-            continue;
-        }
-        size_t group = (size_t)cats[cell];
-        double value = (double)data[cell_idx];
-        atomicAdd(&out[group*n_genes+gene], value);
-        atomicAdd(&out[group*n_genes+gene+n_genes*n_groups], 1);
-        atomicAdd(&out[group*n_genes+gene+2*n_genes*n_groups], value*value);
-    }
-}
-"""
-
-
-sparse_sparse_aggr_kernel = r"""
-    (const int *indptr, const int *index, const {0}* data,
-    int* row, int* col, double* ndata,
-    int* cats,bool* mask,int n_cells){
-    int cell = blockIdx.x;
-    if(cell >= n_cells || !mask[cell]){
-        return;
-    }
-    int cell_start = indptr[cell];
-    int cell_end = indptr[cell+1];
-    int group = cats[cell];
-    for (int gene = cell_start+threadIdx.x; gene<cell_end; gene+= blockDim.x){
-        int gene_pos = index[gene];
-        ndata[gene] = (double)data[gene];
-        row[gene] = group;
-        col[gene] = gene_pos;
-    }
-}
-"""
-
-sparse_var_kernel = r"""
-    (const int *indptr, const int *index,double *data,
-    const double *mean_data, double *n_cells, int dof, int n_groups){
-    int group = blockIdx.x;
-    if(group >= n_groups){
-        return;
-    }
-    int group_start = indptr[group];
-    int group_end = indptr[group+1];
-    double doffer = n_cells[group]/(n_cells[group]-dof);
-    for (int gene = group_start+threadIdx.x; gene<group_end; gene+= blockDim.x){
-        double var = data[gene];
-        double mean = mean_data[gene]*mean_data[gene];
-        var = var- mean;
-        data[gene] = var* doffer;
-        }
-    }
-"""
-
-
-dense_aggr_kernel_C = r"""
-    (const {0} *data, double* out,
-    int* cats, bool* mask, size_t n_cells, size_t n_genes, size_t n_groups){
-
-    size_t i = blockIdx.x * blockDim.x + threadIdx.x;
-    size_t stride = gridDim.x * blockDim.x;
-    size_t N = n_cells * n_genes;
-    while (i < N){
-        if (i >= N) return;
-        size_t cell = i / n_genes;
-        size_t gene = i % n_genes;
-        if(mask[cell]){
-            size_t group = (size_t) cats[cell];
-
-            double value = (double)data[cell * n_genes + gene];
-            if (value != 0){
-                atomicAdd(&out[group*n_genes+gene], value);
-                atomicAdd(&out[group*n_genes+gene+n_genes*n_groups], 1);
-                atomicAdd(&out[group*n_genes+gene+2*n_genes*n_groups], value*value);
-            }
-        }
-        i += stride;
-    }
-}
-"""
-
-dense_aggr_kernel_F = r"""
-    (const {0} *data, double* out,
-    int* cats, bool* mask, size_t n_cells, size_t n_genes, size_t n_groups){
-    size_t i = blockIdx.x * blockDim.x + threadIdx.x;
-    size_t stride = gridDim.x * blockDim.x;
-    size_t N = n_cells * n_genes;
-    while (i < N){
-        if (i >= N) return;
-        size_t cell = i % n_cells;
-        size_t gene = i / n_cells;
-        if(mask[cell]){
-            size_t group = (size_t) cats[cell];
-
-            double value = (double)data[gene * n_cells + cell];
-            if (value != 0){
-                atomicAdd(&out[group*n_genes+gene], value);
-                atomicAdd(&out[group*n_genes+gene+n_genes*n_groups], 1);
-                atomicAdd(&out[group*n_genes+gene+2*n_genes*n_groups], value*value);
-            }
-        }
-        i += stride;
-    }
-}
-"""
-
-
-def _get_aggr_sparse_kernel(dtype):
-    return cuda_kernel_factory(
-        sparse_dense_aggr_kernel, (dtype,), "sparse_dense_aggr_kernel"
-    )
-
-
-def _get_aggr_sparse_kernel_csc(dtype):
-    return cuda_kernel_factory(
-        sparse_dense_aggr_kernel_csc, (dtype,), "sparse_dense_aggr_kernel_csc"
-    )
-
-
-def _get_aggr_sparse_sparse_kernel(dtype):
-    return cuda_kernel_factory(
-        sparse_sparse_aggr_kernel, (dtype,), "sparse_sparse_aggr_kernel"
-    )
-
-
-def _get_sparse_var_kernel(dtype):
-    return cuda_kernel_factory(sparse_var_kernel, (dtype,), "sparse_var_kernel")
-
-
-def _get_aggr_dense_kernel_C(dtype):
-    return cuda_kernel_factory(dense_aggr_kernel_C, (dtype,), "dense_aggr_kernel_C")
-
-
-def _get_aggr_dense_kernel_F(dtype):
-    return cuda_kernel_factory(dense_aggr_kernel_F, (dtype,), "dense_aggr_kernel_F")
diff --git a/src/rapids_singlecell/preprocessing/_harmony/__init__.py b/src/rapids_singlecell/preprocessing/_harmony/__init__.py
index 709b917f..385e4b71 100644
--- a/src/rapids_singlecell/preprocessing/_harmony/__init__.py
+++ b/src/rapids_singlecell/preprocessing/_harmony/__init__.py
@@ -605,7 +605,7 @@ def _compute_objective(
     """
     kmeans_error = _kmeans_error(R, cp.dot(Z_norm, Y_norm.T))
     R_normalized = R / R.sum(axis=1, keepdims=True)
-    entropy = _entropy_kernel(R_normalized)
+    entropy = _entropy_kernel(X=R_normalized)
     entropy_term = sigma * entropy
     diversity_penalty = sigma * cp.sum(cp.dot(theta, _log_div_OE(O, E)))
     objective = kmeans_error + entropy_term + diversity_penalty
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_fuses.py b/src/rapids_singlecell/preprocessing/_harmony/_fuses.py
index 8cada650..287cc4c7 100644
--- a/src/rapids_singlecell/preprocessing/_harmony/_fuses.py
+++ b/src/rapids_singlecell/preprocessing/_harmony/_fuses.py
@@ -24,11 +24,11 @@ def _log_div_OE(o: cp.ndarray, e: cp.ndarray) -> cp.ndarray:
 
 
 _entropy_kernel = cp.ReductionKernel(
-    "T x",
-    "T y",
-    "x * logf(x + 1e-12)",
-    "a + b",
-    "y = a",
-    "0",
-    "entropy_reduce",
+    "T x",  # in_params
+    "T y",  # out_params
+    "x * logf(x + 1e-12)",  # map_expr
+    "a + b",  # reduce_expr
+    "y = a",  # post_map_expr
+    "0",  # identity
+    "entropy_reduce",  # name
 )
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_helper.py b/src/rapids_singlecell/preprocessing/_harmony/_helper.py
index d88ab5cb..f524afb6 100644
--- a/src/rapids_singlecell/preprocessing/_harmony/_helper.py
+++ b/src/rapids_singlecell/preprocessing/_harmony/_helper.py
@@ -5,21 +5,28 @@
 import cupy as cp
 import numpy as np
 
-from ._kernels._kmeans import _get_kmeans_err_kernel
-from ._kernels._normalize import _get_normalize_kernel_optimized
-from ._kernels._outer import (
-    _get_colsum_atomic_kernel,
-    _get_colsum_kernel,
-    _get_harmony_correction_kernel,
-    _get_outer_kernel,
-)
-from ._kernels._pen import _get_pen_kernel
-from ._kernels._scatter_add import (
-    _get_aggregated_matrix_kernel,
-    _get_scatter_add_kernel_optimized,
-    _get_scatter_add_kernel_with_bias_block,
-    _get_scatter_add_kernel_with_bias_cat0,
-)
+try:
+    from rapids_singlecell._cuda import (
+        _harmony_colsum_cuda as _hc_cs,
+    )
+    from rapids_singlecell._cuda import (
+        _harmony_kmeans_cuda as _hc_km,
+    )
+    from rapids_singlecell._cuda import (
+        _harmony_normalize_cuda as _hc_norm,
+    )
+    from rapids_singlecell._cuda import (
+        _harmony_outer_cuda as _hc_out,
+    )
+    from rapids_singlecell._cuda import (
+        _harmony_pen_cuda as _hc_pen,
+    )
+    from rapids_singlecell._cuda import (
+        _harmony_scatter_cuda as _hc_sc,
+    )
+except ImportError:
+    _hc_sc = _hc_out = _hc_cs = _hc_km = _hc_norm = _hc_pen = None
+
 
 if TYPE_CHECKING:
     import pandas as pd
@@ -42,13 +49,9 @@ def _normalize_cp_p1(X: cp.ndarray) -> cp.ndarray:
 
     rows, cols = X.shape
 
-    # Fixed block size of 32
-    block_dim = 32
-    grid_dim = rows  # One block per row
-
-    normalize_p1 = _get_normalize_kernel_optimized(X.dtype)
-    # Launch the kernel
-    normalize_p1((grid_dim,), (block_dim,), (X, rows, cols))
+    _hc_norm.normalize(
+        X.data.ptr, int(rows), int(cols), int(cp.dtype(X.dtype).itemsize)
+    )
     return X
 
 
@@ -63,12 +66,16 @@ def _scatter_add_cp(
     """
     n_cells = X.shape[0]
     n_pcs = X.shape[1]
-    N = n_cells * n_pcs
-    threads_per_block = 256
-    blocks = (N + threads_per_block - 1) // threads_per_block
 
-    scatter_add_kernel = _get_scatter_add_kernel_optimized(X.dtype)
-    scatter_add_kernel((blocks,), (256,), (X, cats, n_cells, n_pcs, switcher, out))
+    _hc_sc.scatter_add(
+        X.data.ptr,
+        cats.data.ptr,
+        int(n_cells),
+        int(n_pcs),
+        int(switcher),
+        out.data.ptr,
+        int(cp.dtype(X.dtype).itemsize),
+    )
 
 
 def _Z_correction(
@@ -82,12 +89,16 @@ def _Z_correction(
     """
     n_cells = Z.shape[0]
     n_pcs = Z.shape[1]
-    N = n_cells * n_pcs
-    threads_per_block = 256
-    blocks = (N + threads_per_block - 1) // threads_per_block
 
-    scatter_add_kernel = _get_harmony_correction_kernel(Z.dtype)
-    scatter_add_kernel((blocks,), (256,), (Z, W, cats, R, n_cells, n_pcs))
+    _hc_out.harmony_corr(
+        Z.data.ptr,
+        W.data.ptr,
+        cats.data.ptr,
+        R.data.ptr,
+        int(n_cells),
+        int(n_pcs),
+        int(cp.dtype(Z.dtype).itemsize),
+    )
 
 
 def _outer_cp(
@@ -95,13 +106,14 @@ def _outer_cp(
 ) -> None:
     n_cats, n_pcs = E.shape
 
-    # Determine the total number of elements to process and configure the grid.
-    N = n_cats * n_pcs
-    threads_per_block = 256
-    blocks = (N + threads_per_block - 1) // threads_per_block
-    outer_kernel = _get_outer_kernel(E.dtype)
-    outer_kernel(
-        (blocks,), (threads_per_block,), (E, Pr_b, R_sum, n_cats, n_pcs, switcher)
+    _hc_out.outer(
+        E.data.ptr,
+        Pr_b.data.ptr,
+        R_sum.data.ptr,
+        int(n_cats),
+        int(n_pcs),
+        int(switcher),
+        int(cp.dtype(E.dtype).itemsize),
     )
 
 
@@ -122,12 +134,13 @@ def _get_aggregated_matrix(
     """
     Get the aggregated matrix for the correction step.
     """
-    aggregated_matrix_kernel = _get_aggregated_matrix_kernel(aggregated_matrix.dtype)
 
-    threads_per_block = 32
-    blocks = (n_batches + 1 + threads_per_block - 1) // threads_per_block
-    aggregated_matrix_kernel(
-        (blocks,), (threads_per_block,), (aggregated_matrix, sum, sum.sum(), n_batches)
+    _hc_sc.aggregated_matrix(
+        aggregated_matrix.data.ptr,
+        sum.data.ptr,
+        float(sum.sum()),
+        int(n_batches),
+        int(cp.dtype(aggregated_matrix.dtype).itemsize),
     )
 
 
@@ -196,21 +209,29 @@ def _scatter_add_cp_bias_csr(
     n_cells = X.shape[0]
     n_pcs = X.shape[1]
 
-    threads_per_block = 1024
     if n_cells < 300_000:
-        blocks = int((n_pcs + 1) / 2)
-        scatter_kernel0 = _get_scatter_add_kernel_with_bias_cat0(X.dtype)
-        scatter_kernel0(
-            (blocks, 8), (threads_per_block,), (X, n_cells, n_pcs, out, bias)
+        _hc_sc.scatter_add_cat0(
+            X.data.ptr,
+            int(n_cells),
+            int(n_pcs),
+            out.data.ptr,
+            bias.data.ptr,
+            int(cp.dtype(X.dtype).itemsize),
         )
+
     else:
         out[0] = X.T @ bias
-    blocks = int((n_batches) * (n_pcs + 1) / 2)
-    scatter_kernel = _get_scatter_add_kernel_with_bias_block(X.dtype)
-    scatter_kernel(
-        (blocks,),
-        (threads_per_block,),
-        (X, cat_offsets, cell_indices, n_cells, n_pcs, n_batches, out, bias),
+
+    _hc_sc.scatter_add_block(
+        X.data.ptr,
+        cat_offsets.data.ptr,
+        cell_indices.data.ptr,
+        int(n_cells),
+        int(n_pcs),
+        int(n_batches),
+        out.data.ptr,
+        bias.data.ptr,
+        int(cp.dtype(X.dtype).itemsize),
     )
 
 
@@ -219,14 +240,13 @@ def _kmeans_error(R: cp.ndarray, dot: cp.ndarray) -> float:
     assert R.size == dot.size and R.dtype == dot.dtype
 
     out = cp.zeros(1, dtype=R.dtype)
-    threads = 256
-    blocks = min(
-        (R.size + threads - 1) // threads,
-        cp.cuda.Device().attributes["MultiProcessorCount"] * 8,
+    _hc_km.kmeans_err(
+        R.data.ptr,
+        dot.data.ptr,
+        int(R.size),
+        out.data.ptr,
+        int(cp.dtype(R.dtype).itemsize),
     )
-    kernel = _get_kmeans_err_kernel(R.dtype.name)
-    kernel((blocks,), (threads,), (R, dot, R.size, out))
-
     return out[0]
 
 
@@ -263,6 +283,17 @@ def _get_theta_array(
     return theta_array.ravel()
 
 
+def _dtype_code(dtype: cp.dtype) -> int:
+    if dtype == cp.float32:
+        return 0
+    elif dtype == cp.float64:
+        return 1
+    elif dtype == cp.int32:
+        return 2
+    else:
+        raise ValueError(f"Unsupported dtype: {dtype}")
+
+
 def _column_sum(X: cp.ndarray) -> cp.ndarray:
     """
     Sum each column of the 2D, C-contiguous float32 array A.
@@ -274,13 +305,10 @@ def _column_sum(X: cp.ndarray) -> cp.ndarray:
 
     out = cp.zeros(cols, dtype=X.dtype)
 
-    dev = cp.cuda.Device()
-    nSM = dev.attributes["MultiProcessorCount"]
-    max_blocks = nSM * 8
-    threads = max(int(round(1 / 32) * 32), 32)
-    blocks = min(cols, max_blocks)
-    _colsum = _get_colsum_kernel(X.dtype)
-    _colsum((blocks,), (threads,), (X, out, rows, cols))
+    _hc_cs.colsum(
+        X.data.ptr, out.data.ptr, int(rows), int(cols), int(_dtype_code(X.dtype))
+    )
+
     return out
 
 
@@ -295,13 +323,11 @@ def _column_sum_atomic(X: cp.ndarray) -> cp.ndarray:
         return X.sum(axis=0)
 
     out = cp.zeros(cols, dtype=X.dtype)
-    tile_rows = (rows + 31) // 32
-    tile_cols = (cols + 31) // 32
-    blocks = tile_rows * tile_cols
-    threads = (32, 32)
 
-    kernel = _get_colsum_atomic_kernel(X.dtype)
-    kernel((blocks,), threads, (X, out, rows, cols))
+    _hc_cs.colsum_atomic(
+        X.data.ptr, out.data.ptr, int(rows), int(cols), int(_dtype_code(X.dtype))
+    )
+
     return out
 
 
@@ -469,9 +495,14 @@ def _penalty_term(R: cp.ndarray, penalty: cp.ndarray, cats: cp.ndarray) -> cp.nd
     Calculate the penalty term for the Harmony algorithm.
     """
     n_cats, n_pcs = R.shape
-    N = n_cats * n_pcs
-    threads_per_block = 256
-    blocks = (N + threads_per_block - 1) // threads_per_block
-    pen_kernel = _get_pen_kernel(R.dtype)
-    pen_kernel((blocks,), (threads_per_block,), (R, penalty, cats, n_cats, n_pcs))
+
+    _hc_pen.pen(
+        R.data.ptr,
+        penalty.data.ptr,
+        cats.data.ptr,
+        int(n_cats),
+        int(n_pcs),
+        int(cp.dtype(R.dtype).itemsize),
+    )
+
     return R
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_kmeans.py b/src/rapids_singlecell/preprocessing/_harmony/_kernels/_kmeans.py
deleted file mode 100644
index d1edd073..00000000
--- a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_kmeans.py
+++ /dev/null
@@ -1,64 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_kmeans_err_kernel_code = r"""(const {0}* __restrict__ r,
-                    const {0}* __restrict__ dot,
-                    size_t n,
-                    {0}* __restrict__ out)
-{
-    // --- per-thread accumulator -------------
-    {0} acc = {0}(0);
-
-    using Vec = {0}4;
-
-    // grid-stride loop, vectorised load  -----
-    size_t i = (blockIdx.x*blockDim.x + threadIdx.x) * 4;
-    const size_t stride = gridDim.x*blockDim.x*4;
-
-    while (i + 3 < n) {
-        Vec r4   = *(const Vec*)(r   + i);
-        Vec dot4 = *(const Vec*)(dot + i);
-
-        acc += r4.x * {0}(2) * ({0}(1) - dot4.x);
-        acc += r4.y * {0}(2) * ({0}(1) - dot4.y);
-        acc += r4.z * {0}(2) * ({0}(1) - dot4.z);
-        acc += r4.w * {0}(2) * ({0}(1) - dot4.w);
-        i += stride;
-    }
-    // tail elements
-    while (i < n) {
-        {0} rv   = r[i];
-        {0} dotv = dot[i];
-        acc += rv * {0}(2) * ({0}(1) - dotv);
-        i ++;
-    }
-
-
-    // --- warp-shuffle reduction -------------
-    #pragma unroll
-    for (int offset = 16; offset > 0; offset >>= 1)
-        acc += __shfl_down_sync(0xffffffff, acc, offset);
-
-    // --- block reduce -----------------------
-    static __shared__ {0} s[32];              // one per warp
-    if ((threadIdx.x & 31) == 0) s[threadIdx.x>>5] = acc;
-    __syncthreads();
-
-    if (threadIdx.x < 32) {
-        {0} val = (threadIdx.x < (blockDim.x>>5)) ? s[threadIdx.x] : 0.0;
-        #pragma unroll
-        for (int offset = 16; offset > 0; offset >>= 1)
-            val += __shfl_down_sync(0xffffffff, val, offset);
-        if (threadIdx.x == 0) atomicAdd(out, val);
-    }
-}
-"""
-
-
-def _get_kmeans_err_kernel(dtype):
-    return cuda_kernel_factory(
-        _kmeans_err_kernel_code,
-        (dtype,),
-        "kmeans_err_kernel",
-    )
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_normalize.py b/src/rapids_singlecell/preprocessing/_harmony/_kernels/_normalize.py
deleted file mode 100644
index 81d416c8..00000000
--- a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_normalize.py
+++ /dev/null
@@ -1,52 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-normalize_kernel_optimized = r"""
-({0} * X, long long rows, long long cols) {
-    __shared__ {0}  shared[32];  // Shared memory for partial sums (one per thread)
-
-    long long row = blockIdx.x;  // One block per row
-    long long tid = threadIdx.x;  // Thread index within the block
-
-    // Ensure we're within matrix bounds
-    if (row >= rows) return;
-
-    // Step 1: Compute partial sums within each thread
-    {0}  norm = 0.0;
-    for (long long col = tid; col < cols; col += blockDim.x) {
-        norm += fabs(X[row * cols + col]);// Manhattan norm
-
-    }
-
-    // Store partial sum in shared memory
-    shared[tid] = norm;
-    __syncthreads();
-
-    // Step 2: Perform shared memory reduction using warp shuffle
-    #pragma unroll
-    for (long long offset = 16; offset > 0; offset /= 2) {
-        shared[tid] += __shfl_down_sync(0xFFFFFFFF, shared[tid], offset);
-    }
-    __syncthreads();
-
-    // First thread calculates the final norm
-    if (tid == 0) {
-        {0}  final_norm = shared[0];
-        final_norm = fmaxf(final_norm, 1e-12);
-        shared[0] = 1.0 / final_norm;  // Store reciprocal for normalization
-    }
-    __syncthreads();
-
-    // Step 3: Normalize the row
-    for (long long col = tid; col < cols; col += blockDim.x) {
-        X[row * cols + col] *= shared[0];
-    }
-}
-"""
-
-
-def _get_normalize_kernel_optimized(dtype):
-    return cuda_kernel_factory(
-        normalize_kernel_optimized, (dtype,), "normalize_kernel_optimized"
-    )
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_outer.py b/src/rapids_singlecell/preprocessing/_harmony/_kernels/_outer.py
deleted file mode 100644
index 7a99695c..00000000
--- a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_outer.py
+++ /dev/null
@@ -1,153 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-out_kernel_code = r"""
-({0}* __restrict__ E,
-    const {0}* __restrict__ Pr_b,
-    const {0}* __restrict__ R_sum,
-    long long n_cats,
-    long long n_pcs,
-    long long switcher)
-{
-    long long i = blockIdx.x * blockDim.x + threadIdx.x;
-
-    long long N = n_cats * n_pcs;
-    if (i >= N) return;
-
-    // Determine row and column from the flattened index.
-    long long row = i / n_pcs;  // which cell (row) in R
-    long long col = i % n_pcs;  // which column (PC) in R
-
-    if (switcher==0) E[i] -= (Pr_b[row] * R_sum[col]);
-    else E[i] += (Pr_b[row] * R_sum[col]);
-}
-"""
-
-
-def _get_outer_kernel(dtype):
-    return cuda_kernel_factory(out_kernel_code, (dtype,), "outer_kernel")
-
-
-harmony_correction_kernel_code = r"""
-({0}* __restrict__ Z,
-    const {0}* __restrict__ W,
-    const int* __restrict__ cats,
-    const {0}* __restrict__ R,
-    long long n_cells,
-    long long n_pcs)
-{
-    long long i = blockIdx.x * blockDim.x + threadIdx.x;
-
-    if (i >= n_cells * n_pcs) return;
-
-    // Determine row and column from the flattened index
-    long long cell_idx = i / n_pcs;  // which cell (row)
-    long long pc_idx = i % n_pcs;    // which PC (column)
-
-    // Get the category/batch for this cell
-    int cat = cats[cell_idx];
-
-    // Calculate correction term: (W[1:][cats] + W[0]) * R[:, k]
-    {0} correction = W[(cat + 1)*n_pcs + pc_idx] * R[cell_idx];
-
-    // Apply correction: Z -= correction
-    Z[i] -= correction;
-}
-"""
-
-
-def _get_harmony_correction_kernel(dtype):
-    return cuda_kernel_factory(
-        harmony_correction_kernel_code, (dtype,), "harmony_correction_kernel"
-    )
-
-
-_colsum_kernel = r"""
-(const {0}* __restrict__ A,
-            {0}* __restrict__ out,
-            size_t rows,
-            size_t cols) {
-    size_t tid = threadIdx.x;
-    for (size_t col = blockIdx.x; col < cols; col += gridDim.x) {
-        {0} acc = {0}(0);
-        for (size_t i = tid; i < rows; i += blockDim.x) {
-            acc += A[i * cols + col];
-        }
-
-        #pragma unroll
-        for (int offset = 16; offset > 0; offset >>= 1){
-            acc += __shfl_down_sync(0xffffffff, acc, offset);
-        }
-        static __shared__ {0} s[32];
-        if ((threadIdx.x & 31) == 0){
-            s[threadIdx.x>>5] = acc;
-        }
-        __syncthreads();
-
-        if (threadIdx.x < 32) {
-            {0} val = (threadIdx.x < (blockDim.x>>5))
-                            ? s[threadIdx.x]
-                            : {0}(0);
-            #pragma unroll
-            for (int off = 16; off > 0; off >>= 1) {
-                val += __shfl_down_sync(0xffffffff, val, off);
-            }
-            if (threadIdx.x == 0) {
-                out[col] =val;
-            }
-        }
-    }
-}
-"""
-
-
-def _get_colsum_kernel(dtype):
-    return cuda_kernel_factory(
-        _colsum_kernel,
-        (dtype,),
-        "_colsum_kernel",
-    )
-
-
-_colsum_atomic_code = r"""
-(const {0}* __restrict__ A,
-        {0}* __restrict__ out,
-        size_t rows,
-        size_t cols) {
-    // how many 32-wide column tiles
-    size_t tile_cols = (cols + 31) / 32;
-    size_t tid      = blockIdx.x;
-    size_t tile_r   = tid / tile_cols;
-    size_t tile_c   = tid % tile_cols;
-
-    // compute our element coords
-    size_t row = tile_r * 32 + threadIdx.x;
-    size_t col = tile_c * 32 + threadIdx.y;
-
-    {0} v = {0}(0);
-    if (row < rows && col < cols) {
-        // coalesced load: all threads in this warp touch
-        // col = tile_c*32 + warp_lane in [0..31]
-        v = A[row * cols + col];
-    }
-
-    // warp‐level sum over the 32 rows in this tile‐column
-    for (int off = 16; off > 0; off >>= 1) {
-        v += __shfl_down_sync(0xffffffff, v, off);
-    }
-
-    // lane 0 of each warp writes one atomicAdd for this column
-    if (threadIdx.x == 0 && col < cols) {
-        atomicAdd(&out[col], v);
-    }
-}
-"""
-
-
-def _get_colsum_atomic_kernel(dtype):
-    return cuda_kernel_factory(
-        _colsum_atomic_code,
-        (dtype,),
-        "colsum_atomic",
-    )
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_pen.py b/src/rapids_singlecell/preprocessing/_harmony/_kernels/_pen.py
deleted file mode 100644
index 09ce249e..00000000
--- a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_pen.py
+++ /dev/null
@@ -1,29 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-pen_kernel = r"""
-(
-    {0}* __restrict__ R,
-    const {0}* __restrict__ penalty,
-    const int* __restrict__ cats,
-    const size_t n_rows,
-    const size_t n_cols
-)
-{
-    size_t i = blockIdx.x * blockDim.x + threadIdx.x;
-    size_t N = n_rows * n_cols;
-    if (i >= N) return;
-
-    size_t row = i / n_cols;
-    size_t col = i % n_cols;
-
-    int cat = cats[row];
-    {0} scale = penalty[(size_t)cat * n_cols + col];
-    R[i] *= scale;
-}
-"""
-
-
-def _get_pen_kernel(dtype):
-    return cuda_kernel_factory(pen_kernel, (dtype,), "pen_kernel")
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_scatter_add.py b/src/rapids_singlecell/preprocessing/_harmony/_kernels/_scatter_add.py
deleted file mode 100644
index b68c7b18..00000000
--- a/src/rapids_singlecell/preprocessing/_harmony/_kernels/_scatter_add.py
+++ /dev/null
@@ -1,213 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-scatter_add_kernel_optimized = r"""(const {0}* __restrict__ v,
-                const int* __restrict__ cats,
-                size_t n_cells,
-                size_t n_pcs,
-                size_t switcher,
-                {0}* __restrict__ a)
-{
-    size_t i = blockIdx.x * blockDim.x + threadIdx.x;
-    size_t N = n_cells * n_pcs;
-    if (i >= N) return;
-
-    size_t row = i / n_pcs;  // which cell (row) in R
-    size_t col = i % n_pcs;  // which column (PC) in R
-
-    size_t cat = (size_t)cats[row];
-    size_t out_index  = cat * n_pcs + col;
-
-    // Perform an atomic add on the output array.
-    if (switcher==0)atomicAdd(&a[out_index], -v[i]);
-    else atomicAdd(&a[out_index], v[i]);
-}
-"""
-
-
-def _get_scatter_add_kernel_optimized(dtype):
-    return cuda_kernel_factory(
-        scatter_add_kernel_optimized, (dtype,), "scatter_add_kernel_optimized"
-    )
-
-
-aggregated_matrix_kernel = r"""({0}* __restrict__ aggregated_matrix,
-                const {0}* __restrict__ sum,
-                {0}* __restrict__ top_corner,
-                int n_batches)
-{
-    int i = blockIdx.x * blockDim.x + threadIdx.x;
-    if (i >= n_batches+1) return;
-
-    if (i == 0) {
-        aggregated_matrix[0] = top_corner[0];
-    } else {
-        aggregated_matrix[i] = sum[i-1];
-        aggregated_matrix[(n_batches+1)*i] = sum[i-1];
-        aggregated_matrix[(n_batches+1)*i+i] = sum[i-1];
-    }
-}
-"""
-
-
-def _get_aggregated_matrix_kernel(dtype):
-    return cuda_kernel_factory(
-        aggregated_matrix_kernel, (dtype,), "aggregated_matrix_kernel"
-    )
-
-
-scatter_add_kernel_with_bias_cat0 = r"""(const {0}* __restrict__ v,
-                int n_cells,
-                int n_pcs,
-                {0}* __restrict__ a,
-                const {0}* __restrict__ bias)
-{
-    using VecPC = {0}2;
-    // Each block handles one PC pair and 1/4 of the cells
-    int pairs = (n_pcs + 1) / 2;
-    int pc_pair = blockIdx.x;
-    int eighth = blockIdx.y;
-
-    if (pc_pair >= pairs) return;
-
-    int pc0 = pc_pair * 2;
-    int pc1 = pc0 + 1;
-    bool has_pc1 = (pc1 < n_pcs);
-
-    {0} acc0 = {0}(0);
-    {0} acc1 = {0}(0);
-
-    // Calculate cell range for this block
-    int cells_per_eighth = (n_cells + 7) / 8;
-    int start_cell = eighth * cells_per_eighth;
-    int end_cell = min(start_cell + cells_per_eighth, n_cells);
-
-    // Unroll the main processing loop
-    #pragma unroll 4
-    for (int i = start_cell + threadIdx.x; i < end_cell; i += blockDim.x) {
-        size_t base = size_t(i) * n_pcs + pc0;
-        VecPC vv = *(const VecPC*)(v + base);
-        {0} bb = __ldg(bias + i);
-        acc0 += vv.x * bb;
-        if (has_pc1) acc1 += vv.y * bb;
-    }
-
-    #pragma unroll
-    for (int offset = 16; offset > 0; offset >>= 1){
-        acc0 += __shfl_down_sync(0xffffffff, acc0, offset);
-        if (has_pc1) {
-            acc1 += __shfl_down_sync(0xffffffff, acc1, offset);
-        }
-    }
-
-    static __shared__ VecPC s[32];
-    if ((threadIdx.x & 31) == 0)
-        s[threadIdx.x>>5] = VecPC{acc0, acc1};
-    __syncthreads();
-
-    if (threadIdx.x < 32) {
-        VecPC val = (threadIdx.x < (blockDim.x>>5))
-                        ? s[threadIdx.x]
-                        : VecPC{0,0};
-        #pragma unroll
-        for (int off = 16; off > 0; off >>= 1) {
-            val.x += __shfl_down_sync(0xffffffff, val.x, off);
-            val.y += __shfl_down_sync(0xffffffff, val.y, off);
-        }
-        if (threadIdx.x == 0) {
-            // Use atomic to combine results from all quarters
-            int out_base = 0 * n_pcs + pc0;  // cat is 0
-            atomicAdd(&a[out_base], val.x);
-            if (has_pc1) atomicAdd(&a[out_base+1], val.y);
-        }
-    }
-}
-"""
-
-
-def _get_scatter_add_kernel_with_bias_cat0(dtype):
-    return cuda_kernel_factory(
-        scatter_add_kernel_with_bias_cat0,
-        (dtype,),
-        "scatter_add_kernel_with_bias_cat0",
-    )
-
-
-scatter_add_kernel_with_bias_block = r"""(const {0}* __restrict__ v,
-                const int* __restrict__ cat_offsets,
-                const int* __restrict__ cell_indices,
-                int n_cells,
-                int n_pcs,
-                int n_batches,
-                {0}* __restrict__ a,
-                const {0}* __restrict__ bias)
-{
-    using VecPC = {0}2;
-    // Each block handles one (category, PC) combination
-    int pairs     = (n_pcs + 1) / 2;
-    int block_idx = blockIdx.x;
-    if (block_idx >= n_batches*pairs) return;
-
-    int cat     = block_idx / pairs + 1;  // Start from cat=1
-    int pc_pair = block_idx % pairs;
-
-    int pc0       = pc_pair*2;
-    int pc1       = pc0 + 1;
-    bool has_pc1  = (pc1 < n_pcs);
-
-    {0} acc0 = {0}(0);
-    {0} acc1 = {0}(0);
-
-    // Get range of cell indices for this category
-    int start_idx = cat_offsets[cat-1];
-    int end_idx = cat_offsets[cat];
-
-    for (int i = start_idx + threadIdx.x; i < end_idx; i += blockDim.x) {
-        int cell_idx = cell_indices[i];
-        size_t in_index = static_cast<size_t>(cell_idx)* n_pcs + pc0;
-        VecPC vv = *(const VecPC*)(v + in_index);
-        {0} bb = __ldg(bias + cell_idx);
-        acc0 += vv.x * bb;
-        if (has_pc1) acc1 += vv.y * bb;
-    }
-
-    #pragma unroll
-    for (int offset = 16; offset > 0; offset >>= 1){
-        acc0 += __shfl_down_sync(0xffffffff, acc0, offset);
-        if (has_pc1) {
-            acc1 += __shfl_down_sync(0xffffffff, acc1, offset);
-        }
-    }
-
-    static __shared__ VecPC s[32];
-    if ((threadIdx.x & 31) == 0)
-        s[threadIdx.x>>5] = VecPC{acc0, acc1};
-    __syncthreads();
-
-    if (threadIdx.x < 32) {
-        VecPC val = (threadIdx.x < (blockDim.x>>5))
-                        ? s[threadIdx.x]
-                        : VecPC{0,0};
-        #pragma unroll
-        for (int off = 16; off > 0; off >>= 1) {
-            val.x += __shfl_down_sync(0xffffffff, val.x, off);
-            val.y += __shfl_down_sync(0xffffffff, val.y, off);
-        }
-        if (threadIdx.x == 0) {
-            // write two outputs for this block:
-            int out_base = cat*n_pcs + pc0;
-            a[out_base]   = val.x;
-            if (has_pc1)  a[out_base+1] = val.y;
-        }
-    }
-}
-"""
-
-
-def _get_scatter_add_kernel_with_bias_block(dtype):
-    return cuda_kernel_factory(
-        scatter_add_kernel_with_bias_block,
-        (dtype,),
-        "scatter_add_kernel_with_bias_block",
-    )
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index ac19893f..f5607e81 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -185,8 +185,8 @@ def _mean_var_dense_dask(X, axis):
     from ._kernels._mean_var_kernel import mean_sum, sq_sum
 
     def __mean_var(X_part):
-        var = sq_sum(X_part, axis=axis)
-        mean = mean_sum(X_part, axis=axis)
+        var = sq_sum(X=X_part, axis=axis)
+        mean = mean_sum(X=X_part, axis=axis)
         if axis == 0:
             return cp.vstack([mean, var])[None, ...]
         else:
@@ -217,8 +217,8 @@ def __mean_var(X_part):
 def _mean_var_dense(X, axis):
     from ._kernels._mean_var_kernel import mean_sum, sq_sum
 
-    var = sq_sum(X, axis=axis)
-    mean = mean_sum(X, axis=axis)
+    var = sq_sum(X=X, axis=axis)
+    mean = mean_sum(X=X, axis=axis)
     mean = mean / X.shape[axis]
     var = var / X.shape[axis]
     var -= cp.power(mean, 2)

From d46ab837d12f2eb34d8b3aa959b4e318d1a8ff5b Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 12:07:53 +0200
Subject: [PATCH 35/54] make qc smaller

---
 src/rapids_singlecell/preprocessing/_qc.py    | 36 +++++++------------
 src/rapids_singlecell/preprocessing/_utils.py |  8 ++---
 2 files changed, 17 insertions(+), 27 deletions(-)

diff --git a/src/rapids_singlecell/preprocessing/_qc.py b/src/rapids_singlecell/preprocessing/_qc.py
index ba55f630..001c72c9 100644
--- a/src/rapids_singlecell/preprocessing/_qc.py
+++ b/src/rapids_singlecell/preprocessing/_qc.py
@@ -127,32 +127,22 @@ def _basic_qc(
         from rapids_singlecell._cuda import _qc_cuda as _qc
 
         if sparse.isspmatrix_csr(X):
-            _qc.sparse_qc_csr(
-                X.indptr.data.ptr,
-                X.indices.data.ptr,
-                X.data.data.ptr,
-                sums_cells.data.ptr,
-                sums_genes.data.ptr,
-                genes_per_cell.data.ptr,
-                cells_per_gene.data.ptr,
-                int(X.shape[0]),
-                int(cp.dtype(X.data.dtype).itemsize),
-            )
+            sparse_qc = _qc.sparse_qc_csr
         elif sparse.isspmatrix_csc(X):
-            _qc.sparse_qc_csc(
-                X.indptr.data.ptr,
-                X.indices.data.ptr,
-                X.data.data.ptr,
-                sums_cells.data.ptr,
-                sums_genes.data.ptr,
-                genes_per_cell.data.ptr,
-                cells_per_gene.data.ptr,
-                int(X.shape[1]),
-                int(cp.dtype(X.data.dtype).itemsize),
-            )
-
+            sparse_qc = _qc.sparse_qc_csc
         else:
             raise ValueError("Please use a csr or csc matrix")
+        sparse_qc(
+            X.indptr.data.ptr,
+            X.indices.data.ptr,
+            X.data.data.ptr,
+            sums_cells.data.ptr,
+            sums_genes.data.ptr,
+            genes_per_cell.data.ptr,
+            cells_per_gene.data.ptr,
+            int(X.shape[1]),
+            int(cp.dtype(X.data.dtype).itemsize),
+        )
     else:
         from rapids_singlecell._cuda import _qc_cuda as _qc
 
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index f5607e81..ac19893f 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -185,8 +185,8 @@ def _mean_var_dense_dask(X, axis):
     from ._kernels._mean_var_kernel import mean_sum, sq_sum
 
     def __mean_var(X_part):
-        var = sq_sum(X=X_part, axis=axis)
-        mean = mean_sum(X=X_part, axis=axis)
+        var = sq_sum(X_part, axis=axis)
+        mean = mean_sum(X_part, axis=axis)
         if axis == 0:
             return cp.vstack([mean, var])[None, ...]
         else:
@@ -217,8 +217,8 @@ def __mean_var(X_part):
 def _mean_var_dense(X, axis):
     from ._kernels._mean_var_kernel import mean_sum, sq_sum
 
-    var = sq_sum(X=X, axis=axis)
-    mean = mean_sum(X=X, axis=axis)
+    var = sq_sum(X, axis=axis)
+    mean = mean_sum(X, axis=axis)
     mean = mean / X.shape[axis]
     var = var / X.shape[axis]
     var -= cp.power(mean, 2)

From d45d6bff2d093a22c6be868ff946918d96c35702 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 12:24:02 +0200
Subject: [PATCH 36/54] add ligrec

---
 CMakeLists.txt                                |   1 +
 .../_cuda/ligrec/kernels_ligrec.cuh           | 127 ++++++
 src/rapids_singlecell/_cuda/ligrec/ligrec.cu  | 175 ++++++++
 src/rapids_singlecell/squidpy_gpu/_ligrec.py  | 386 ++++--------------
 4 files changed, 384 insertions(+), 305 deletions(-)
 create mode 100644 src/rapids_singlecell/_cuda/ligrec/kernels_ligrec.cuh
 create mode 100644 src/rapids_singlecell/_cuda/ligrec/ligrec.cu

diff --git a/CMakeLists.txt b/CMakeLists.txt
index ac3aaf01..6b9484a8 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -55,6 +55,7 @@ if (RSC_BUILD_EXTENSIONS)
   add_nb_cuda_module(_cooc_cuda         src/rapids_singlecell/_cuda/cooc/cooc.cu)
   add_nb_cuda_module(_aggr_cuda         src/rapids_singlecell/_cuda/aggr/aggr.cu)
   add_nb_cuda_module(_spca_cuda         src/rapids_singlecell/_cuda/spca/spca.cu)
+  add_nb_cuda_module(_ligrec_cuda       src/rapids_singlecell/_cuda/ligrec/ligrec.cu)
   # Harmony CUDA modules
   add_nb_cuda_module(_harmony_scatter_cuda   src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu)
   add_nb_cuda_module(_harmony_outer_cuda     src/rapids_singlecell/_cuda/harmony/outer/outer.cu)
diff --git a/src/rapids_singlecell/_cuda/ligrec/kernels_ligrec.cuh b/src/rapids_singlecell/_cuda/ligrec/kernels_ligrec.cuh
new file mode 100644
index 00000000..4067b910
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/ligrec/kernels_ligrec.cuh
@@ -0,0 +1,127 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+template <typename T>
+__global__ void sum_and_count_dense_kernel(const T* __restrict__ data,
+                                           const int* __restrict__ clusters,
+                                           T* __restrict__ sum_gt0, int* __restrict__ count_gt0,
+                                           int num_rows, int num_cols, int n_cls) {
+  int i = blockIdx.x * blockDim.x + threadIdx.x;
+  int j = blockIdx.y * blockDim.y + threadIdx.y;
+  if (i >= num_rows || j >= num_cols) return;
+  int cluster = clusters[i];
+  T value = data[i * num_cols + j];
+  if (value > (T)0) {
+    atomicAdd(&sum_gt0[j * n_cls + cluster], value);
+    atomicAdd(&count_gt0[j * n_cls + cluster], 1);
+  }
+}
+
+template <typename T>
+__global__ void sum_and_count_sparse_kernel(const int* __restrict__ indptr,
+                                            const int* __restrict__ index,
+                                            const T* __restrict__ data,
+                                            const int* __restrict__ clusters,
+                                            T* __restrict__ sum_gt0, int* __restrict__ count_gt0,
+                                            int nrows, int n_cls) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  if (cell >= nrows) return;
+  int start_idx = indptr[cell];
+  int stop_idx = indptr[cell + 1];
+  int cluster = clusters[cell];
+  for (int gene = start_idx; gene < stop_idx; gene++) {
+    T value = data[gene];
+    int gene_number = index[gene];
+    if (value > (T)0) {
+      atomicAdd(&sum_gt0[gene_number * n_cls + cluster], value);
+      atomicAdd(&count_gt0[gene_number * n_cls + cluster], 1);
+    }
+  }
+}
+
+template <typename T>
+__global__ void mean_dense_kernel(const T* __restrict__ data, const int* __restrict__ clusters,
+                                  T* __restrict__ g_cluster, int num_rows, int num_cols,
+                                  int n_cls) {
+  int i = blockIdx.x * blockDim.x + threadIdx.x;
+  int j = blockIdx.y * blockDim.y + threadIdx.y;
+  if (i >= num_rows || j >= num_cols) return;
+  atomicAdd(&g_cluster[j * n_cls + clusters[i]], data[i * num_cols + j]);
+}
+
+template <typename T>
+__global__ void mean_sparse_kernel(const int* __restrict__ indptr, const int* __restrict__ index,
+                                   const T* __restrict__ data, const int* __restrict__ clusters,
+                                   T* __restrict__ sum_gt0, int nrows, int n_cls) {
+  int cell = blockDim.x * blockIdx.x + threadIdx.x;
+  if (cell >= nrows) return;
+  int start_idx = indptr[cell];
+  int stop_idx = indptr[cell + 1];
+  int cluster = clusters[cell];
+  for (int gene = start_idx; gene < stop_idx; gene++) {
+    T value = data[gene];
+    int gene_number = index[gene];
+    if (value > (T)0) {
+      atomicAdd(&sum_gt0[gene_number * n_cls + cluster], value);
+    }
+  }
+}
+
+template <typename T>
+__global__ void elementwise_diff_kernel(T* __restrict__ g_cluster,
+                                        const T* __restrict__ total_counts, int num_genes,
+                                        int num_clusters) {
+  int i = blockIdx.x * blockDim.x + threadIdx.x;
+  int j = blockIdx.y * blockDim.y + threadIdx.y;
+  if (i >= num_genes || j >= num_clusters) return;
+  g_cluster[i * num_clusters + j] = g_cluster[i * num_clusters + j] / total_counts[j];
+}
+
+template <typename T>
+__global__ void interaction_kernel(const int* __restrict__ interactions,
+                                   const int* __restrict__ interaction_clusters,
+                                   const T* __restrict__ mean, T* __restrict__ res,
+                                   const bool* __restrict__ mask, const T* __restrict__ g,
+                                   int n_iter, int n_inter_clust, int n_cls) {
+  int i = blockIdx.x * blockDim.x + threadIdx.x;
+  int j = blockIdx.y * blockDim.y + threadIdx.y;
+  if (i >= n_iter || j >= n_inter_clust) return;
+  int rec = interactions[i * 2];
+  int lig = interactions[i * 2 + 1];
+  int c1 = interaction_clusters[j * 2];
+  int c2 = interaction_clusters[j * 2 + 1];
+  T m1 = mean[rec * n_cls + c1];
+  T m2 = mean[lig * n_cls + c2];
+  if (!isnan(res[i * n_inter_clust + j])) {
+    if (m1 > (T)0 && m2 > (T)0) {
+      if (mask[rec * n_cls + c1] && mask[lig * n_cls + c2]) {
+        T g_sum = g[rec * n_cls + c1] + g[lig * n_cls + c2];
+        res[i * n_inter_clust + j] += (g_sum > (m1 + m2));
+      } else {
+        res[i * n_inter_clust + j] = nan("");
+      }
+    } else {
+      res[i * n_inter_clust + j] = nan("");
+    }
+  }
+}
+
+template <typename T>
+__global__ void res_mean_kernel(const int* __restrict__ interactions,
+                                const int* __restrict__ interaction_clusters,
+                                const T* __restrict__ mean, T* __restrict__ res_mean, int n_inter,
+                                int n_inter_clust, int n_cls) {
+  int i = blockIdx.x * blockDim.x + threadIdx.x;
+  int j = blockIdx.y * blockDim.y + threadIdx.y;
+  if (i >= n_inter || j >= n_inter_clust) return;
+  int rec = interactions[i * 2];
+  int lig = interactions[i * 2 + 1];
+  int c1 = interaction_clusters[j * 2];
+  int c2 = interaction_clusters[j * 2 + 1];
+  T m1 = mean[rec * n_cls + c1];
+  T m2 = mean[lig * n_cls + c2];
+  if (m1 > (T)0 && m2 > (T)0) {
+    res_mean[i * n_inter_clust + j] = (m1 + m2) / (T)2;
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
new file mode 100644
index 00000000..12425c64
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
@@ -0,0 +1,175 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_ligrec.cuh"
+
+namespace nb = nanobind;
+
+template <typename T>
+static inline void launch_sum_count_dense(std::uintptr_t data, std::uintptr_t clusters,
+                                          std::uintptr_t sum, std::uintptr_t count, int rows,
+                                          int cols, int ncls) {
+  dim3 block(32, 32);
+  dim3 grid((rows + block.x - 1) / block.x, (cols + block.y - 1) / block.y);
+  sum_and_count_dense_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
+                        reinterpret_cast<T*>(sum), reinterpret_cast<int*>(count), rows, cols, ncls);
+}
+
+template <typename T>
+static inline void launch_sum_count_sparse(std::uintptr_t indptr, std::uintptr_t index,
+                                           std::uintptr_t data, std::uintptr_t clusters,
+                                           std::uintptr_t sum, std::uintptr_t count, int rows,
+                                           int ncls) {
+  dim3 block(32);
+  dim3 grid((rows + block.x - 1) / block.x);
+  sum_and_count_sparse_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
+                        reinterpret_cast<T*>(sum), reinterpret_cast<int*>(count), rows, ncls);
+}
+
+template <typename T>
+static inline void launch_mean_dense(std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t g,
+                                     int rows, int cols, int ncls) {
+  dim3 block(32, 32);
+  dim3 grid((rows + block.x - 1) / block.x, (cols + block.y - 1) / block.y);
+  mean_dense_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
+                                        reinterpret_cast<const int*>(clusters),
+                                        reinterpret_cast<T*>(g), rows, cols, ncls);
+}
+
+template <typename T>
+static inline void launch_mean_sparse(std::uintptr_t indptr, std::uintptr_t index,
+                                      std::uintptr_t data, std::uintptr_t clusters,
+                                      std::uintptr_t g, int rows, int ncls) {
+  dim3 block(32);
+  dim3 grid((rows + block.x - 1) / block.x);
+  mean_sparse_kernel<T>
+      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+                        reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
+                        reinterpret_cast<T*>(g), rows, ncls);
+}
+
+template <typename T>
+static inline void launch_elementwise_diff(std::uintptr_t g, std::uintptr_t total_counts,
+                                           int n_genes, int n_clusters) {
+  dim3 block(32, 32);
+  dim3 grid((n_genes + block.x - 1) / block.x, (n_clusters + block.y - 1) / block.y);
+  elementwise_diff_kernel<T><<<grid, block>>>(
+      reinterpret_cast<T*>(g), reinterpret_cast<const T*>(total_counts), n_genes, n_clusters);
+}
+
+template <typename T>
+static inline void launch_interaction(std::uintptr_t interactions,
+                                      std::uintptr_t interaction_clusters, std::uintptr_t mean,
+                                      std::uintptr_t res, std::uintptr_t mask, std::uintptr_t g,
+                                      int n_iter, int n_inter_clust, int ncls) {
+  dim3 block(32, 32);
+  dim3 grid((n_iter + block.x - 1) / block.x, (n_inter_clust + block.y - 1) / block.y);
+  interaction_kernel<T><<<grid, block>>>(
+      reinterpret_cast<const int*>(interactions),
+      reinterpret_cast<const int*>(interaction_clusters), reinterpret_cast<const T*>(mean),
+      reinterpret_cast<T*>(res), reinterpret_cast<const bool*>(mask), reinterpret_cast<const T*>(g),
+      n_iter, n_inter_clust, ncls);
+}
+
+template <typename T>
+static inline void launch_res_mean(std::uintptr_t interactions, std::uintptr_t interaction_clusters,
+                                   std::uintptr_t mean, std::uintptr_t res_mean, int n_inter,
+                                   int n_inter_clust, int ncls) {
+  dim3 block(32, 32);
+  dim3 grid((n_inter + block.x - 1) / block.x, (n_inter_clust + block.y - 1) / block.y);
+  res_mean_kernel<T><<<grid, block>>>(reinterpret_cast<const int*>(interactions),
+                                      reinterpret_cast<const int*>(interaction_clusters),
+                                      reinterpret_cast<const T*>(mean),
+                                      reinterpret_cast<T*>(res_mean), n_inter, n_inter_clust, ncls);
+}
+
+NB_MODULE(_ligrec_cuda, m) {
+  m.def("sum_count_dense", [](std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t sum,
+                              std::uintptr_t count, int rows, int cols, int ncls, int itemsize) {
+    if (itemsize == 4) {
+      launch_sum_count_dense<float>(data, clusters, sum, count, rows, cols, ncls);
+    } else if (itemsize == 8) {
+      launch_sum_count_dense<double>(data, clusters, sum, count, rows, cols, ncls);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("sum_count_sparse", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+                               std::uintptr_t clusters, std::uintptr_t sum, std::uintptr_t count,
+                               int rows, int ncls, int itemsize) {
+    if (itemsize == 4) {
+      launch_sum_count_sparse<float>(indptr, index, data, clusters, sum, count, rows, ncls);
+    } else if (itemsize == 8) {
+      launch_sum_count_sparse<double>(indptr, index, data, clusters, sum, count, rows, ncls);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("mean_dense", [](std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t g, int rows,
+                         int cols, int ncls, int itemsize) {
+    if (itemsize == 4) {
+      launch_mean_dense<float>(data, clusters, g, rows, cols, ncls);
+    } else if (itemsize == 8) {
+      launch_mean_dense<double>(data, clusters, g, rows, cols, ncls);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("mean_sparse",
+        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+           std::uintptr_t clusters, std::uintptr_t g, int rows, int ncls, int itemsize) {
+          if (itemsize == 4) {
+            launch_mean_sparse<float>(indptr, index, data, clusters, g, rows, ncls);
+          } else if (itemsize == 8) {
+            launch_mean_sparse<double>(indptr, index, data, clusters, g, rows, ncls);
+          } else {
+            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+          }
+        });
+
+  m.def("elementwise_diff", [](std::uintptr_t g, std::uintptr_t total_counts, int n_genes,
+                               int n_clusters, int itemsize) {
+    if (itemsize == 4) {
+      launch_elementwise_diff<float>(g, total_counts, n_genes, n_clusters);
+    } else if (itemsize == 8) {
+      launch_elementwise_diff<double>(g, total_counts, n_genes, n_clusters);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("interaction", [](std::uintptr_t interactions, std::uintptr_t interaction_clusters,
+                          std::uintptr_t mean, std::uintptr_t res, std::uintptr_t mask,
+                          std::uintptr_t g, int n_iter, int n_inter_clust, int ncls, int itemsize) {
+    if (itemsize == 4) {
+      launch_interaction<float>(interactions, interaction_clusters, mean, res, mask, g, n_iter,
+                                n_inter_clust, ncls);
+    } else if (itemsize == 8) {
+      launch_interaction<double>(interactions, interaction_clusters, mean, res, mask, g, n_iter,
+                                 n_inter_clust, ncls);
+    } else {
+      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+    }
+  });
+
+  m.def("res_mean",
+        [](std::uintptr_t interactions, std::uintptr_t interaction_clusters, std::uintptr_t mean,
+           std::uintptr_t res_mean, int n_inter, int n_inter_clust, int ncls, int itemsize) {
+          if (itemsize == 4) {
+            launch_res_mean<float>(interactions, interaction_clusters, mean, res_mean, n_inter,
+                                   n_inter_clust, ncls);
+          } else if (itemsize == 8) {
+            launch_res_mean<double>(interactions, interaction_clusters, mean, res_mean, n_inter,
+                                    n_inter_clust, ncls);
+          } else {
+            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+          }
+        });
+}
diff --git a/src/rapids_singlecell/squidpy_gpu/_ligrec.py b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
index 1a53104a..0651078e 100644
--- a/src/rapids_singlecell/squidpy_gpu/_ligrec.py
+++ b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-import math
 from collections.abc import Iterable, Mapping, Sequence
 from itertools import product
 from typing import (
@@ -459,103 +458,39 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
     # Calculate the total counts per cluster
     total_counts = cp.bincount(clusters)
 
+    from rapids_singlecell._cuda import _ligrec_cuda as _lc
+
     if not cpissparse(data_cp):
         sum_gt0 = cp.zeros((data_cp.shape[1], n_clusters), dtype=cp.float32)
         count_gt0 = cp.zeros((data_cp.shape[1], n_clusters), dtype=cp.int32)
 
-        kernel = cp.RawKernel(
-            r"""
-        extern "C" __global__
-        void calculate_sum_and_count_gt02(const float* data, const int* clusters,
-                                        float* sum_gt0, int* count_gt0,
-                                        const int num_rows, const int num_cols, const int n_cls) {
-            int i = blockIdx.x * blockDim.x + threadIdx.x;
-            int j = blockIdx.y * blockDim.y + threadIdx.y;
-
-            if (i >= num_rows || j >= num_cols) {
-                return;
-            }
-
-            int cluster = clusters[i];
-            float value = data[i * num_cols + j];
-
-            if (value>0.0){
-                atomicAdd(&sum_gt0[j * n_cls + cluster], value);
-                atomicAdd(&count_gt0[j * n_cls + cluster], 1);
-            }
-        }
-        """,
-            "calculate_sum_and_count_gt02",
-        )
-
-        block = (32, 32)
-        grid = (
-            int(math.ceil(data_cp.shape[0] / block[0])),
-            int(math.ceil(data_cp.shape[1] / block[1])),
-        )
-        kernel(
-            grid,
-            block,
-            (
-                data_cp,
-                clusters,
-                sum_gt0,
-                count_gt0,
-                data_cp.shape[0],
-                data_cp.shape[1],
-                n_clusters,
-            ),
+        _lc.sum_count_dense(
+            data_cp.data.ptr,
+            clusters.data.ptr,
+            sum_gt0.data.ptr,
+            count_gt0.data.ptr,
+            int(data_cp.shape[0]),
+            int(data_cp.shape[1]),
+            int(n_clusters),
+            int(cp.dtype(data_cp.dtype).itemsize),
         )
 
         mean_cp = sum_gt0 / total_counts
         mask_cp = count_gt0 / total_counts >= threshold
         del sum_gt0, count_gt0
     else:
-        sparse_kernel = cp.RawKernel(
-            r"""
-        extern "C" __global__
-        void calculate_sum_and_count_sparse(const int *indptr,const int *index,const float *data,
-                                            const int* clusters,float* sum_gt0, int* count_gt0,
-                                            int nrows, int n_cls) {
-            int cell = blockDim.x * blockIdx.x + threadIdx.x;
-            if(cell >= nrows){
-                return;
-            }
-            int start_idx = indptr[cell];
-            int stop_idx = indptr[cell+1];
-            int cluster = clusters[cell];
-            for(int gene = start_idx; gene < stop_idx; gene++){
-                float value = data[gene];
-                int gene_number = index[gene];
-
-                if (value>0.0){
-                    atomicAdd(&sum_gt0[gene_number * n_cls + cluster], value);
-                    atomicAdd(&count_gt0[gene_number * n_cls + cluster], 1);
-
-                }
-            }
-        }
-        """,
-            "calculate_sum_and_count_sparse",
-        )
-
         sum_gt0 = cp.zeros((data_cp.shape[1], n_clusters), dtype=cp.float32, order="C")
         count_gt0 = cp.zeros((data_cp.shape[1], n_clusters), dtype=cp.int32, order="C")
-        block_sparse = (32,)
-        grid_sparse = (int(math.ceil(data_cp.shape[0] / block_sparse[0])),)
-        sparse_kernel(
-            grid_sparse,
-            block_sparse,
-            (
-                data_cp.indptr,
-                data_cp.indices,
-                data_cp.data,
-                clusters,
-                sum_gt0,
-                count_gt0,
-                data_cp.shape[0],
-                n_clusters,
-            ),
+        _lc.sum_count_sparse(
+            data_cp.indptr.data.ptr,
+            data_cp.indices.data.ptr,
+            data_cp.data.data.ptr,
+            clusters.data.ptr,
+            sum_gt0.data.ptr,
+            count_gt0.data.ptr,
+            int(data_cp.shape[0]),
+            int(n_clusters),
+            int(cp.dtype(data_cp.dtype).itemsize),
         )
         mean_cp = sum_gt0 / total_counts
         mask_cp = count_gt0 / total_counts >= threshold
@@ -566,132 +501,9 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
     clustering_use = clusters.copy()
     n_cls = mean_cp.shape[1]
 
-    mean_kernel = cp.RawKernel(
-        r"""
-    extern "C" __global__
-    void mean_kernel(const float* data, const int* clusters,
-                                    float* g_cluster,
-                                    const int num_rows, const int num_cols, const int n_cls) {
-        int i = blockIdx.x * blockDim.x + threadIdx.x;
-        int j = blockIdx.y * blockDim.y + threadIdx.y;
-
-        if (i >= num_rows || j >= num_cols) {
-            return;
-        }
-
-        //int cluster = clusters[i];
-        //float value = data[i * num_cols + j];
-
-        atomicAdd(&g_cluster[j * n_cls + clusters[i]], data[i * num_cols + j]);
-    }
-    """,
-        "mean_kernel",
-    )
-
-    mean_kernel_sparse = cp.RawKernel(
-        r"""
-        extern "C" __global__
-        void mean_kernel_sparse(const int *indptr,const int *index,const float *data,
-                                            const int* clusters,float* sum_gt0,
-                                            int nrows, int n_cls) {
-            int cell = blockDim.x * blockIdx.x + threadIdx.x;
-            if(cell >= nrows){
-                return;
-            }
-            int start_idx = indptr[cell];
-            int stop_idx = indptr[cell+1];
-            int cluster = clusters[cell];
-            for(int gene = start_idx; gene < stop_idx; gene++){
-                float value = data[gene];
-                int gene_number = index[gene];
-
-                if (value>0.0){
-                    atomicAdd(&sum_gt0[gene_number * n_cls + cluster], value);
-
-                }
-            }
-        }
-        """,
-        "mean_kernel_sparse",
-    )
-
-    elementwise_diff = cp.RawKernel(
-        r"""
-    extern "C" __global__
-    void elementwise_diff( float* g_cluster,
-                        const float* total_counts,
-                        const int num_genes, const int num_clusters) {
-        int i = blockIdx.x * blockDim.x + threadIdx.x;
-        int j = blockIdx.y * blockDim.y + threadIdx.y;
-
-        if (i >= num_genes || j >= num_clusters) {
-            return;
-        }
-        g_cluster[i * num_clusters + j] = g_cluster[i * num_clusters + j]/total_counts[j];
-    }
-    """,
-        "elementwise_diff",
-    )
-
-    interaction_kernel = cp.RawKernel(
-        r"""
-    extern "C" __global__
-    void interaction_kernel( const int* interactions,
-                            const int* interaction_clusters,
-                            const float* mean,
-                            float* res,
-                            const bool * mask,
-                            const float* g,
-                            const int n_iter, const int n_inter_clust, const int n_cls) {
-        int i = blockIdx.x * blockDim.x + threadIdx.x;
-        int j = blockIdx.y * blockDim.y + threadIdx.y;
-
-        if (i >= n_iter || j >= n_inter_clust) {
-            return;
-        }
-        int rec = interactions[i*2];
-        int lig = interactions[i*2+1];
-
-        int c1 = interaction_clusters[j*2];
-        int c2 = interaction_clusters[j*2+1];
-
-        float m1 = mean[rec* n_cls+ c1];
-        float m2 = mean[lig* n_cls+ c2];
-
-        if (!isnan(res[i*n_inter_clust  + j])) {
-            if (m1 > 0 && m2 > 0) {
-                if (mask[rec*n_cls + c1 ] && mask[lig*n_cls + c2]) {
-                    float g_sum = g[rec*n_cls + c1 ] + g[lig *n_cls+ c2 ];
-                    res[i*n_inter_clust  + j] += (g_sum > (m1 + m2));
-                } else {
-                    res[i*n_inter_clust  + j] = nan("");
-                }
-            } else {
-                res[i*n_inter_clust  + j] = nan("");
-            }
-        }
-    }
-    """,
-        "interaction_kernel",
-    )
-
-    block_shuffle = (32, 32)
-    block = (32, 32)
-    grid_shuffle = (
-        int(math.ceil(data_cp.shape[0] / block_shuffle[0])),
-        int(math.ceil(data_cp.shape[1] / block_shuffle[1])),
-    )
     interactions_ = interactions_.astype(cp.int32, order="C")
     mean_cp = mean_cp.astype(cp.float32, order="C")
     mask_cp = mask_cp.astype(cp.bool_, order="C")
-    grid_inter = (
-        int(math.ceil(len(interactions_) / block[0])),
-        int(math.ceil(len(interaction_clusters) / block[1])),
-    )
-    grid_element = (
-        int(math.ceil(data_cp.shape[1] / block[0])),
-        int(math.ceil(n_cls) / block[1]),
-    )
     total_counts = total_counts.astype(cp.float32)
     res = cp.zeros(
         (len(interactions_), len(interaction_clusters)), dtype=np.float32, order="C"
@@ -700,118 +512,82 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
         for _i in range(n_perms):
             cp.random.shuffle(clustering_use)
             g = cp.zeros((data_cp.shape[1], n_cls), dtype=cp.float32, order="C")
-            mean_kernel_sparse(
-                grid_sparse,
-                block_sparse,
-                (
-                    data_cp.indptr,
-                    data_cp.indices,
-                    data_cp.data,
-                    clustering_use,
-                    g,
-                    data_cp.shape[0],
-                    n_clusters,
-                ),
+            _lc.mean_sparse(
+                data_cp.indptr.data.ptr,
+                data_cp.indices.data.ptr,
+                data_cp.data.data.ptr,
+                clustering_use.data.ptr,
+                g.data.ptr,
+                int(data_cp.shape[0]),
+                int(n_clusters),
+                int(cp.dtype(data_cp.dtype).itemsize),
             )
 
-            g = g.astype(cp.float32, order="C")
-            elementwise_diff(
-                grid_element, block, (g, total_counts, data_cp.shape[1], n_cls)
+            _lc.elementwise_diff(
+                g.data.ptr,
+                total_counts.data.ptr,
+                int(data_cp.shape[1]),
+                int(n_cls),
+                int(cp.dtype(g.dtype).itemsize),
             )
-            g = g.astype(cp.float32, order="C")
-            interaction_kernel(
-                grid_inter,
-                block,
-                (
-                    interactions_,
-                    interaction_clusters,
-                    mean_cp,
-                    res,
-                    mask_cp,
-                    g,
-                    len(interactions_),
-                    len(interaction_clusters),
-                    n_cls,
-                ),
+            _lc.interaction(
+                interactions_.data.ptr,
+                interaction_clusters.data.ptr,
+                mean_cp.data.ptr,
+                res.data.ptr,
+                mask_cp.data.ptr,
+                g.data.ptr,
+                int(len(interactions_)),
+                int(len(interaction_clusters)),
+                int(n_cls),
+                int(cp.dtype(mean_cp.dtype).itemsize),
             )
     else:
         for _i in range(n_perms):
             cp.random.shuffle(clustering_use)
             g = cp.zeros((data_cp.shape[1], n_cls), dtype=cp.float32, order="C")
-            mean_kernel(
-                grid_shuffle,
-                block,
-                (data_cp, clustering_use, g, data_cp.shape[0], data_cp.shape[1], n_cls),
+            _lc.mean_dense(
+                data_cp.data.ptr,
+                clustering_use.data.ptr,
+                g.data.ptr,
+                int(data_cp.shape[0]),
+                int(data_cp.shape[1]),
+                int(n_cls),
+                int(cp.dtype(data_cp.dtype).itemsize),
             )
-            g = g.astype(cp.float32, order="C")
-            elementwise_diff(
-                grid_element, block, (g, total_counts, data_cp.shape[1], n_cls)
+            _lc.elementwise_diff(
+                g.data.ptr,
+                total_counts.data.ptr,
+                int(data_cp.shape[1]),
+                int(n_cls),
+                int(cp.dtype(g.dtype).itemsize),
             )
-            g = g.astype(cp.float32, order="C")
-            interaction_kernel(
-                grid_inter,
-                block,
-                (
-                    interactions_,
-                    interaction_clusters,
-                    mean_cp,
-                    res,
-                    mask_cp,
-                    g,
-                    len(interactions_),
-                    len(interaction_clusters),
-                    n_cls,
-                ),
+            _lc.interaction(
+                interactions_.data.ptr,
+                interaction_clusters.data.ptr,
+                mean_cp.data.ptr,
+                res.data.ptr,
+                mask_cp.data.ptr,
+                g.data.ptr,
+                int(len(interactions_)),
+                int(len(interaction_clusters)),
+                int(n_cls),
+                int(cp.dtype(mean_cp.dtype).itemsize),
             )
 
-    res_mean_kernel = cp.RawKernel(
-        r"""
-    extern "C" __global__
-    void res_mean_kernel( const int* interactions,
-                            const int* interaction_clusters,
-                            const float* mean,
-                            float* res_mean,
-                            const int n_inter, const int n_inter_clust, const int n_cls) {
-        int i = blockIdx.x * blockDim.x + threadIdx.x;
-        int j = blockIdx.y * blockDim.y + threadIdx.y;
-
-        if (i >= n_inter || j >= n_inter_clust) {
-            return;
-        }
-        int rec = interactions[i*2];
-        int lig = interactions[i*2+1];
-
-        int c1 = interaction_clusters[j*2];
-        int c2 = interaction_clusters[j*2+1];
-
-        float m1 = mean[rec* n_cls+ c1];
-        float m2 = mean[lig* n_cls+ c2];
-
-
-        if (m1 > 0 && m2 > 0) {
-            res_mean[i*n_inter_clust  + j] = (m1 + m2) / 2.0;
-        }
-    }
-    """,
-        "res_mean_kernel",
-    )
-
     res_mean = cp.zeros(
         (len(interactions_), len(interaction_clusters)), dtype=np.float32, order="C"
     )
 
-    res_mean_kernel(
-        grid_inter,
-        block,
-        (
-            interactions_,
-            interaction_clusters,
-            mean_cp,
-            res_mean,
-            len(interactions_),
-            len(interaction_clusters),
-            n_cls,
-        ),
+    _lc.res_mean(
+        interactions_.data.ptr,
+        interaction_clusters.data.ptr,
+        mean_cp.data.ptr,
+        res_mean.data.ptr,
+        int(len(interactions_)),
+        int(len(interaction_clusters)),
+        int(n_cls),
+        int(cp.dtype(mean_cp.dtype).itemsize),
     )
 
     res_mean = res_mean.get()

From 20cf11ec05f3df0d713cb1fbff7de89823f94a9c Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 12:31:22 +0200
Subject: [PATCH 37/54] move decoupler

---
 CMakeLists.txt                                |  1 +
 src/rapids_singlecell/_cuda/pv/kernels_pv.cuh | 21 +++++
 src/rapids_singlecell/_cuda/pv/pv.cu          | 20 +++++
 .../decoupler_gpu/_helper/_pv.py              | 43 +++-------
 .../tools/_kernels/_nan_mean_kernels.py       | 84 -------------------
 5 files changed, 53 insertions(+), 116 deletions(-)
 create mode 100644 src/rapids_singlecell/_cuda/pv/kernels_pv.cuh
 create mode 100644 src/rapids_singlecell/_cuda/pv/pv.cu
 delete mode 100644 src/rapids_singlecell/tools/_kernels/_nan_mean_kernels.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 6b9484a8..85d9ea87 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -56,6 +56,7 @@ if (RSC_BUILD_EXTENSIONS)
   add_nb_cuda_module(_aggr_cuda         src/rapids_singlecell/_cuda/aggr/aggr.cu)
   add_nb_cuda_module(_spca_cuda         src/rapids_singlecell/_cuda/spca/spca.cu)
   add_nb_cuda_module(_ligrec_cuda       src/rapids_singlecell/_cuda/ligrec/ligrec.cu)
+  add_nb_cuda_module(_pv_cuda           src/rapids_singlecell/_cuda/pv/pv.cu)
   # Harmony CUDA modules
   add_nb_cuda_module(_harmony_scatter_cuda   src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu)
   add_nb_cuda_module(_harmony_outer_cuda     src/rapids_singlecell/_cuda/harmony/outer/outer.cu)
diff --git a/src/rapids_singlecell/_cuda/pv/kernels_pv.cuh b/src/rapids_singlecell/_cuda/pv/kernels_pv.cuh
new file mode 100644
index 00000000..a5c8e506
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/pv/kernels_pv.cuh
@@ -0,0 +1,21 @@
+#pragma once
+
+#include <cuda_runtime.h>
+
+__global__ void rev_cummin64_kernel(const double* __restrict__ x, double* __restrict__ y,
+                                    int n_rows, int m) {
+  int r = blockDim.x * blockIdx.x + threadIdx.x;
+  if (r >= n_rows) return;
+
+  const double* xr = x + (size_t)r * m;
+  double* yr = y + (size_t)r * m;
+
+  double cur = xr[m - 1];
+  yr[m - 1] = cur;
+
+  for (int j = m - 2; j >= 0; --j) {
+    double v = xr[j];
+    cur = (v < cur) ? v : cur;
+    yr[j] = cur;
+  }
+}
diff --git a/src/rapids_singlecell/_cuda/pv/pv.cu b/src/rapids_singlecell/_cuda/pv/pv.cu
new file mode 100644
index 00000000..f5064d24
--- /dev/null
+++ b/src/rapids_singlecell/_cuda/pv/pv.cu
@@ -0,0 +1,20 @@
+#include <cuda_runtime.h>
+#include <nanobind/nanobind.h>
+#include <cstdint>
+
+#include "kernels_pv.cuh"
+
+namespace nb = nanobind;
+
+static inline void launch_rev_cummin64(std::uintptr_t x, std::uintptr_t y, int n_rows, int m) {
+  dim3 block(256);
+  dim3 grid((unsigned)((n_rows + block.x - 1) / block.x));
+  rev_cummin64_kernel<<<grid, block>>>(reinterpret_cast<const double*>(x),
+                                       reinterpret_cast<double*>(y), n_rows, m);
+}
+
+NB_MODULE(_pv_cuda, m) {
+  m.def("rev_cummin64", [](std::uintptr_t x, std::uintptr_t y, int n_rows, int m) {
+    launch_rev_cummin64(x, y, n_rows, m);
+  });
+}
diff --git a/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py b/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py
index 08180a75..33c90083 100644
--- a/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py
+++ b/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py
@@ -1,37 +1,19 @@
 from __future__ import annotations
 
+try:
+    from rapids_singlecell._cuda import _pv_cuda as _pv
+except ImportError:
+    _pv = None
 import cupy as cp
 import numba as nb
 import numpy as np
 
-# Reverse cumulative min along the last axis, per row (float64)
-_rev_cummin64 = cp.RawKernel(
-    r"""
-extern "C" __global__
-void rev_cummin64(const double* __restrict__ x,
-                  double* __restrict__ y,
-                  const int n_rows,
-                  const int m)
-{
-    int r = blockDim.x * blockIdx.x + threadIdx.x;
-    if (r >= n_rows) return;
-
-    const double* xr = x + (size_t)r * m;
-    double* yr       = y + (size_t)r * m;
-
-    double cur = xr[m - 1];
-    yr[m - 1] = cur;
-
-    // right -> left
-    for (int j = m - 2; j >= 0; --j) {
-        double v = xr[j];
-        cur = (v < cur) ? v : cur;
-        yr[j] = cur;
-    }
-}
-""",
-    "rev_cummin64",
-)
+
+def _rev_cummin64(x, n_rows, m):
+    y = cp.empty_like(x)
+
+    _pv.rev_cummin64(x.data.ptr, y.data.ptr, int(n_rows), int(m))
+    return y
 
 
 def fdr_bh_axis1_cupy_optimized(ps, *, mem_gb: float = 4.0) -> cp.ndarray:
@@ -78,7 +60,6 @@ def fdr_bh_axis1_cupy_optimized(ps, *, mem_gb: float = 4.0) -> cp.ndarray:
 
     out = cp.empty_like(ps, dtype=cp.float64)
 
-    threads = 256  # for the rev_cummin kernel
     for s in range(0, n_rows, B):
         e = min(n_rows, s + B)
         R = e - s
@@ -97,9 +78,7 @@ def fdr_bh_axis1_cupy_optimized(ps, *, mem_gb: float = 4.0) -> cp.ndarray:
         ps_bh = ps_sorted * scale  # (R, m) float64
 
         # 4) reverse cumulative min via custom kernel
-        ps_mon = cp.empty_like(ps_bh)
-        blocks = (R + threads - 1) // threads
-        _rev_cummin64((blocks,), (threads,), (ps_bh, ps_mon, R, m))
+        ps_mon = _rev_cummin64(ps_bh, R, m)
 
         # 5) build inverse permutation without argsort (scatter)
         inv_order = cp.empty_like(order, dtype=cp.int32)  # (R, m) int32
diff --git a/src/rapids_singlecell/tools/_kernels/_nan_mean_kernels.py b/src/rapids_singlecell/tools/_kernels/_nan_mean_kernels.py
deleted file mode 100644
index 92f4e243..00000000
--- a/src/rapids_singlecell/tools/_kernels/_nan_mean_kernels.py
+++ /dev/null
@@ -1,84 +0,0 @@
-from __future__ import annotations
-
-from cuml.common.kernel_utils import cuda_kernel_factory
-
-_get_nan_mean_major_kernel = r"""
-        (const int *indptr,const int *index,const {0} *data,
-            double* means,int* nans, bool* mask,
-            int major, int minor) {
-        int major_idx = blockIdx.x;
-        if(major_idx >= major){
-            return;
-        }
-        int start_idx = indptr[major_idx];
-        int stop_idx = indptr[major_idx+1];
-
-        __shared__ double mean_place[64];
-        __shared__ int nan_place[64];
-
-        mean_place[threadIdx.x] = 0.0;
-        nan_place[threadIdx.x] = 0;
-        __syncthreads();
-
-        for(int minor_idx = start_idx+threadIdx.x; minor_idx < stop_idx; minor_idx+= blockDim.x){
-            int gene_number = index[minor_idx];
-            if (mask[gene_number]==true){
-                if(isnan(data[minor_idx])){
-                    nan_place[threadIdx.x] += 1;
-                }
-                else{
-                    double value = (double) data[minor_idx];
-                    mean_place[threadIdx.x] += value;
-                }
-            }
-        }
-        __syncthreads();
-
-        for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
-            if (threadIdx.x < s) {
-                mean_place[threadIdx.x] += mean_place[threadIdx.x + s];
-                nan_place[threadIdx.x] += nan_place[threadIdx.x + s];
-            }
-            __syncthreads(); // Synchronize at each step of the reduction
-        }
-        if (threadIdx.x == 0) {
-            means[major_idx] = mean_place[threadIdx.x];
-            nans[major_idx] = nan_place[threadIdx.x];
-        }
-
-        }
-"""
-
-_get_nan_mean_minor_kernel = r"""
-        (const int *index,const {0} *data,
-            double* means, int* nans, bool* mask, int nnz) {
-        int idx = blockIdx.x * blockDim.x + threadIdx.x;
-
-        if (idx >= nnz) {
-            return;
-        }
-        int minor_pos = index[idx];
-        if (mask[minor_pos] == false) {
-            return;
-        }
-        if(isnan(data[idx])){
-            atomicAdd(&nans[minor_pos], 1);
-            }
-        else{
-            double value = (double) data[idx];
-            atomicAdd(&means[minor_pos], value);
-        }
-        }
-    """
-
-
-def _get_nan_mean_major(dtype):
-    return cuda_kernel_factory(
-        _get_nan_mean_major_kernel, (dtype,), "_get_nan_mean_major_kernel"
-    )
-
-
-def _get_nan_mean_minor(dtype):
-    return cuda_kernel_factory(
-        _get_nan_mean_minor_kernel, (dtype,), "_get_nan_mean_minor_kernel"
-    )

From 134d2e0c1719b248d1bdd2653c9f5138f0a89d78 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 12:32:07 +0200
Subject: [PATCH 38/54] remove rawkernels

---
 .../squidpy_gpu/kernels/_co_oc.py             | 409 ------------------
 1 file changed, 409 deletions(-)
 delete mode 100644 src/rapids_singlecell/squidpy_gpu/kernels/_co_oc.py

diff --git a/src/rapids_singlecell/squidpy_gpu/kernels/_co_oc.py b/src/rapids_singlecell/squidpy_gpu/kernels/_co_oc.py
deleted file mode 100644
index ae3f7d58..00000000
--- a/src/rapids_singlecell/squidpy_gpu/kernels/_co_oc.py
+++ /dev/null
@@ -1,409 +0,0 @@
-from __future__ import annotations
-
-import cupy as cp
-
-kernel_code_pairwise = r"""
-extern "C" __global__
-void occur_count_kernel_pairwise(const float* __restrict__ spatial,
-                        const float* __restrict__ thresholds,
-                        const int* __restrict__ label_idx,
-                        int* __restrict__ result,
-                        int n,
-                        int k,
-                        int l_val)
-{
-    int i = blockIdx.x;  // grid is 1D over n*n
-    int s = i % 2;
-    if (i >= n)
-        return;
-    int offset = (i % 4 < 2) ? 0 : l_val;
-    float spx = spatial[i * 2];
-    float spy = spatial[i * 2 + 1];
-    int label_i = label_idx[i];
-
-    for (int j = i + 1; j < n; j++) {
-        float dx = spx - spatial[j * 2];
-        float dy = spy - spatial[j * 2 + 1];
-        float dist_sq = dx * dx + dy * dy;
-
-        // Get labels for both points
-        int low = label_i;
-        int high = label_idx[j];
-
-        // Sort labels if needed
-        if (high < low) {
-            int tmp = low;
-            low = high;
-            high = tmp;
-        }
-
-        // Swap based on s flag
-        if (s == 0) {
-            int tmp = low;
-            low = high;
-            high = tmp;
-        }
-
-        // Process each threshold in parallel within the block
-        for (int r = threadIdx.x; r < l_val; r += blockDim.x) {
-            if (dist_sq <= thresholds[r]) {
-                int index = low * (k * l_val * 2) + high * l_val * 2 + r + offset;
-                atomicAdd(&result[index], 1);
-            }
-        }
-    }
-}
-"""
-occur_count_kernel_pairwise = cp.RawKernel(
-    kernel_code_pairwise, "occur_count_kernel_pairwise"
-)
-
-
-occur_reduction_kernel_code_shared = r"""
-extern "C" __global__
-void occur_reduction_kernel_shared(const int* __restrict__ result,
-                            float* __restrict__ out,
-                            int k,
-                            int l_val,
-                            int format)
-{
-    // Each block handles one threshold index.
-    int r_th = blockIdx.x;  // threshold index
-
-    // Shared memory allocation
-    extern __shared__ float shared[];
-    float* Y = shared;
-    float* col_sum = shared + (k * k);
-
-    int total_elements = k * k;
-
-    // Initialize shared memory
-    for (int i = threadIdx.x; i < total_elements; i += blockDim.x) {
-        Y[i] = 0.0f;
-    }
-    __syncthreads();
-
-    // --- Load counts for this threshold and convert to float---
-    if (format == 0){
-        for (int i = threadIdx.x; i < k; i += blockDim.x){
-            for (int j = 0; j<k;j++){
-                Y[i * k + j] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th]);
-                Y[j * k + i] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th]);
-                Y[i * k + j] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th+l_val]);
-                Y[j * k + i] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th+l_val]);
-            }
-        }
-    }
-    else{
-        for (int i = threadIdx.x; i < k; i += blockDim.x){
-            for (int j = 0; j<k;j++){
-                float v = float(result[i * (k * l_val) + j * l_val + r_th]);
-                Y[i * k + j] += v;
-                Y[j * k + i] += v;
-            }
-        }
-    }
-    __syncthreads();
-
-    // Compute total sum of the counts
-    __shared__ float total;
-    float sum_val = 0.0f;
-    for (int idx = threadIdx.x; idx < k * k; idx += blockDim.x) {
-        sum_val += Y[idx];
-    }
-
-    // Warp-level reduction
-    unsigned int mask = 0xFFFFFFFF;  // full warp mask
-    for (int offset = warpSize / 2; offset > 0; offset /= 2) {
-        sum_val += __shfl_down_sync(mask, sum_val, offset);
-    }
-
-    if (threadIdx.x == 0) {
-        total = sum_val;
-    }
-    __syncthreads();
-
-    // Normalize the matrix Y = Y / total (if total > 0)
-    if (total > 0.0f) {
-        for (int idx = threadIdx.x; idx < total_elements; idx += blockDim.x) {
-            Y[idx] = Y[idx] / total;
-        }
-    } else {
-        for (int i = threadIdx.x; i < k; i += blockDim.x) {
-            for (int j = 0; j < k; j++) {
-                out[i * (k * l_val) + j * l_val + r_th] = 0.0f;
-            }
-        }
-        return;
-    }
-    __syncthreads();
-
-    // Compute column sums of the normalized matrix
-    for (int j = threadIdx.x; j < k; j += blockDim.x) {
-        float sum_col = 0.0f;
-        for (int i = 0; i < k; i++) {
-            sum_col += Y[i * k + j];
-        }
-        col_sum[j] = sum_col;
-    }
-    __syncthreads();
-
-    // Compute conditional probabilities
-    for (int i = threadIdx.x; i < k; i += blockDim.x) {
-        float row_sum = 0.0f;
-        for (int j = 0; j < k; j++) {
-            row_sum += Y[i * k + j];
-        }
-
-        for (int j = 0; j < k; j++) {
-            float cond = 0.0f;
-            if (row_sum != 0.0f) {
-                cond = Y[i * k + j] / row_sum;
-            }
-
-            float final_val = 0.0f;
-            if (col_sum[j] != 0.0f) {
-                final_val = cond / col_sum[j];
-            }
-
-            // Write to output with (row, column, threshold) ordering
-            out[i * (k * l_val) + j * l_val + r_th] = final_val;
-        }
-    }
-    __syncthreads();
-}
-"""
-occur_reduction_kernel_shared = cp.RawKernel(
-    occur_reduction_kernel_code_shared, "occur_reduction_kernel_shared"
-)
-
-occur_reduction_kernel_code_global = r"""
-extern "C" __global__
-void occur_reduction_kernel_global(const int* __restrict__ result,
-                            float* __restrict__ inter_out,
-                            float* __restrict__ out,
-                            int k,
-                            int l_val,
-                            int format)
-{
-    // Each block handles one threshold index.
-    int r_th = blockIdx.x;  // threshold index
-    if (r_th >= l_val)
-        return;
-    // Shared memory allocation
-    extern __shared__ float shared[];
-    float* Y = inter_out + r_th*k*k;
-    float* col_sum = shared;
-
-    int total_elements = k * k;
-
-    // --- Load counts for this threshold and convert to float---
-    if (format == 0){
-        for (int i = threadIdx.x; i < k; i += blockDim.x){
-            for (int j = 0; j<k;j++){
-                Y[i * k + j] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th]);
-                Y[j * k + i] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th]);
-                Y[i * k + j] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th+l_val]);
-                Y[j * k + i] += float(result[i * (k * l_val*2) + j * l_val*2 + r_th+l_val]);
-            }
-        }
-    }
-    else{
-        for (int i = threadIdx.x; i < k; i += blockDim.x){
-            for (int j = 0; j<k;j++){
-                float v = float(result[i * (k * l_val) + j * l_val + r_th]);
-                Y[i * k + j] += v;
-                Y[j * k + i] += v;
-            }
-        }
-    }
-    __syncthreads();
-
-    // Compute total sum of the counts
-    __shared__ float total;
-    float sum_val = 0.0f;
-    for (int idx = threadIdx.x; idx < total_elements; idx += blockDim.x) {
-        sum_val += Y[idx];
-    }
-    __syncthreads();
-    // Warp-level reduction
-    unsigned int mask = 0xFFFFFFFF;  // full warp mask
-    for (int offset = warpSize / 2; offset > 0; offset /= 2) {
-        sum_val += __shfl_down_sync(mask, sum_val, offset);
-    }
-    __syncthreads();
-    if (threadIdx.x == 0) {
-        total = sum_val;
-    }
-    __syncthreads();
-
-    // Normalize the matrix Y = Y / total (if total > 0)
-    if (total > 0.0f) {
-        for (int idx = threadIdx.x; idx < total_elements; idx += blockDim.x) {
-            Y[idx] = Y[idx] / total;
-        }
-    } else {
-        for (int i = threadIdx.x; i < k; i += blockDim.x) {
-            for (int j = 0; j < k; j++) {
-                out[i * (k * l_val) + j * l_val + r_th] = 0.0f;
-            }
-        }
-        return;
-    }
-    __syncthreads();
-
-    // Compute column sums of the normalized matrix
-    for (int j = threadIdx.x; j < k; j += blockDim.x) {
-        float sum_col = 0.0f;
-        for (int i = 0; i < k; i++) {
-            sum_col += Y[i * k + j];
-        }
-        col_sum[j] = sum_col;
-    }
-    __syncthreads();
-
-    // Compute conditional probabilities
-    for (int i = threadIdx.x; i < k; i += blockDim.x) {
-        float row_sum = 0.0f;
-        for (int j = 0; j < k; j++) {
-            row_sum += Y[i * k + j];
-        }
-
-        for (int j = 0; j < k; j++) {
-            float cond = 0.0f;
-            if (row_sum != 0.0f) {
-                cond = Y[i * k + j] / row_sum;
-            }
-
-            float final_val = 0.0f;
-            if (col_sum[j] != 0.0f) {
-                final_val = cond / col_sum[j];
-            }
-
-            // Write to output with (row, column, threshold) ordering
-            out[i * (k * l_val) + j * l_val + r_th] = final_val;
-        }
-    }
-    __syncthreads();
-}
-"""
-occur_reduction_kernel_global = cp.RawKernel(
-    occur_reduction_kernel_code_global, "occur_reduction_kernel_global"
-)
-
-
-kernel_code_csr_catpairs = r"""
-extern "C" __global__
-void occur_count_kernel_csr_catpairs(
-    const float* __restrict__ spatial,
-    const float* __restrict__ thresholds,
-    const int* __restrict__ cat_offsets,
-    const int* __restrict__ cell_indices,
-    const int* __restrict__ pair_left,
-    const int* __restrict__ pair_right,
-    int* __restrict__ counts_delta,
-    int k,
-    int l_val)
-{
-    // Shared memory layout: per-warp histograms of length l_pad
-    const int l_pad = ((l_val + 31) / 32) * 32;
-    extern __shared__ int shared_hist[]; // size: warps_per_block * l_pad
-    const int lane = threadIdx.x & 31;
-    const int warp_id = threadIdx.x >> 5; // /32
-    const int warps_per_block = blockDim.x >> 5;
-    int* warp_hist = shared_hist + warp_id * l_pad;
-
-    // Zero per-warp histograms (only the first l_val bins)
-    for (int r = lane; r < l_pad; r += 32) {
-        warp_hist[r] = 0;
-    }
-    __syncthreads();
-
-    const int a = pair_left[blockIdx.x];
-    const int b = pair_right[blockIdx.x];
-
-    const int start_a = cat_offsets[a];
-    const int end_a   = cat_offsets[a + 1];
-    const int start_b = cat_offsets[b];
-    const int end_b   = cat_offsets[b + 1];
-
-    if (a == b) {
-        // Same-category: enumerate i<j within [start_a, end_a)
-        for (int ia = start_a + threadIdx.x; ia < end_a; ia += blockDim.x) {
-            const int idx_i = cell_indices[ia];
-            const float xi = spatial[idx_i * 2];
-            const float yi = spatial[idx_i * 2 + 1];
-            for (int jb = ia + 1; jb < end_a; ++jb) {
-                const int idx_j = cell_indices[jb];
-                const float dx = xi - spatial[idx_j * 2];
-                const float dy = yi - spatial[idx_j * 2 + 1];
-                const float dist_sq = dx * dx + dy * dy;
-                // lower_bound on thresholds
-                int lo = 0; int hi = l_val;
-                while (lo < hi) {
-                    int mid = (lo + hi) >> 1;
-                    if (dist_sq <= thresholds[mid]) { hi = mid; }
-                    else { lo = mid + 1; }
-                }
-                if (lo < l_val) {
-                    atomicAdd(&warp_hist[lo], 1);
-                }
-            }
-        }
-    } else {
-        // Cross-category: enumerate full cartesian product
-        for (int ia = start_a + threadIdx.x; ia < end_a; ia += blockDim.x) {
-            const int idx_i = cell_indices[ia];
-            const float xi = spatial[idx_i * 2];
-            const float yi = spatial[idx_i * 2 + 1];
-            for (int jb = start_b; jb < end_b; ++jb) {
-                const int idx_j = cell_indices[jb];
-                const float dx = xi - spatial[idx_j * 2];
-                const float dy = yi - spatial[idx_j * 2 + 1];
-                const float dist_sq = dx * dx + dy * dy;
-                // lower_bound on thresholds
-                int lo = 0; int hi = l_val;
-                while (lo < hi) {
-                    int mid = (lo + hi) >> 1;
-                    if (dist_sq <= thresholds[mid]) { hi = mid; }
-                    else { lo = mid + 1; }
-                }
-                if (lo < l_val) {
-                    atomicAdd(&warp_hist[lo], 1);
-                }
-            }
-        }
-    }
-    __syncthreads();
-
-    // Reduce warp histograms into block result and write cumulative to global counts
-    if (warp_id == 0) {
-        // First, sum each bin across warps into warp0's histogram
-        for (int r = lane; r < l_pad; r += 32) {
-            int sum = 0;
-            for (int w = 0; w < warps_per_block; ++w) {
-                sum += shared_hist[w * l_pad + r];
-            }
-            shared_hist[r] = sum; // warp0 region reused as accumulator
-        }
-        __syncwarp();
-        // Inclusive scan (cumulative) along thresholds in warp0 region
-        // Do a simple sequential scan by a single thread to avoid warp divergence
-        if (threadIdx.x == 0) {
-            int acc = 0;
-            for (int r = 0; r < l_val; ++r) {
-                acc += shared_hist[r];
-                shared_hist[r] = acc;
-            }
-        }
-        __syncthreads();
-        // Write cumulative counts to global (k, k, l_val) layout
-        for (int r = lane; r < l_val; r += 32) {
-            counts_delta[a * (k * l_val) + b * l_val + r] = shared_hist[r];
-        }
-    }
-}
-"""
-occur_count_kernel_csr_catpairs = cp.RawKernel(
-    kernel_code_csr_catpairs, "occur_count_kernel_csr_catpairs"
-)

From a872962f9e748953013c5d3b4242eb547aabfeb6 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 12:54:04 +0200
Subject: [PATCH 39/54] add release note

---
 docs/release-notes/{0.13.3.md => 0.14.0.md} | 4 ++--
 docs/release-notes/index.md                 | 6 ++++--
 2 files changed, 6 insertions(+), 4 deletions(-)
 rename docs/release-notes/{0.13.3.md => 0.14.0.md} (68%)

diff --git a/docs/release-notes/0.13.3.md b/docs/release-notes/0.14.0.md
similarity index 68%
rename from docs/release-notes/0.13.3.md
rename to docs/release-notes/0.14.0.md
index c6eaf523..50cbfca2 100644
--- a/docs/release-notes/0.13.3.md
+++ b/docs/release-notes/0.14.0.md
@@ -1,8 +1,8 @@
-### 0.13.3 {small}`the-future`
+### 0.14.0 {small}`the-future`
 
 ```{rubric} Features
 ```
-
+* switch all `cupy.rawkernels` into a compiled cuda extension with nanobind {pr}`455` {smaller}`S Dicks & P Angerer`
 
 ```{rubric} Performance
 ```
diff --git a/docs/release-notes/index.md b/docs/release-notes/index.md
index 14e02f3d..b2e7b99d 100644
--- a/docs/release-notes/index.md
+++ b/docs/release-notes/index.md
@@ -2,9 +2,11 @@
 
 # Release notes
 
-## Version 0.13.0
-```{include} /release-notes/0.13.3.md
+## Version 0.14.0
+```{include} /release-notes/0.14.0.md
 ```
+
+## Version 0.13.0
 ```{include} /release-notes/0.13.2.md
 ```
 ```{include} /release-notes/0.13.1.md

From 2825de75661f65b60ce1484841cf20eb9a5e37cc Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 13:25:53 +0200
Subject: [PATCH 40/54] fix shape qc

---
 src/rapids_singlecell/preprocessing/_qc.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/src/rapids_singlecell/preprocessing/_qc.py b/src/rapids_singlecell/preprocessing/_qc.py
index 001c72c9..2ccd7585 100644
--- a/src/rapids_singlecell/preprocessing/_qc.py
+++ b/src/rapids_singlecell/preprocessing/_qc.py
@@ -128,10 +128,13 @@ def _basic_qc(
 
         if sparse.isspmatrix_csr(X):
             sparse_qc = _qc.sparse_qc_csr
+            shape = X.shape[0]
         elif sparse.isspmatrix_csc(X):
             sparse_qc = _qc.sparse_qc_csc
+            shape = X.shape[1]
         else:
             raise ValueError("Please use a csr or csc matrix")
+
         sparse_qc(
             X.indptr.data.ptr,
             X.indices.data.ptr,
@@ -140,7 +143,7 @@ def _basic_qc(
             sums_genes.data.ptr,
             genes_per_cell.data.ptr,
             cells_per_gene.data.ptr,
-            int(X.shape[1]),
+            int(shape),
             int(cp.dtype(X.data.dtype).itemsize),
         )
     else:

From 66e930f8cc006369ffd6d095fa0d9ad67e351603 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 13:50:58 +0200
Subject: [PATCH 41/54] fix entropy

---
 src/rapids_singlecell/preprocessing/_harmony/__init__.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/rapids_singlecell/preprocessing/_harmony/__init__.py b/src/rapids_singlecell/preprocessing/_harmony/__init__.py
index 385e4b71..709b917f 100644
--- a/src/rapids_singlecell/preprocessing/_harmony/__init__.py
+++ b/src/rapids_singlecell/preprocessing/_harmony/__init__.py
@@ -605,7 +605,7 @@ def _compute_objective(
     """
     kmeans_error = _kmeans_error(R, cp.dot(Z_norm, Y_norm.T))
     R_normalized = R / R.sum(axis=1, keepdims=True)
-    entropy = _entropy_kernel(X=R_normalized)
+    entropy = _entropy_kernel(R_normalized)
     entropy_term = sigma * entropy
     diversity_penalty = sigma * cp.sum(cp.dot(theta, _log_div_OE(O, E)))
     objective = kmeans_error + entropy_term + diversity_penalty

From d38600052328f6cea29e86ac3dadef3faf878ba6 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Tue, 16 Sep 2025 15:05:05 +0200
Subject: [PATCH 42/54] fix version

---
 pyproject.toml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/pyproject.toml b/pyproject.toml
index 96ac7a8d..ccd1a024 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -129,6 +129,7 @@ experimental = false
 cmake.args = [ "-DCMAKE_CUDA_ARCHITECTURES=75;80;86;89;90;100" ]
 build-dir = "build"
 metadata.version.provider = "scikit_build_core.metadata.setuptools_scm"
+sdist.include = [ "src/rapids_singlecell/_version.py" ]
 
 # Use abi3audit to catch issues with Limited API wheels
 [tool.cibuildwheel.linux]

From cfdec192bb3b01c05fe9721dc881ad083b5eb8fa Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Wed, 17 Sep 2025 16:37:32 +0200
Subject: [PATCH 43/54] add streams

---
 src/rapids_singlecell/_cuda/aggr/aggr.cu      | 111 +++++---
 src/rapids_singlecell/_cuda/aucell/aucell.cu  |  16 +-
 .../_cuda/autocorr/autocorr.cu                |  82 +++++-
 src/rapids_singlecell/_cuda/bbknn/bbknn.cu    |  35 ++-
 src/rapids_singlecell/_cuda/cooc/cooc.cu      |  58 +++-
 .../_cuda/harmony/colsum/colsum.cu            |  70 ++---
 .../_cuda/harmony/kmeans/kmeans.cu            |  28 +-
 .../_cuda/harmony/normalize/normalize.cu      |  26 +-
 .../_cuda/harmony/outer/outer.cu              |  59 ++--
 .../_cuda/harmony/pen/pen.cu                  |  31 ++-
 .../_cuda/harmony/scatter/scatter.cu          | 142 ++++++----
 src/rapids_singlecell/_cuda/ligrec/ligrec.cu  | 259 ++++++++++--------
 .../_cuda/mean_var/mean_var.cu                |  72 +++--
 .../_cuda/nanmean/nanmean.cu                  |  63 +++--
 .../_cuda/nn_descent/nn_descent.cu            |  42 ++-
 src/rapids_singlecell/_cuda/norm/norm.cu      |  85 +++---
 src/rapids_singlecell/_cuda/pr/pr.cu          | 202 ++++++++------
 src/rapids_singlecell/_cuda/pv/pv.cu          |  16 +-
 src/rapids_singlecell/_cuda/qc/qc.cu          | 225 ++++++++-------
 .../_cuda/qc_dask/qc_kernels_dask.cu          | 136 +++++----
 src/rapids_singlecell/_cuda/scale/scale.cu    | 126 +++++----
 .../_cuda/sparse2dense/sparse2dense.cu        |  43 +--
 .../_cuda/spca/kernels_spca.cuh               |   7 +-
 src/rapids_singlecell/_cuda/spca/spca.cu      | 110 +++++---
 .../decoupler_gpu/_method_aucell.py           |   1 +
 .../preprocessing/_harmony/_helper.py         |  28 +-
 src/rapids_singlecell/preprocessing/_hvg.py   |   2 +
 .../preprocessing/_neighbors.py               |   5 +
 .../preprocessing/_normalize.py               |  11 +-
 src/rapids_singlecell/preprocessing/_qc.py    |  11 +
 src/rapids_singlecell/preprocessing/_scale.py |   7 +
 .../preprocessing/_sparse_pca/_helper.py      |   8 +-
 .../preprocessing/_sparse_pca/_sparse_pca.py  |   2 +
 src/rapids_singlecell/preprocessing/_utils.py |   4 +
 src/rapids_singlecell/squidpy_gpu/_co_oc.py   |   4 +
 src/rapids_singlecell/squidpy_gpu/_gearysc.py |   5 +
 src/rapids_singlecell/squidpy_gpu/_ligrec.py  |   9 +
 src/rapids_singlecell/squidpy_gpu/_moransi.py |   5 +
 src/rapids_singlecell/tools/_utils.py         |   4 +
 tests/test_embedding_density.py               |   8 +-
 tests/test_harmony.py                         |   6 +-
 tests/test_pca.py                             |  18 +-
 42 files changed, 1358 insertions(+), 824 deletions(-)

diff --git a/src/rapids_singlecell/_cuda/aggr/aggr.cu b/src/rapids_singlecell/_cuda/aggr/aggr.cu
index a5ec6c46..add1052b 100644
--- a/src/rapids_singlecell/_cuda/aggr/aggr.cu
+++ b/src/rapids_singlecell/_cuda/aggr/aggr.cu
@@ -10,37 +10,39 @@ namespace nb = nanobind;
 template <typename T>
 static inline void launch_csr_aggr(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
                                    std::uintptr_t out, std::uintptr_t cats, std::uintptr_t mask,
-                                   std::size_t n_cells, std::size_t n_genes, std::size_t n_groups) {
+                                   std::size_t n_cells, std::size_t n_genes, std::size_t n_groups,
+                                   cudaStream_t stream) {
   dim3 grid((unsigned)n_cells);
   dim3 block(64);
-  csr_aggr_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
-                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
-                        n_cells, n_genes, n_groups);
+  csr_aggr_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+      reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask), n_cells, n_genes,
+      n_groups);
 }
 
 template <typename T>
 static inline void launch_csc_aggr(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
                                    std::uintptr_t out, std::uintptr_t cats, std::uintptr_t mask,
-                                   std::size_t n_cells, std::size_t n_genes, std::size_t n_groups) {
+                                   std::size_t n_cells, std::size_t n_genes, std::size_t n_groups,
+                                   cudaStream_t stream) {
   dim3 grid((unsigned)n_genes);
   dim3 block(64);
-  csc_aggr_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
-                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
-                        n_cells, n_genes, n_groups);
+  csc_aggr_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+      reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask), n_cells, n_genes,
+      n_groups);
 }
 
 template <typename T>
 static inline void launch_csr_to_coo(std::uintptr_t indptr, std::uintptr_t index,
                                      std::uintptr_t data, std::uintptr_t row, std::uintptr_t col,
                                      std::uintptr_t ndata, std::uintptr_t cats, std::uintptr_t mask,
-                                     int n_cells) {
+                                     int n_cells, cudaStream_t stream) {
   dim3 grid((unsigned)n_cells);
   dim3 block(64);
-  csr_to_coo_kernel<T><<<grid, block>>>(
+  csr_to_coo_kernel<T><<<grid, block, 0, stream>>>(
       reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
       reinterpret_cast<const T*>(data), reinterpret_cast<int*>(row), reinterpret_cast<int*>(col),
       reinterpret_cast<double*>(ndata), reinterpret_cast<const int*>(cats),
@@ -50,25 +52,25 @@ static inline void launch_csr_to_coo(std::uintptr_t indptr, std::uintptr_t index
 template <typename T>
 static inline void launch_dense_C(std::uintptr_t data, std::uintptr_t out, std::uintptr_t cats,
                                   std::uintptr_t mask, std::size_t n_cells, std::size_t n_genes,
-                                  std::size_t n_groups) {
+                                  std::size_t n_groups, cudaStream_t stream) {
   dim3 block(256);
   dim3 grid((unsigned)((n_cells * n_genes + block.x - 1) / block.x));
   dense_aggr_kernel_C<T>
-      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
-                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
-                        n_cells, n_genes, n_groups);
+      <<<grid, block, 0, stream>>>(reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+                                   reinterpret_cast<const int*>(cats),
+                                   reinterpret_cast<const bool*>(mask), n_cells, n_genes, n_groups);
 }
 
 template <typename T>
 static inline void launch_dense_F(std::uintptr_t data, std::uintptr_t out, std::uintptr_t cats,
                                   std::uintptr_t mask, std::size_t n_cells, std::size_t n_genes,
-                                  std::size_t n_groups) {
+                                  std::size_t n_groups, cudaStream_t stream) {
   dim3 block(256);
   dim3 grid((unsigned)((n_cells * n_genes + block.x - 1) / block.x));
   dense_aggr_kernel_F<T>
-      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
-                        reinterpret_cast<const int*>(cats), reinterpret_cast<const bool*>(mask),
-                        n_cells, n_genes, n_groups);
+      <<<grid, block, 0, stream>>>(reinterpret_cast<const T*>(data), reinterpret_cast<double*>(out),
+                                   reinterpret_cast<const int*>(cats),
+                                   reinterpret_cast<const bool*>(mask), n_cells, n_genes, n_groups);
 }
 
 // Unified dispatchers
@@ -76,18 +78,23 @@ static inline void sparse_aggr_dispatch(std::uintptr_t indptr, std::uintptr_t in
                                         std::uintptr_t data, std::uintptr_t out,
                                         std::uintptr_t cats, std::uintptr_t mask,
                                         std::size_t n_cells, std::size_t n_genes,
-                                        std::size_t n_groups, bool is_csc, int dtype_itemsize) {
+                                        std::size_t n_groups, bool is_csc, int dtype_itemsize,
+                                        std::uintptr_t stream) {
   if (is_csc) {
     if (dtype_itemsize == 4) {
-      launch_csc_aggr<float>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_csc_aggr<float>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups,
+                             (cudaStream_t)stream);
     } else {
-      launch_csc_aggr<double>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_csc_aggr<double>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups,
+                              (cudaStream_t)stream);
     }
   } else {
     if (dtype_itemsize == 4) {
-      launch_csr_aggr<float>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_csr_aggr<float>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups,
+                             (cudaStream_t)stream);
     } else {
-      launch_csr_aggr<double>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_csr_aggr<double>(indptr, index, data, out, cats, mask, n_cells, n_genes, n_groups,
+                              (cudaStream_t)stream);
     }
   }
 }
@@ -95,18 +102,22 @@ static inline void sparse_aggr_dispatch(std::uintptr_t indptr, std::uintptr_t in
 static inline void dense_aggr_dispatch(std::uintptr_t data, std::uintptr_t out, std::uintptr_t cats,
                                        std::uintptr_t mask, std::size_t n_cells,
                                        std::size_t n_genes, std::size_t n_groups, bool is_fortran,
-                                       int dtype_itemsize) {
+                                       int dtype_itemsize, std::uintptr_t stream) {
   if (is_fortran) {
     if (dtype_itemsize == 4) {
-      launch_dense_F<float>(data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_dense_F<float>(data, out, cats, mask, n_cells, n_genes, n_groups,
+                            (cudaStream_t)stream);
     } else {
-      launch_dense_F<double>(data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_dense_F<double>(data, out, cats, mask, n_cells, n_genes, n_groups,
+                             (cudaStream_t)stream);
     }
   } else {
     if (dtype_itemsize == 4) {
-      launch_dense_C<float>(data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_dense_C<float>(data, out, cats, mask, n_cells, n_genes, n_groups,
+                            (cudaStream_t)stream);
     } else {
-      launch_dense_C<double>(data, out, cats, mask, n_cells, n_genes, n_groups);
+      launch_dense_C<double>(data, out, cats, mask, n_cells, n_genes, n_groups,
+                             (cudaStream_t)stream);
     }
   }
 }
@@ -114,29 +125,47 @@ static inline void dense_aggr_dispatch(std::uintptr_t data, std::uintptr_t out,
 static inline void csr_to_coo_dispatch(std::uintptr_t indptr, std::uintptr_t index,
                                        std::uintptr_t data, std::uintptr_t row, std::uintptr_t col,
                                        std::uintptr_t ndata, std::uintptr_t cats,
-                                       std::uintptr_t mask, int n_cells, int dtype_itemsize) {
+                                       std::uintptr_t mask, int n_cells, int dtype_itemsize,
+                                       std::uintptr_t stream) {
   if (dtype_itemsize == 4) {
-    launch_csr_to_coo<float>(indptr, index, data, row, col, ndata, cats, mask, n_cells);
+    launch_csr_to_coo<float>(indptr, index, data, row, col, ndata, cats, mask, n_cells,
+                             (cudaStream_t)stream);
   } else {
-    launch_csr_to_coo<double>(indptr, index, data, row, col, ndata, cats, mask, n_cells);
+    launch_csr_to_coo<double>(indptr, index, data, row, col, ndata, cats, mask, n_cells,
+                              (cudaStream_t)stream);
   }
 }
 
 // variance launcher
 static inline void launch_sparse_var(std::uintptr_t indptr, std::uintptr_t index,
                                      std::uintptr_t data, std::uintptr_t mean_data,
-                                     std::uintptr_t n_cells, int dof, int n_groups) {
+                                     std::uintptr_t n_cells, int dof, int n_groups,
+                                     cudaStream_t stream) {
   dim3 grid((unsigned)n_groups);
   dim3 block(64);
-  sparse_var_kernel<<<grid, block>>>(
+  sparse_var_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
       reinterpret_cast<double*>(data), reinterpret_cast<const double*>(mean_data),
       reinterpret_cast<double*>(n_cells), dof, n_groups);
 }
 
 NB_MODULE(_aggr_cuda, m) {
-  m.def("sparse_aggr", &sparse_aggr_dispatch);
-  m.def("dense_aggr", &dense_aggr_dispatch);
-  m.def("csr_to_coo", &csr_to_coo_dispatch);
-  m.def("sparse_var", &launch_sparse_var);
+  m.def("sparse_aggr", &sparse_aggr_dispatch, nb::arg("indptr"), nb::arg("index"), nb::arg("data"),
+        nb::arg("out"), nb::arg("cats"), nb::arg("mask"), nb::arg("n_cells"), nb::arg("n_genes"),
+        nb::arg("n_groups"), nb::arg("is_csc"), nb::arg("dtype_itemsize"), nb::arg("stream") = 0);
+  m.def("dense_aggr", &dense_aggr_dispatch, nb::arg("data"), nb::arg("out"), nb::arg("cats"),
+        nb::arg("mask"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("n_groups"),
+        nb::arg("is_fortran"), nb::arg("dtype_itemsize"), nb::arg("stream") = 0);
+  m.def("csr_to_coo", &csr_to_coo_dispatch, nb::arg("indptr"), nb::arg("index"), nb::arg("data"),
+        nb::arg("row"), nb::arg("col"), nb::arg("ndata"), nb::arg("cats"), nb::arg("mask"),
+        nb::arg("n_cells"), nb::arg("dtype_itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_var",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t mean_data,
+         std::uintptr_t n_cells, int dof, int n_groups, std::uintptr_t stream) {
+        launch_sparse_var(indptr, index, data, mean_data, n_cells, dof, n_groups,
+                          (cudaStream_t)stream);
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("mean_data"),
+      nb::arg("n_cells"), nb::arg("dof"), nb::arg("n_groups"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/aucell/aucell.cu b/src/rapids_singlecell/_cuda/aucell/aucell.cu
index 86ff7cf5..c1ec3136 100644
--- a/src/rapids_singlecell/_cuda/aucell/aucell.cu
+++ b/src/rapids_singlecell/_cuda/aucell/aucell.cu
@@ -32,15 +32,25 @@ __global__ void auc_kernel(const int* __restrict__ ranks, int R, int C,
 
 static inline void launch_auc(std::uintptr_t ranks, int R, int C, std::uintptr_t cnct,
                               std::uintptr_t starts, std::uintptr_t lens, int n_sets, int n_up,
-                              std::uintptr_t max_aucs, std::uintptr_t es) {
+                              std::uintptr_t max_aucs, std::uintptr_t es, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((unsigned)n_sets, (unsigned)((R + block.x - 1) / block.x));
-  auc_kernel<<<grid, block>>>(
+  auc_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const int*>(ranks), R, C, reinterpret_cast<const int*>(cnct),
       reinterpret_cast<const int*>(starts), reinterpret_cast<const int*>(lens), n_sets, n_up,
       reinterpret_cast<const float*>(max_aucs), reinterpret_cast<float*>(es));
 }
 
 NB_MODULE(_aucell_cuda, m) {
-  m.def("auc", &launch_auc);
+  m.def(
+      "auc",
+      [](std::uintptr_t ranks, int R, int C, std::uintptr_t cnct, std::uintptr_t starts,
+         std::uintptr_t lens, int n_sets, int n_up, std::uintptr_t max_aucs, std::uintptr_t es,
+         std::uintptr_t stream) {
+        launch_auc(ranks, R, C, cnct, starts, lens, n_sets, n_up, max_aucs, es,
+                   (cudaStream_t)stream);
+      },
+      nb::arg("ranks"), nb::arg("R"), nb::arg("C"), nb::arg("cnct"), nb::arg("starts"),
+      nb::arg("lens"), nb::arg("n_sets"), nb::arg("n_up"), nb::arg("max_aucs"), nb::arg("es"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/autocorr/autocorr.cu b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
index 5b9d03be..4971363e 100644
--- a/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
+++ b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
@@ -8,10 +8,11 @@ namespace nb = nanobind;
 
 static inline void launch_morans_dense(std::uintptr_t data_centered, std::uintptr_t adj_row_ptr,
                                        std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
-                                       std::uintptr_t num, int n_samples, int n_features) {
+                                       std::uintptr_t num, int n_samples, int n_features,
+                                       cudaStream_t stream) {
   dim3 block(8, 8);
   dim3 grid((n_features + block.x - 1) / block.x, (n_samples + block.y - 1) / block.y);
-  morans_I_num_dense_kernel<<<grid, block>>>(
+  morans_I_num_dense_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const float*>(data_centered), reinterpret_cast<const int*>(adj_row_ptr),
       reinterpret_cast<const int*>(adj_col_ind), reinterpret_cast<const float*>(adj_data),
       reinterpret_cast<float*>(num), n_samples, n_features);
@@ -21,10 +22,10 @@ static inline void launch_morans_sparse(std::uintptr_t adj_row_ptr, std::uintptr
                                         std::uintptr_t adj_data, std::uintptr_t data_row_ptr,
                                         std::uintptr_t data_col_ind, std::uintptr_t data_values,
                                         int n_samples, int n_features, std::uintptr_t mean_array,
-                                        std::uintptr_t num) {
+                                        std::uintptr_t num, cudaStream_t stream) {
   dim3 block(1024);
   dim3 grid(n_samples);
-  morans_I_num_sparse_kernel<<<grid, block>>>(
+  morans_I_num_sparse_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const int*>(adj_row_ptr), reinterpret_cast<const int*>(adj_col_ind),
       reinterpret_cast<const float*>(adj_data), reinterpret_cast<const int*>(data_row_ptr),
       reinterpret_cast<const int*>(data_col_ind), reinterpret_cast<const float*>(data_values),
@@ -34,10 +35,11 @@ static inline void launch_morans_sparse(std::uintptr_t adj_row_ptr, std::uintptr
 
 static inline void launch_gearys_dense(std::uintptr_t data, std::uintptr_t adj_row_ptr,
                                        std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
-                                       std::uintptr_t num, int n_samples, int n_features) {
+                                       std::uintptr_t num, int n_samples, int n_features,
+                                       cudaStream_t stream) {
   dim3 block(8, 8);
   dim3 grid((n_features + block.x - 1) / block.x, (n_samples + block.y - 1) / block.y);
-  gearys_C_num_dense_kernel<<<grid, block>>>(
+  gearys_C_num_dense_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const float*>(data), reinterpret_cast<const int*>(adj_row_ptr),
       reinterpret_cast<const int*>(adj_col_ind), reinterpret_cast<const float*>(adj_data),
       reinterpret_cast<float*>(num), n_samples, n_features);
@@ -46,10 +48,11 @@ static inline void launch_gearys_dense(std::uintptr_t data, std::uintptr_t adj_r
 static inline void launch_gearys_sparse(std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind,
                                         std::uintptr_t adj_data, std::uintptr_t data_row_ptr,
                                         std::uintptr_t data_col_ind, std::uintptr_t data_values,
-                                        int n_samples, int n_features, std::uintptr_t num) {
+                                        int n_samples, int n_features, std::uintptr_t num,
+                                        cudaStream_t stream) {
   dim3 block(1024);
   dim3 grid(n_samples);
-  gearys_C_num_sparse_kernel<<<grid, block>>>(
+  gearys_C_num_sparse_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const int*>(adj_row_ptr), reinterpret_cast<const int*>(adj_col_ind),
       reinterpret_cast<const float*>(adj_data), reinterpret_cast<const int*>(data_row_ptr),
       reinterpret_cast<const int*>(data_col_ind), reinterpret_cast<const float*>(data_values),
@@ -58,19 +61,68 @@ static inline void launch_gearys_sparse(std::uintptr_t adj_row_ptr, std::uintptr
 
 static inline void launch_pre_den_sparse(std::uintptr_t data_col_ind, std::uintptr_t data_values,
                                          int nnz, std::uintptr_t mean_array, std::uintptr_t den,
-                                         std::uintptr_t counter) {
+                                         std::uintptr_t counter, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((nnz + block.x - 1) / block.x);
-  pre_den_sparse_kernel<<<grid, block>>>(
+  pre_den_sparse_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const int*>(data_col_ind), reinterpret_cast<const float*>(data_values), nnz,
       reinterpret_cast<const float*>(mean_array), reinterpret_cast<float*>(den),
       reinterpret_cast<int*>(counter));
 }
 
 NB_MODULE(_autocorr_cuda, m) {
-  m.def("morans_dense", &launch_morans_dense);
-  m.def("morans_sparse", &launch_morans_sparse);
-  m.def("gearys_dense", &launch_gearys_dense);
-  m.def("gearys_sparse", &launch_gearys_sparse);
-  m.def("pre_den_sparse", &launch_pre_den_sparse);
+  m.def(
+      "morans_dense",
+      [](std::uintptr_t data_centered, std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind,
+         std::uintptr_t adj_data, std::uintptr_t num, int n_samples, int n_features,
+         std::uintptr_t stream) {
+        launch_morans_dense(data_centered, adj_row_ptr, adj_col_ind, adj_data, num, n_samples,
+                            n_features, (cudaStream_t)stream);
+      },
+      nb::arg("data_centered"), nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"),
+      nb::arg("num"), nb::arg("n_samples"), nb::arg("n_features"), nb::arg("stream") = 0);
+  m.def(
+      "morans_sparse",
+      [](std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
+         std::uintptr_t data_row_ptr, std::uintptr_t data_col_ind, std::uintptr_t data_values,
+         int n_samples, int n_features, std::uintptr_t mean_array, std::uintptr_t num,
+         std::uintptr_t stream) {
+        launch_morans_sparse(adj_row_ptr, adj_col_ind, adj_data, data_row_ptr, data_col_ind,
+                             data_values, n_samples, n_features, mean_array, num,
+                             (cudaStream_t)stream);
+      },
+      nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"), nb::arg("data_row_ptr"),
+      nb::arg("data_col_ind"), nb::arg("data_values"), nb::arg("n_samples"), nb::arg("n_features"),
+      nb::arg("mean_array"), nb::arg("num"), nb::arg("stream") = 0);
+  m.def(
+      "gearys_dense",
+      [](std::uintptr_t data, std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind,
+         std::uintptr_t adj_data, std::uintptr_t num, int n_samples, int n_features,
+         std::uintptr_t stream) {
+        launch_gearys_dense(data, adj_row_ptr, adj_col_ind, adj_data, num, n_samples, n_features,
+                            (cudaStream_t)stream);
+      },
+      nb::arg("data"), nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"),
+      nb::arg("num"), nb::arg("n_samples"), nb::arg("n_features"), nb::arg("stream") = 0);
+  m.def(
+      "gearys_sparse",
+      [](std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
+         std::uintptr_t data_row_ptr, std::uintptr_t data_col_ind, std::uintptr_t data_values,
+         int n_samples, int n_features, std::uintptr_t num, std::uintptr_t stream) {
+        launch_gearys_sparse(adj_row_ptr, adj_col_ind, adj_data, data_row_ptr, data_col_ind,
+                             data_values, n_samples, n_features, num, (cudaStream_t)stream);
+      },
+      nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"), nb::arg("data_row_ptr"),
+      nb::arg("data_col_ind"), nb::arg("data_values"), nb::arg("n_samples"), nb::arg("n_features"),
+      nb::arg("num"), nb::arg("stream") = 0);
+  m.def(
+      "pre_den_sparse",
+      [](std::uintptr_t data_col_ind, std::uintptr_t data_values, int nnz,
+         std::uintptr_t mean_array, std::uintptr_t den, std::uintptr_t counter,
+         std::uintptr_t stream) {
+        launch_pre_den_sparse(data_col_ind, data_values, nnz, mean_array, den, counter,
+                              (cudaStream_t)stream);
+      },
+      nb::arg("data_col_ind"), nb::arg("data_values"), nb::arg("nnz"), nb::arg("mean_array"),
+      nb::arg("den"), nb::arg("counter"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/bbknn/bbknn.cu b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
index 872cccc1..8b4e9629 100644
--- a/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
+++ b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
@@ -7,7 +7,8 @@
 namespace nb = nanobind;
 
 static inline void launch_find_top_k_per_row(std::uintptr_t data_ptr, std::uintptr_t indptr_ptr,
-                                             int n_rows, int trim, std::uintptr_t vals_ptr) {
+                                             int n_rows, int trim, std::uintptr_t vals_ptr,
+                                             cudaStream_t stream) {
   dim3 block(64);
   dim3 grid((n_rows + 64 - 1) / 64);
   std::size_t shared_mem_size =
@@ -15,28 +16,38 @@ static inline void launch_find_top_k_per_row(std::uintptr_t data_ptr, std::uintp
   const float* data = reinterpret_cast<const float*>(data_ptr);
   const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
   float* vals = reinterpret_cast<float*>(vals_ptr);
-  find_top_k_per_row_kernel<<<grid, block, shared_mem_size>>>(data, indptr, n_rows, trim, vals);
+  find_top_k_per_row_kernel<<<grid, block, shared_mem_size, stream>>>(data, indptr, n_rows, trim,
+                                                                      vals);
 }
 
 static inline void launch_cut_smaller(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
-                                      std::uintptr_t data_ptr, std::uintptr_t vals_ptr,
-                                      int n_rows) {
+                                      std::uintptr_t data_ptr, std::uintptr_t vals_ptr, int n_rows,
+                                      cudaStream_t stream) {
   dim3 grid(n_rows);
   dim3 block(64);
   int* indptr = reinterpret_cast<int*>(indptr_ptr);
   int* index = reinterpret_cast<int*>(index_ptr);
   float* data = reinterpret_cast<float*>(data_ptr);
   float* vals = reinterpret_cast<float*>(vals_ptr);
-  cut_smaller_kernel<<<grid, block>>>(indptr, index, data, vals, n_rows);
+  cut_smaller_kernel<<<grid, block, 0, stream>>>(indptr, index, data, vals, n_rows);
 }
 
 NB_MODULE(_bbknn_cuda, m) {
-  m.def("find_top_k_per_row",
-        [](std::uintptr_t data, std::uintptr_t indptr, int n_rows, int trim, std::uintptr_t vals) {
-          launch_find_top_k_per_row(data, indptr, n_rows, trim, vals);
-        });
+  m.def(
+      "find_top_k_per_row",
+      [](std::uintptr_t data, std::uintptr_t indptr, int n_rows, int trim, std::uintptr_t vals,
+         std::uintptr_t stream) {
+        launch_find_top_k_per_row(data, indptr, n_rows, trim, vals, (cudaStream_t)stream);
+      },
+      nb::arg("data"), nb::arg("indptr"), nb::arg("n_rows"), nb::arg("trim"), nb::arg("vals"),
+      nb::arg("stream") = 0);
 
-  m.def("cut_smaller",
-        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t vals,
-           int n_rows) { launch_cut_smaller(indptr, index, data, vals, n_rows); });
+  m.def(
+      "cut_smaller",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t vals,
+         int n_rows, std::uintptr_t stream) {
+        launch_cut_smaller(indptr, index, data, vals, n_rows, (cudaStream_t)stream);
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("vals"), nb::arg("n_rows"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/cooc/cooc.cu b/src/rapids_singlecell/_cuda/cooc/cooc.cu
index 9163546f..c98f96eb 100644
--- a/src/rapids_singlecell/_cuda/cooc/cooc.cu
+++ b/src/rapids_singlecell/_cuda/cooc/cooc.cu
@@ -8,16 +8,16 @@ namespace nb = nanobind;
 
 static inline void launch_count_pairwise(std::uintptr_t spatial, std::uintptr_t thresholds,
                                          std::uintptr_t labels, std::uintptr_t result, int n, int k,
-                                         int l_val) {
+                                         int l_val, cudaStream_t stream) {
   dim3 grid(n);
   dim3 block(32);
-  occur_count_kernel_pairwise<<<grid, block>>>(
+  occur_count_kernel_pairwise<<<grid, block, 0, stream>>>(
       reinterpret_cast<const float*>(spatial), reinterpret_cast<const float*>(thresholds),
       reinterpret_cast<const int*>(labels), reinterpret_cast<int*>(result), n, k, l_val);
 }
 
 static inline bool launch_reduce_shared(std::uintptr_t result, std::uintptr_t out, int k, int l_val,
-                                        int format) {
+                                        int format, cudaStream_t stream) {
   int device = 0;
   cudaGetDevice(&device);
   cudaDeviceProp prop;
@@ -31,17 +31,18 @@ static inline bool launch_reduce_shared(std::uintptr_t result, std::uintptr_t ou
   dim3 block(32);
 
   std::size_t smem = static_cast<std::size_t>(k) * static_cast<std::size_t>(k + 1) * sizeof(float);
-  occur_reduction_kernel_shared<<<grid, block, smem>>>(
+  occur_reduction_kernel_shared<<<grid, block, smem, stream>>>(
       reinterpret_cast<const int*>(result), reinterpret_cast<float*>(out), k, l_val, format);
   return true;
 }
 
 static inline void launch_reduce_global(std::uintptr_t result, std::uintptr_t inter_out,
-                                        std::uintptr_t out, int k, int l_val, int format) {
+                                        std::uintptr_t out, int k, int l_val, int format,
+                                        cudaStream_t stream) {
   dim3 grid(l_val);
   dim3 block(32);
   std::size_t smem = static_cast<std::size_t>(k) * sizeof(float);
-  occur_reduction_kernel_global<<<grid, block, smem>>>(
+  occur_reduction_kernel_global<<<grid, block, smem, stream>>>(
       reinterpret_cast<const int*>(result), reinterpret_cast<float*>(inter_out),
       reinterpret_cast<float*>(out), k, l_val, format);
 }
@@ -50,7 +51,7 @@ static inline void launch_reduce_global(std::uintptr_t result, std::uintptr_t in
 static inline bool launch_count_csr_catpairs_auto(
     std::uintptr_t spatial, std::uintptr_t thresholds, std::uintptr_t cat_offsets,
     std::uintptr_t cell_indices, std::uintptr_t pair_left, std::uintptr_t pair_right,
-    std::uintptr_t counts_delta, int num_pairs, int k, int l_val) {
+    std::uintptr_t counts_delta, int num_pairs, int k, int l_val, cudaStream_t stream) {
   int device = 0;
   cudaGetDevice(&device);
   cudaDeviceProp prop;
@@ -73,7 +74,7 @@ static inline bool launch_count_csr_catpairs_auto(
       static_cast<std::size_t>(chosen / 32) * static_cast<std::size_t>(l_pad) * sizeof(int);
   dim3 grid(num_pairs);
   dim3 block(chosen);
-  occur_count_kernel_csr_catpairs<<<grid, block, smem>>>(
+  occur_count_kernel_csr_catpairs<<<grid, block, smem, stream>>>(
       reinterpret_cast<const float*>(spatial), reinterpret_cast<const float*>(thresholds),
       reinterpret_cast<const int*>(cat_offsets), reinterpret_cast<const int*>(cell_indices),
       reinterpret_cast<const int*>(pair_left), reinterpret_cast<const int*>(pair_right),
@@ -82,8 +83,41 @@ static inline bool launch_count_csr_catpairs_auto(
 }
 
 NB_MODULE(_cooc_cuda, m) {
-  m.def("count_pairwise", &launch_count_pairwise);
-  m.def("reduce_shared", &launch_reduce_shared);
-  m.def("reduce_global", &launch_reduce_global);
-  m.def("count_csr_catpairs_auto", &launch_count_csr_catpairs_auto);
+  m.def(
+      "count_pairwise",
+      [](std::uintptr_t spatial, std::uintptr_t thresholds, std::uintptr_t labels,
+         std::uintptr_t result, int n, int k, int l_val, std::uintptr_t stream) {
+        launch_count_pairwise(spatial, thresholds, labels, result, n, k, l_val,
+                              (cudaStream_t)stream);
+      },
+      nb::arg("spatial"), nb::arg("thresholds"), nb::arg("labels"), nb::arg("result"), nb::arg("n"),
+      nb::arg("k"), nb::arg("l_val"), nb::arg("stream") = 0);
+  m.def(
+      "reduce_shared",
+      [](std::uintptr_t result, std::uintptr_t out, int k, int l_val, int format,
+         std::uintptr_t stream) {
+        return launch_reduce_shared(result, out, k, l_val, format, (cudaStream_t)stream);
+      },
+      nb::arg("result"), nb::arg("out"), nb::arg("k"), nb::arg("l_val"), nb::arg("format"),
+      nb::arg("stream") = 0);
+  m.def(
+      "reduce_global",
+      [](std::uintptr_t result, std::uintptr_t inter_out, std::uintptr_t out, int k, int l_val,
+         int format, std::uintptr_t stream) {
+        launch_reduce_global(result, inter_out, out, k, l_val, format, (cudaStream_t)stream);
+      },
+      nb::arg("result"), nb::arg("inter_out"), nb::arg("out"), nb::arg("k"), nb::arg("l_val"),
+      nb::arg("format"), nb::arg("stream") = 0);
+  m.def(
+      "count_csr_catpairs_auto",
+      [](std::uintptr_t spatial, std::uintptr_t thresholds, std::uintptr_t cat_offsets,
+         std::uintptr_t cell_indices, std::uintptr_t pair_left, std::uintptr_t pair_right,
+         std::uintptr_t counts_delta, int num_pairs, int k, int l_val, std::uintptr_t stream) {
+        return launch_count_csr_catpairs_auto(spatial, thresholds, cat_offsets, cell_indices,
+                                              pair_left, pair_right, counts_delta, num_pairs, k,
+                                              l_val, (cudaStream_t)stream);
+      },
+      nb::arg("spatial"), nb::arg("thresholds"), nb::arg("cat_offsets"), nb::arg("cell_indices"),
+      nb::arg("pair_left"), nb::arg("pair_right"), nb::arg("counts_delta"), nb::arg("num_pairs"),
+      nb::arg("k"), nb::arg("l_val"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
index ded7a5fc..9fc3d6ee 100644
--- a/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
+++ b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
@@ -8,49 +8,57 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_colsum(std::uintptr_t A, std::uintptr_t out, std::size_t rows,
-                                 std::size_t cols) {
+                                 std::size_t cols, cudaStream_t stream) {
   int threads = 32;
   int blocks = (int)cols;
-  colsum_kernel<T>
-      <<<blocks, threads>>>(reinterpret_cast<const T*>(A), reinterpret_cast<T*>(out), rows, cols);
+  colsum_kernel<T><<<blocks, threads, 0, stream>>>(reinterpret_cast<const T*>(A),
+                                                   reinterpret_cast<T*>(out), rows, cols);
 }
 
 template <typename T>
 static inline void launch_colsum_atomic(std::uintptr_t A, std::uintptr_t out, std::size_t rows,
-                                        std::size_t cols) {
+                                        std::size_t cols, cudaStream_t stream) {
   int tile_rows = (rows + 31) / 32;
   int tile_cols = (cols + 31) / 32;
   int blocks = tile_rows * tile_cols;
   dim3 threads(32, 32);
-  colsum_atomic_kernel<T>
-      <<<blocks, threads>>>(reinterpret_cast<const T*>(A), reinterpret_cast<T*>(out), rows, cols);
+  colsum_atomic_kernel<T><<<blocks, threads, 0, stream>>>(reinterpret_cast<const T*>(A),
+                                                          reinterpret_cast<T*>(out), rows, cols);
 }
 
 NB_MODULE(_harmony_colsum_cuda, m) {
-  m.def("colsum", [](std::uintptr_t A, std::uintptr_t out, std::size_t rows, std::size_t cols,
-                     int dtype_code) {
-    // dtype_code: 0=float32, 1=float64, 2=int32; Back-compat: 4->float32, 8->float64
-    if (dtype_code == 0 || dtype_code == 4) {
-      launch_colsum<float>(A, out, rows, cols);
-    } else if (dtype_code == 1 || dtype_code == 8) {
-      launch_colsum<double>(A, out, rows, cols);
-    } else if (dtype_code == 2) {
-      launch_colsum<int>(A, out, rows, cols);
-    } else {
-      throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
-    }
-  });
+  m.def(
+      "colsum",
+      [](std::uintptr_t A, std::uintptr_t out, std::size_t rows, std::size_t cols, int dtype_code,
+         std::uintptr_t stream) {
+        // dtype_code: 0=float32, 1=float64, 2=int32; Back-compat: 4->float32, 8->float64
+        if (dtype_code == 0 || dtype_code == 4) {
+          launch_colsum<float>(A, out, rows, cols, (cudaStream_t)stream);
+        } else if (dtype_code == 1 || dtype_code == 8) {
+          launch_colsum<double>(A, out, rows, cols, (cudaStream_t)stream);
+        } else if (dtype_code == 2) {
+          launch_colsum<int>(A, out, rows, cols, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
+        }
+      },
+      nb::arg("A"), nb::arg("out"), nb::arg("rows"), nb::arg("cols"), nb::arg("dtype_code"),
+      nb::arg("stream") = 0);
 
-  m.def("colsum_atomic", [](std::uintptr_t A, std::uintptr_t out, std::size_t rows,
-                            std::size_t cols, int dtype_code) {
-    if (dtype_code == 0 || dtype_code == 4) {
-      launch_colsum_atomic<float>(A, out, rows, cols);
-    } else if (dtype_code == 1 || dtype_code == 8) {
-      launch_colsum_atomic<double>(A, out, rows, cols);
-    } else if (dtype_code == 2) {
-      launch_colsum_atomic<int>(A, out, rows, cols);
-    } else {
-      throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
-    }
-  });
+  m.def(
+      "colsum_atomic",
+      [](std::uintptr_t A, std::uintptr_t out, std::size_t rows, std::size_t cols, int dtype_code,
+         std::uintptr_t stream) {
+        if (dtype_code == 0 || dtype_code == 4) {
+          launch_colsum_atomic<float>(A, out, rows, cols, (cudaStream_t)stream);
+        } else if (dtype_code == 1 || dtype_code == 8) {
+          launch_colsum_atomic<double>(A, out, rows, cols, (cudaStream_t)stream);
+        } else if (dtype_code == 2) {
+          launch_colsum_atomic<int>(A, out, rows, cols, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
+        }
+      },
+      nb::arg("A"), nb::arg("out"), nb::arg("rows"), nb::arg("cols"), nb::arg("dtype_code"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
index a161b972..a7d3719f 100644
--- a/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
+++ b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
@@ -8,22 +8,26 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_kmeans_err(std::uintptr_t r, std::uintptr_t dot, std::size_t n,
-                                     std::uintptr_t out) {
+                                     std::uintptr_t out, cudaStream_t stream) {
   int threads = 256;
   int blocks = min((int)((n + threads - 1) / threads), (int)(8 * 128));
-  kmeans_err_kernel<T><<<blocks, threads>>>(
+  kmeans_err_kernel<T><<<blocks, threads, 0, stream>>>(
       reinterpret_cast<const T*>(r), reinterpret_cast<const T*>(dot), n, reinterpret_cast<T*>(out));
 }
 
 NB_MODULE(_harmony_kmeans_cuda, m) {
-  m.def("kmeans_err",
-        [](std::uintptr_t r, std::uintptr_t dot, std::size_t n, std::uintptr_t out, int itemsize) {
-          if (itemsize == 4) {
-            launch_kmeans_err<float>(r, dot, n, out);
-          } else if (itemsize == 8) {
-            launch_kmeans_err<double>(r, dot, n, out);
-          } else {
-            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-          }
-        });
+  m.def(
+      "kmeans_err",
+      [](std::uintptr_t r, std::uintptr_t dot, std::size_t n, std::uintptr_t out, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_kmeans_err<float>(r, dot, n, out, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_kmeans_err<double>(r, dot, n, out, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("r"), nb::arg("dot"), nb::arg("n"), nb::arg("out"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
index a08355b8..7f5f7114 100644
--- a/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
+++ b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
@@ -7,20 +7,24 @@
 namespace nb = nanobind;
 
 template <typename T>
-static inline void launch_normalize(std::uintptr_t X, long long rows, long long cols) {
+static inline void launch_normalize(std::uintptr_t X, long long rows, long long cols,
+                                    cudaStream_t stream) {
   dim3 block(32);
   dim3 grid(rows);
-  normalize_kernel_optimized<T><<<grid, block>>>(reinterpret_cast<T*>(X), rows, cols);
+  normalize_kernel_optimized<T><<<grid, block, 0, stream>>>(reinterpret_cast<T*>(X), rows, cols);
 }
 
 NB_MODULE(_harmony_normalize_cuda, m) {
-  m.def("normalize", [](std::uintptr_t X, long long rows, long long cols, int itemsize) {
-    if (itemsize == 4) {
-      launch_normalize<float>(X, rows, cols);
-    } else if (itemsize == 8) {
-      launch_normalize<double>(X, rows, cols);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "normalize",
+      [](std::uintptr_t X, long long rows, long long cols, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_normalize<float>(X, rows, cols, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_normalize<double>(X, rows, cols, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("X"), nb::arg("rows"), nb::arg("cols"), nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/outer/outer.cu b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
index 7ff09e05..1567ed98 100644
--- a/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
+++ b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
@@ -8,45 +8,56 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_outer(std::uintptr_t E, std::uintptr_t Pr_b, std::uintptr_t R_sum,
-                                long long n_cats, long long n_pcs, long long switcher) {
+                                long long n_cats, long long n_pcs, long long switcher,
+                                cudaStream_t stream) {
   dim3 block(256);
   long long N = n_cats * n_pcs;
   dim3 grid((unsigned)((N + block.x - 1) / block.x));
-  outer_kernel<T><<<grid, block>>>(reinterpret_cast<T*>(E), reinterpret_cast<const T*>(Pr_b),
+  outer_kernel<T>
+      <<<grid, block, 0, stream>>>(reinterpret_cast<T*>(E), reinterpret_cast<const T*>(Pr_b),
                                    reinterpret_cast<const T*>(R_sum), n_cats, n_pcs, switcher);
 }
 
 template <typename T>
 static inline void launch_harmony_corr(std::uintptr_t Z, std::uintptr_t W, std::uintptr_t cats,
-                                       std::uintptr_t R, long long n_cells, long long n_pcs) {
+                                       std::uintptr_t R, long long n_cells, long long n_pcs,
+                                       cudaStream_t stream) {
   dim3 block(256);
   long long N = n_cells * n_pcs;
   dim3 grid((unsigned)((N + block.x - 1) / block.x));
-  harmony_correction_kernel<T><<<grid, block>>>(
+  harmony_correction_kernel<T><<<grid, block, 0, stream>>>(
       reinterpret_cast<T*>(Z), reinterpret_cast<const T*>(W), reinterpret_cast<const int*>(cats),
       reinterpret_cast<const T*>(R), n_cells, n_pcs);
 }
 
 NB_MODULE(_harmony_outer_cuda, m) {
-  m.def("outer", [](std::uintptr_t E, std::uintptr_t Pr_b, std::uintptr_t R_sum, long long n_cats,
-                    long long n_pcs, long long switcher, int itemsize) {
-    if (itemsize == 4) {
-      launch_outer<float>(E, Pr_b, R_sum, n_cats, n_pcs, switcher);
-    } else if (itemsize == 8) {
-      launch_outer<double>(E, Pr_b, R_sum, n_cats, n_pcs, switcher);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "outer",
+      [](std::uintptr_t E, std::uintptr_t Pr_b, std::uintptr_t R_sum, long long n_cats,
+         long long n_pcs, long long switcher, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_outer<float>(E, Pr_b, R_sum, n_cats, n_pcs, switcher, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_outer<double>(E, Pr_b, R_sum, n_cats, n_pcs, switcher, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("E"), nb::arg("Pr_b"), nb::arg("R_sum"), nb::arg("n_cats"), nb::arg("n_pcs"),
+      nb::arg("switcher"), nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("harmony_corr", [](std::uintptr_t Z, std::uintptr_t W, std::uintptr_t cats,
-                           std::uintptr_t R, long long n_cells, long long n_pcs, int itemsize) {
-    if (itemsize == 4) {
-      launch_harmony_corr<float>(Z, W, cats, R, n_cells, n_pcs);
-    } else if (itemsize == 8) {
-      launch_harmony_corr<double>(Z, W, cats, R, n_cells, n_pcs);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "harmony_corr",
+      [](std::uintptr_t Z, std::uintptr_t W, std::uintptr_t cats, std::uintptr_t R,
+         long long n_cells, long long n_pcs, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_harmony_corr<float>(Z, W, cats, R, n_cells, n_pcs, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_harmony_corr<double>(Z, W, cats, R, n_cells, n_pcs, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("Z"), nb::arg("W"), nb::arg("cats"), nb::arg("R"), nb::arg("n_cells"),
+      nb::arg("n_pcs"), nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/pen/pen.cu b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
index 1bd295b0..e8e0b2a6 100644
--- a/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
+++ b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
@@ -8,23 +8,28 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_pen(std::uintptr_t R, std::uintptr_t penalty, std::uintptr_t cats,
-                              std::size_t n_rows, std::size_t n_cols) {
+                              std::size_t n_rows, std::size_t n_cols, cudaStream_t stream) {
   dim3 block(256);
   std::size_t N = n_rows * n_cols;
   dim3 grid((unsigned)((N + block.x - 1) / block.x));
-  pen_kernel<T><<<grid, block>>>(reinterpret_cast<T*>(R), reinterpret_cast<const T*>(penalty),
-                                 reinterpret_cast<const int*>(cats), n_rows, n_cols);
+  pen_kernel<T><<<grid, block, 0, stream>>>(reinterpret_cast<T*>(R),
+                                            reinterpret_cast<const T*>(penalty),
+                                            reinterpret_cast<const int*>(cats), n_rows, n_cols);
 }
 
 NB_MODULE(_harmony_pen_cuda, m) {
-  m.def("pen", [](std::uintptr_t R, std::uintptr_t penalty, std::uintptr_t cats, std::size_t n_rows,
-                  std::size_t n_cols, int itemsize) {
-    if (itemsize == 4) {
-      launch_pen<float>(R, penalty, cats, n_rows, n_cols);
-    } else if (itemsize == 8) {
-      launch_pen<double>(R, penalty, cats, n_rows, n_cols);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "pen",
+      [](std::uintptr_t R, std::uintptr_t penalty, std::uintptr_t cats, std::size_t n_rows,
+         std::size_t n_cols, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_pen<float>(R, penalty, cats, n_rows, n_cols, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_pen<double>(R, penalty, cats, n_rows, n_cols, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("R"), nb::arg("penalty"), nb::arg("cats"), nb::arg("n_rows"), nb::arg("n_cols"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
index 137ad274..c5edf9ec 100644
--- a/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
+++ b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
@@ -8,92 +8,114 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_scatter_add(std::uintptr_t v, std::uintptr_t cats, std::size_t n_cells,
-                                      std::size_t n_pcs, std::size_t switcher, std::uintptr_t a) {
+                                      std::size_t n_pcs, std::size_t switcher, std::uintptr_t a,
+                                      cudaStream_t stream) {
   dim3 block(256);
   std::size_t N = n_cells * n_pcs;
   dim3 grid((unsigned)((N + block.x - 1) / block.x));
-  scatter_add_kernel_optimized<T><<<grid, block>>>(reinterpret_cast<const T*>(v),
-                                                   reinterpret_cast<const int*>(cats), n_cells,
-                                                   n_pcs, switcher, reinterpret_cast<T*>(a));
+  scatter_add_kernel_optimized<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(v), reinterpret_cast<const int*>(cats), n_cells, n_pcs, switcher,
+      reinterpret_cast<T*>(a));
 }
 
 template <typename T>
 static inline void launch_aggregated_matrix(std::uintptr_t aggregated_matrix, std::uintptr_t sum,
-                                            double top_corner, int n_batches) {
+                                            double top_corner, int n_batches, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_batches + 1 + 31) / 32);
-  aggregated_matrix_kernel<T><<<grid, block>>>(reinterpret_cast<T*>(aggregated_matrix),
-                                               reinterpret_cast<const T*>(sum), (T)top_corner,
-                                               n_batches);
+  aggregated_matrix_kernel<T><<<grid, block, 0, stream>>>(reinterpret_cast<T*>(aggregated_matrix),
+                                                          reinterpret_cast<const T*>(sum),
+                                                          (T)top_corner, n_batches);
 }
 
 template <typename T>
 static inline void launch_scatter_add_cat0(std::uintptr_t v, int n_cells, int n_pcs,
-                                           std::uintptr_t a, std::uintptr_t bias) {
+                                           std::uintptr_t a, std::uintptr_t bias,
+                                           cudaStream_t stream) {
   dim3 block(1024);
   dim3 grid((n_pcs + 1) / 2, 8);
-  scatter_add_kernel_with_bias_cat0<T><<<grid, block>>>(reinterpret_cast<const T*>(v), n_cells,
-                                                        n_pcs, reinterpret_cast<T*>(a),
-                                                        reinterpret_cast<const T*>(bias));
+  scatter_add_kernel_with_bias_cat0<T>
+      <<<grid, block, 0, stream>>>(reinterpret_cast<const T*>(v), n_cells, n_pcs,
+                                   reinterpret_cast<T*>(a), reinterpret_cast<const T*>(bias));
 }
 
 template <typename T>
 static inline void launch_scatter_add_block(std::uintptr_t v, std::uintptr_t cat_offsets,
                                             std::uintptr_t cell_indices, int n_cells, int n_pcs,
-                                            int n_batches, std::uintptr_t a, std::uintptr_t bias) {
+                                            int n_batches, std::uintptr_t a, std::uintptr_t bias,
+                                            cudaStream_t stream) {
   dim3 block(1024);
   dim3 grid(n_batches * ((n_pcs + 1) / 2));
-  scatter_add_kernel_with_bias_block<T>
-      <<<grid, block>>>(reinterpret_cast<const T*>(v), reinterpret_cast<const int*>(cat_offsets),
-                        reinterpret_cast<const int*>(cell_indices), n_cells, n_pcs, n_batches,
-                        reinterpret_cast<T*>(a), reinterpret_cast<const T*>(bias));
+  scatter_add_kernel_with_bias_block<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(v), reinterpret_cast<const int*>(cat_offsets),
+      reinterpret_cast<const int*>(cell_indices), n_cells, n_pcs, n_batches,
+      reinterpret_cast<T*>(a), reinterpret_cast<const T*>(bias));
 }
 
 NB_MODULE(_harmony_scatter_cuda, m) {
-  m.def("scatter_add", [](std::uintptr_t v, std::uintptr_t cats, std::size_t n_cells,
-                          std::size_t n_pcs, std::size_t switcher, std::uintptr_t a, int itemsize) {
-    if (itemsize == 4) {
-      launch_scatter_add<float>(v, cats, n_cells, n_pcs, switcher, a);
-    } else if (itemsize == 8) {
-      launch_scatter_add<double>(v, cats, n_cells, n_pcs, switcher, a);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "scatter_add",
+      [](std::uintptr_t v, std::uintptr_t cats, std::size_t n_cells, std::size_t n_pcs,
+         std::size_t switcher, std::uintptr_t a, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_scatter_add<float>(v, cats, n_cells, n_pcs, switcher, a, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_scatter_add<double>(v, cats, n_cells, n_pcs, switcher, a, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("v"), nb::arg("cats"), nb::arg("n_cells"), nb::arg("n_pcs"), nb::arg("switcher"),
+      nb::arg("a"), nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("aggregated_matrix", [](std::uintptr_t aggregated_matrix, std::uintptr_t sum,
-                                double top_corner, int n_batches, int itemsize) {
-    if (itemsize == 4) {
-      launch_aggregated_matrix<float>(aggregated_matrix, sum, top_corner, n_batches);
-    } else if (itemsize == 8) {
-      launch_aggregated_matrix<double>(aggregated_matrix, sum, top_corner, n_batches);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "aggregated_matrix",
+      [](std::uintptr_t aggregated_matrix, std::uintptr_t sum, double top_corner, int n_batches,
+         int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_aggregated_matrix<float>(aggregated_matrix, sum, top_corner, n_batches,
+                                          (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_aggregated_matrix<double>(aggregated_matrix, sum, top_corner, n_batches,
+                                           (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("aggregated_matrix"), nb::arg("sum"), nb::arg("top_corner"), nb::arg("n_batches"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("scatter_add_cat0", [](std::uintptr_t v, int n_cells, int n_pcs, std::uintptr_t a,
-                               std::uintptr_t bias, int itemsize) {
-    if (itemsize == 4) {
-      launch_scatter_add_cat0<float>(v, n_cells, n_pcs, a, bias);
-    } else if (itemsize == 8) {
-      launch_scatter_add_cat0<double>(v, n_cells, n_pcs, a, bias);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "scatter_add_cat0",
+      [](std::uintptr_t v, int n_cells, int n_pcs, std::uintptr_t a, std::uintptr_t bias,
+         int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_scatter_add_cat0<float>(v, n_cells, n_pcs, a, bias, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_scatter_add_cat0<double>(v, n_cells, n_pcs, a, bias, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("v"), nb::arg("n_cells"), nb::arg("n_pcs"), nb::arg("a"), nb::arg("bias"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("scatter_add_block",
-        [](std::uintptr_t v, std::uintptr_t cat_offsets, std::uintptr_t cell_indices, int n_cells,
-           int n_pcs, int n_batches, std::uintptr_t a, std::uintptr_t bias, int itemsize) {
-          if (itemsize == 4) {
-            launch_scatter_add_block<float>(v, cat_offsets, cell_indices, n_cells, n_pcs, n_batches,
-                                            a, bias);
-          } else if (itemsize == 8) {
-            launch_scatter_add_block<double>(v, cat_offsets, cell_indices, n_cells, n_pcs,
-                                             n_batches, a, bias);
-          } else {
-            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-          }
-        });
+  m.def(
+      "scatter_add_block",
+      [](std::uintptr_t v, std::uintptr_t cat_offsets, std::uintptr_t cell_indices, int n_cells,
+         int n_pcs, int n_batches, std::uintptr_t a, std::uintptr_t bias, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_scatter_add_block<float>(v, cat_offsets, cell_indices, n_cells, n_pcs, n_batches,
+                                          a, bias, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_scatter_add_block<double>(v, cat_offsets, cell_indices, n_cells, n_pcs, n_batches,
+                                           a, bias, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("v"), nb::arg("cat_offsets"), nb::arg("cell_indices"), nb::arg("n_cells"),
+      nb::arg("n_pcs"), nb::arg("n_batches"), nb::arg("a"), nb::arg("bias"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
index 12425c64..dd274a37 100644
--- a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
+++ b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
@@ -9,55 +9,55 @@ namespace nb = nanobind;
 template <typename T>
 static inline void launch_sum_count_dense(std::uintptr_t data, std::uintptr_t clusters,
                                           std::uintptr_t sum, std::uintptr_t count, int rows,
-                                          int cols, int ncls) {
+                                          int cols, int ncls, cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((rows + block.x - 1) / block.x, (cols + block.y - 1) / block.y);
-  sum_and_count_dense_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
-                        reinterpret_cast<T*>(sum), reinterpret_cast<int*>(count), rows, cols, ncls);
+  sum_and_count_dense_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
+      reinterpret_cast<T*>(sum), reinterpret_cast<int*>(count), rows, cols, ncls);
 }
 
 template <typename T>
 static inline void launch_sum_count_sparse(std::uintptr_t indptr, std::uintptr_t index,
                                            std::uintptr_t data, std::uintptr_t clusters,
                                            std::uintptr_t sum, std::uintptr_t count, int rows,
-                                           int ncls) {
+                                           int ncls, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((rows + block.x - 1) / block.x);
-  sum_and_count_sparse_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
-                        reinterpret_cast<T*>(sum), reinterpret_cast<int*>(count), rows, ncls);
+  sum_and_count_sparse_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
+      reinterpret_cast<T*>(sum), reinterpret_cast<int*>(count), rows, ncls);
 }
 
 template <typename T>
 static inline void launch_mean_dense(std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t g,
-                                     int rows, int cols, int ncls) {
+                                     int rows, int cols, int ncls, cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((rows + block.x - 1) / block.x, (cols + block.y - 1) / block.y);
-  mean_dense_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
-                                        reinterpret_cast<const int*>(clusters),
-                                        reinterpret_cast<T*>(g), rows, cols, ncls);
+  mean_dense_kernel<T><<<grid, block, 0, stream>>>(reinterpret_cast<const T*>(data),
+                                                   reinterpret_cast<const int*>(clusters),
+                                                   reinterpret_cast<T*>(g), rows, cols, ncls);
 }
 
 template <typename T>
 static inline void launch_mean_sparse(std::uintptr_t indptr, std::uintptr_t index,
                                       std::uintptr_t data, std::uintptr_t clusters,
-                                      std::uintptr_t g, int rows, int ncls) {
+                                      std::uintptr_t g, int rows, int ncls, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((rows + block.x - 1) / block.x);
-  mean_sparse_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
-                        reinterpret_cast<T*>(g), rows, ncls);
+  mean_sparse_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<const int*>(clusters),
+      reinterpret_cast<T*>(g), rows, ncls);
 }
 
 template <typename T>
 static inline void launch_elementwise_diff(std::uintptr_t g, std::uintptr_t total_counts,
-                                           int n_genes, int n_clusters) {
+                                           int n_genes, int n_clusters, cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((n_genes + block.x - 1) / block.x, (n_clusters + block.y - 1) / block.y);
-  elementwise_diff_kernel<T><<<grid, block>>>(
+  elementwise_diff_kernel<T><<<grid, block, 0, stream>>>(
       reinterpret_cast<T*>(g), reinterpret_cast<const T*>(total_counts), n_genes, n_clusters);
 }
 
@@ -65,7 +65,8 @@ template <typename T>
 static inline void launch_interaction(std::uintptr_t interactions,
                                       std::uintptr_t interaction_clusters, std::uintptr_t mean,
                                       std::uintptr_t res, std::uintptr_t mask, std::uintptr_t g,
-                                      int n_iter, int n_inter_clust, int ncls) {
+                                      int n_iter, int n_inter_clust, int ncls,
+                                      cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((n_iter + block.x - 1) / block.x, (n_inter_clust + block.y - 1) / block.y);
   interaction_kernel<T><<<grid, block>>>(
@@ -78,98 +79,136 @@ static inline void launch_interaction(std::uintptr_t interactions,
 template <typename T>
 static inline void launch_res_mean(std::uintptr_t interactions, std::uintptr_t interaction_clusters,
                                    std::uintptr_t mean, std::uintptr_t res_mean, int n_inter,
-                                   int n_inter_clust, int ncls) {
+                                   int n_inter_clust, int ncls, cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((n_inter + block.x - 1) / block.x, (n_inter_clust + block.y - 1) / block.y);
-  res_mean_kernel<T><<<grid, block>>>(reinterpret_cast<const int*>(interactions),
-                                      reinterpret_cast<const int*>(interaction_clusters),
-                                      reinterpret_cast<const T*>(mean),
-                                      reinterpret_cast<T*>(res_mean), n_inter, n_inter_clust, ncls);
+  res_mean_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(interactions),
+      reinterpret_cast<const int*>(interaction_clusters), reinterpret_cast<const T*>(mean),
+      reinterpret_cast<T*>(res_mean), n_inter, n_inter_clust, ncls);
 }
 
 NB_MODULE(_ligrec_cuda, m) {
-  m.def("sum_count_dense", [](std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t sum,
-                              std::uintptr_t count, int rows, int cols, int ncls, int itemsize) {
-    if (itemsize == 4) {
-      launch_sum_count_dense<float>(data, clusters, sum, count, rows, cols, ncls);
-    } else if (itemsize == 8) {
-      launch_sum_count_dense<double>(data, clusters, sum, count, rows, cols, ncls);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
-
-  m.def("sum_count_sparse", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                               std::uintptr_t clusters, std::uintptr_t sum, std::uintptr_t count,
-                               int rows, int ncls, int itemsize) {
-    if (itemsize == 4) {
-      launch_sum_count_sparse<float>(indptr, index, data, clusters, sum, count, rows, ncls);
-    } else if (itemsize == 8) {
-      launch_sum_count_sparse<double>(indptr, index, data, clusters, sum, count, rows, ncls);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
-
-  m.def("mean_dense", [](std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t g, int rows,
-                         int cols, int ncls, int itemsize) {
-    if (itemsize == 4) {
-      launch_mean_dense<float>(data, clusters, g, rows, cols, ncls);
-    } else if (itemsize == 8) {
-      launch_mean_dense<double>(data, clusters, g, rows, cols, ncls);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
-
-  m.def("mean_sparse",
-        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-           std::uintptr_t clusters, std::uintptr_t g, int rows, int ncls, int itemsize) {
-          if (itemsize == 4) {
-            launch_mean_sparse<float>(indptr, index, data, clusters, g, rows, ncls);
-          } else if (itemsize == 8) {
-            launch_mean_sparse<double>(indptr, index, data, clusters, g, rows, ncls);
-          } else {
-            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-          }
-        });
-
-  m.def("elementwise_diff", [](std::uintptr_t g, std::uintptr_t total_counts, int n_genes,
-                               int n_clusters, int itemsize) {
-    if (itemsize == 4) {
-      launch_elementwise_diff<float>(g, total_counts, n_genes, n_clusters);
-    } else if (itemsize == 8) {
-      launch_elementwise_diff<double>(g, total_counts, n_genes, n_clusters);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
-
-  m.def("interaction", [](std::uintptr_t interactions, std::uintptr_t interaction_clusters,
-                          std::uintptr_t mean, std::uintptr_t res, std::uintptr_t mask,
-                          std::uintptr_t g, int n_iter, int n_inter_clust, int ncls, int itemsize) {
-    if (itemsize == 4) {
-      launch_interaction<float>(interactions, interaction_clusters, mean, res, mask, g, n_iter,
-                                n_inter_clust, ncls);
-    } else if (itemsize == 8) {
-      launch_interaction<double>(interactions, interaction_clusters, mean, res, mask, g, n_iter,
-                                 n_inter_clust, ncls);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
-
-  m.def("res_mean",
-        [](std::uintptr_t interactions, std::uintptr_t interaction_clusters, std::uintptr_t mean,
-           std::uintptr_t res_mean, int n_inter, int n_inter_clust, int ncls, int itemsize) {
-          if (itemsize == 4) {
-            launch_res_mean<float>(interactions, interaction_clusters, mean, res_mean, n_inter,
-                                   n_inter_clust, ncls);
-          } else if (itemsize == 8) {
-            launch_res_mean<double>(interactions, interaction_clusters, mean, res_mean, n_inter,
-                                    n_inter_clust, ncls);
-          } else {
-            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-          }
-        });
+  m.def(
+      "sum_count_dense",
+      [](std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t sum, std::uintptr_t count,
+         int rows, int cols, int ncls, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_sum_count_dense<float>(data, clusters, sum, count, rows, cols, ncls,
+                                        (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_sum_count_dense<double>(data, clusters, sum, count, rows, cols, ncls,
+                                         (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("data"), nb::arg("clusters"), nb::arg("sum"), nb::arg("count"), nb::arg("rows"),
+      nb::arg("cols"), nb::arg("ncls"), nb::arg("itemsize"), nb::arg("stream") = 0);
+
+  m.def(
+      "sum_count_sparse",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t clusters,
+         std::uintptr_t sum, std::uintptr_t count, int rows, int ncls, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_sum_count_sparse<float>(indptr, index, data, clusters, sum, count, rows, ncls,
+                                         (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_sum_count_sparse<double>(indptr, index, data, clusters, sum, count, rows, ncls,
+                                          (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("clusters"), nb::arg("sum"),
+      nb::arg("count"), nb::arg("rows"), nb::arg("ncls"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
+
+  m.def(
+      "mean_dense",
+      [](std::uintptr_t data, std::uintptr_t clusters, std::uintptr_t g, int rows, int cols,
+         int ncls, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_mean_dense<float>(data, clusters, g, rows, cols, ncls, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_mean_dense<double>(data, clusters, g, rows, cols, ncls, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("data"), nb::arg("clusters"), nb::arg("g"), nb::arg("rows"), nb::arg("cols"),
+      nb::arg("ncls"), nb::arg("itemsize"), nb::arg("stream") = 0);
+
+  m.def(
+      "mean_sparse",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t clusters,
+         std::uintptr_t g, int rows, int ncls, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_mean_sparse<float>(indptr, index, data, clusters, g, rows, ncls,
+                                    (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_mean_sparse<double>(indptr, index, data, clusters, g, rows, ncls,
+                                     (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("clusters"), nb::arg("g"),
+      nb::arg("rows"), nb::arg("ncls"), nb::arg("itemsize"), nb::arg("stream") = 0);
+
+  m.def(
+      "elementwise_diff",
+      [](std::uintptr_t g, std::uintptr_t total_counts, int n_genes, int n_clusters, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_elementwise_diff<float>(g, total_counts, n_genes, n_clusters,
+                                         (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_elementwise_diff<double>(g, total_counts, n_genes, n_clusters,
+                                          (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("g"), nb::arg("total_counts"), nb::arg("n_genes"), nb::arg("n_clusters"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
+
+  m.def(
+      "interaction",
+      [](std::uintptr_t interactions, std::uintptr_t interaction_clusters, std::uintptr_t mean,
+         std::uintptr_t res, std::uintptr_t mask, std::uintptr_t g, int n_iter, int n_inter_clust,
+         int ncls, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_interaction<float>(interactions, interaction_clusters, mean, res, mask, g, n_iter,
+                                    n_inter_clust, ncls, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_interaction<double>(interactions, interaction_clusters, mean, res, mask, g, n_iter,
+                                     n_inter_clust, ncls, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("interactions"), nb::arg("interaction_clusters"), nb::arg("mean"), nb::arg("res"),
+      nb::arg("mask"), nb::arg("g"), nb::arg("n_iter"), nb::arg("n_inter_clust"), nb::arg("ncls"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
+
+  m.def(
+      "res_mean",
+      [](std::uintptr_t interactions, std::uintptr_t interaction_clusters, std::uintptr_t mean,
+         std::uintptr_t res_mean, int n_inter, int n_inter_clust, int ncls, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_res_mean<float>(interactions, interaction_clusters, mean, res_mean, n_inter,
+                                 n_inter_clust, ncls, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_res_mean<double>(interactions, interaction_clusters, mean, res_mean, n_inter,
+                                  n_inter_clust, ncls, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("interactions"), nb::arg("interaction_clusters"), nb::arg("mean"),
+      nb::arg("res_mean"), nb::arg("n_inter"), nb::arg("n_inter_clust"), nb::arg("ncls"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
index 28648f49..c8762582 100644
--- a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
+++ b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
@@ -10,7 +10,8 @@ using nb::handle;
 template <typename T>
 static inline void launch_mean_var_major(std::uintptr_t indptr_ptr, std::uintptr_t indices_ptr,
                                          std::uintptr_t data_ptr, std::uintptr_t means_ptr,
-                                         std::uintptr_t vars_ptr, int major, int minor) {
+                                         std::uintptr_t vars_ptr, int major, int minor,
+                                         cudaStream_t stream) {
   dim3 block(64);
   dim3 grid(major);
   const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
@@ -18,54 +19,65 @@ static inline void launch_mean_var_major(std::uintptr_t indptr_ptr, std::uintptr
   const T* data = reinterpret_cast<const T*>(data_ptr);
   double* means = reinterpret_cast<double*>(means_ptr);
   double* vars = reinterpret_cast<double*>(vars_ptr);
-  mean_var_major_kernel<T><<<grid, block>>>(indptr, indices, data, means, vars, major, minor);
+  mean_var_major_kernel<T>
+      <<<grid, block, 0, stream>>>(indptr, indices, data, means, vars, major, minor);
 }
 
 template <typename T>
 static inline void launch_mean_var_minor(std::uintptr_t indices_ptr, std::uintptr_t data_ptr,
-                                         std::uintptr_t means_ptr, std::uintptr_t vars_ptr,
-                                         int nnz) {
+                                         std::uintptr_t means_ptr, std::uintptr_t vars_ptr, int nnz,
+                                         cudaStream_t stream) {
   int block = 256;
   int grid = (nnz + block - 1) / block;
   const int* indices = reinterpret_cast<const int*>(indices_ptr);
   const T* data = reinterpret_cast<const T*>(data_ptr);
   double* means = reinterpret_cast<double*>(means_ptr);
   double* vars = reinterpret_cast<double*>(vars_ptr);
-  mean_var_minor_kernel<T><<<grid, block>>>(indices, data, means, vars, nnz);
+  mean_var_minor_kernel<T><<<grid, block, 0, stream>>>(indices, data, means, vars, nnz);
 }
 
 template <typename T>
 void mean_var_major_api(std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data,
-                        std::uintptr_t means, std::uintptr_t vars, int major, int minor) {
-  launch_mean_var_major<T>(indptr, indices, data, means, vars, major, minor);
+                        std::uintptr_t means, std::uintptr_t vars, int major, int minor,
+                        cudaStream_t stream) {
+  launch_mean_var_major<T>(indptr, indices, data, means, vars, major, minor, stream);
 }
 
 template <typename T>
 void mean_var_minor_api(std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
-                        std::uintptr_t vars, int nnz) {
-  launch_mean_var_minor<T>(indices, data, means, vars, nnz);
+                        std::uintptr_t vars, int nnz, cudaStream_t stream) {
+  launch_mean_var_minor<T>(indices, data, means, vars, nnz, stream);
 }
 
 NB_MODULE(_mean_var_cuda, m) {
-  m.def("mean_var_major",
-        [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
-           std::uintptr_t vars, int major, int minor, int itemsize) {
-          if (itemsize == 4) {
-            mean_var_major_api<float>(indptr, indices, data, means, vars, major, minor);
-          } else if (itemsize == 8) {
-            mean_var_major_api<double>(indptr, indices, data, means, vars, major, minor);
-          } else {
-            throw nb::value_error("Unsupported itemsize for mean_var_major (expected 4 or 8)");
-          }
-        });
-  m.def("mean_var_minor", [](std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
-                             std::uintptr_t vars, int nnz, int itemsize) {
-    if (itemsize == 4) {
-      mean_var_minor_api<float>(indices, data, means, vars, nnz);
-    } else if (itemsize == 8) {
-      mean_var_minor_api<double>(indices, data, means, vars, nnz);
-    } else {
-      throw nb::value_error("Unsupported itemsize for mean_var_minor (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "mean_var_major",
+      [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means,
+         std::uintptr_t vars, int major, int minor, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          mean_var_major_api<float>(indptr, indices, data, means, vars, major, minor,
+                                    (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          mean_var_major_api<double>(indptr, indices, data, means, vars, major, minor,
+                                     (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize for mean_var_major (expected 4 or 8)");
+        }
+      },
+      nb::arg("indptr"), nb::arg("indices"), nb::arg("data"), nb::arg("means"), nb::arg("vars"),
+      nb::arg("major"), nb::arg("minor"), nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "mean_var_minor",
+      [](std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means, std::uintptr_t vars,
+         int nnz, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          mean_var_minor_api<float>(indices, data, means, vars, nnz, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          mean_var_minor_api<double>(indices, data, means, vars, nnz, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize for mean_var_minor (expected 4 or 8)");
+        }
+      },
+      nb::arg("indices"), nb::arg("data"), nb::arg("means"), nb::arg("vars"), nb::arg("nnz"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/nanmean/nanmean.cu b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
index ddcbe5dc..5fcd768b 100644
--- a/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
+++ b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
@@ -9,47 +9,58 @@ namespace nb = nanobind;
 template <typename T>
 static inline void launch_nan_mean_minor(std::uintptr_t index, std::uintptr_t data,
                                          std::uintptr_t means, std::uintptr_t nans,
-                                         std::uintptr_t mask, int nnz) {
+                                         std::uintptr_t mask, int nnz, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((nnz + block.x - 1) / block.x);
-  nan_mean_minor_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(index), reinterpret_cast<const T*>(data),
-                        reinterpret_cast<double*>(means), reinterpret_cast<int*>(nans),
-                        reinterpret_cast<const bool*>(mask), nnz);
+  nan_mean_minor_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(index), reinterpret_cast<const T*>(data),
+      reinterpret_cast<double*>(means), reinterpret_cast<int*>(nans),
+      reinterpret_cast<const bool*>(mask), nnz);
 }
 
 template <typename T>
 static inline void launch_nan_mean_major(std::uintptr_t indptr, std::uintptr_t index,
                                          std::uintptr_t data, std::uintptr_t means,
                                          std::uintptr_t nans, std::uintptr_t mask, int major,
-                                         int minor) {
+                                         int minor, cudaStream_t stream) {
   dim3 block(64);
   dim3 grid(major);
-  nan_mean_major_kernel<T><<<grid, block>>>(
+  nan_mean_major_kernel<T><<<grid, block, 0, stream>>>(
       reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
       reinterpret_cast<const T*>(data), reinterpret_cast<double*>(means),
       reinterpret_cast<int*>(nans), reinterpret_cast<const bool*>(mask), major, minor);
 }
 
 NB_MODULE(_nanmean_cuda, m) {
-  m.def("nan_mean_minor", [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t means,
-                             std::uintptr_t nans, std::uintptr_t mask, int nnz, int itemsize) {
-    if (itemsize == 4)
-      launch_nan_mean_minor<float>(index, data, means, nans, mask, nnz);
-    else if (itemsize == 8)
-      launch_nan_mean_minor<double>(index, data, means, nans, mask, nnz);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
+  m.def(
+      "nan_mean_minor",
+      [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t means, std::uintptr_t nans,
+         std::uintptr_t mask, int nnz, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_nan_mean_minor<float>(index, data, means, nans, mask, nnz, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_nan_mean_minor<double>(index, data, means, nans, mask, nnz, (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("index"), nb::arg("data"), nb::arg("means"), nb::arg("nans"), nb::arg("mask"),
+      nb::arg("nnz"), nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("nan_mean_major",
-        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t means,
-           std::uintptr_t nans, std::uintptr_t mask, int major, int minor, int itemsize) {
-          if (itemsize == 4)
-            launch_nan_mean_major<float>(indptr, index, data, means, nans, mask, major, minor);
-          else if (itemsize == 8)
-            launch_nan_mean_major<double>(indptr, index, data, means, nans, mask, major, minor);
-          else
-            throw nb::value_error("Unsupported itemsize");
-        });
+  m.def(
+      "nan_mean_major",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t means,
+         std::uintptr_t nans, std::uintptr_t mask, int major, int minor, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_nan_mean_major<float>(indptr, index, data, means, nans, mask, major, minor,
+                                       (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_nan_mean_major<double>(indptr, index, data, means, nans, mask, major, minor,
+                                        (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("means"), nb::arg("nans"),
+      nb::arg("mask"), nb::arg("major"), nb::arg("minor"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
index 8a61c2b7..992ceb07 100644
--- a/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
+++ b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
@@ -8,34 +8,58 @@ namespace nb = nanobind;
 
 static inline void launch_sqeuclidean(std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs,
                                       long long n_samples, long long n_features,
-                                      long long n_neighbors) {
+                                      long long n_neighbors, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((unsigned)((n_samples + block.x - 1) / block.x));
-  compute_distances_sqeuclidean_kernel<<<grid, block>>>(
+  compute_distances_sqeuclidean_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const float*>(data), reinterpret_cast<float*>(out),
       reinterpret_cast<const unsigned int*>(pairs), n_samples, n_features, n_neighbors);
 }
 
 static inline void launch_cosine(std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs,
-                                 long long n_samples, long long n_features, long long n_neighbors) {
+                                 long long n_samples, long long n_features, long long n_neighbors,
+                                 cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((unsigned)((n_samples + block.x - 1) / block.x));
-  compute_distances_cosine_kernel<<<grid, block>>>(
+  compute_distances_cosine_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const float*>(data), reinterpret_cast<float*>(out),
       reinterpret_cast<const unsigned int*>(pairs), n_samples, n_features, n_neighbors);
 }
 
 static inline void launch_inner(std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs,
-                                long long n_samples, long long n_features, long long n_neighbors) {
+                                long long n_samples, long long n_features, long long n_neighbors,
+                                cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((unsigned)((n_samples + block.x - 1) / block.x));
-  compute_distances_inner_kernel<<<grid, block>>>(
+  compute_distances_inner_kernel<<<grid, block, 0, stream>>>(
       reinterpret_cast<const float*>(data), reinterpret_cast<float*>(out),
       reinterpret_cast<const unsigned int*>(pairs), n_samples, n_features, n_neighbors);
 }
 
 NB_MODULE(_nn_descent_cuda, m) {
-  m.def("sqeuclidean", &launch_sqeuclidean);
-  m.def("cosine", &launch_cosine);
-  m.def("inner", &launch_inner);
+  m.def(
+      "sqeuclidean",
+      [](std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs, long long n_samples,
+         long long n_features, long long n_neighbors, std::uintptr_t stream) {
+        launch_sqeuclidean(data, out, pairs, n_samples, n_features, n_neighbors,
+                           (cudaStream_t)stream);
+      },
+      nb::arg("data"), nb::arg("out"), nb::arg("pairs"), nb::arg("n_samples"),
+      nb::arg("n_features"), nb::arg("n_neighbors"), nb::arg("stream") = 0);
+  m.def(
+      "cosine",
+      [](std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs, long long n_samples,
+         long long n_features, long long n_neighbors, std::uintptr_t stream) {
+        launch_cosine(data, out, pairs, n_samples, n_features, n_neighbors, (cudaStream_t)stream);
+      },
+      nb::arg("data"), nb::arg("out"), nb::arg("pairs"), nb::arg("n_samples"),
+      nb::arg("n_features"), nb::arg("n_neighbors"), nb::arg("stream") = 0);
+  m.def(
+      "inner",
+      [](std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs, long long n_samples,
+         long long n_features, long long n_neighbors, std::uintptr_t stream) {
+        launch_inner(data, out, pairs, n_samples, n_features, n_neighbors, (cudaStream_t)stream);
+      },
+      nb::arg("data"), nb::arg("out"), nb::arg("pairs"), nb::arg("n_samples"),
+      nb::arg("n_features"), nb::arg("n_neighbors"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/norm/norm.cu b/src/rapids_singlecell/_cuda/norm/norm.cu
index 2bfaa013..37358214 100644
--- a/src/rapids_singlecell/_cuda/norm/norm.cu
+++ b/src/rapids_singlecell/_cuda/norm/norm.cu
@@ -8,66 +8,79 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_dense_row_scale(std::uintptr_t data_ptr, int nrows, int ncols,
-                                          T target_sum) {
+                                          T target_sum, cudaStream_t stream) {
   dim3 block(128);
   dim3 grid((nrows + block.x - 1) / block.x);
   T* data = reinterpret_cast<T*>(data_ptr);
-  dense_row_scale_kernel<T><<<grid, block>>>(data, nrows, ncols, target_sum);
+  dense_row_scale_kernel<T><<<grid, block, 0, stream>>>(data, nrows, ncols, target_sum);
 }
 
 template <typename T>
 static inline void launch_csr_row_scale(std::uintptr_t indptr_ptr, std::uintptr_t data_ptr,
-                                        int nrows, T target_sum) {
+                                        int nrows, T target_sum, cudaStream_t stream) {
   dim3 block(128);
   dim3 grid((nrows + block.x - 1) / block.x);
   const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
   T* data = reinterpret_cast<T*>(data_ptr);
-  csr_row_scale_kernel<T><<<grid, block>>>(indptr, data, nrows, target_sum);
+  csr_row_scale_kernel<T><<<grid, block, 0, stream>>>(indptr, data, nrows, target_sum);
 }
 
 template <typename T>
 static inline void launch_csr_sum_major(std::uintptr_t indptr_ptr, std::uintptr_t data_ptr,
-                                        std::uintptr_t sums_ptr, int major) {
+                                        std::uintptr_t sums_ptr, int major, cudaStream_t stream) {
   dim3 block(64);
   dim3 grid(major);
   std::size_t smem = static_cast<std::size_t>(block.x) * sizeof(T);
   const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
   const T* data = reinterpret_cast<const T*>(data_ptr);
   T* sums = reinterpret_cast<T*>(sums_ptr);
-  csr_sum_major_kernel<T><<<grid, block, smem>>>(indptr, data, sums, major);
+  csr_sum_major_kernel<T><<<grid, block, smem, stream>>>(indptr, data, sums, major);
 }
 
 NB_MODULE(_norm_cuda, m) {
-  m.def("mul_dense",
-        [](std::uintptr_t data, int nrows, int ncols, double target_sum, int itemsize) {
-          if (itemsize == 4) {
-            launch_dense_row_scale<float>(data, nrows, ncols, (float)target_sum);
-          } else if (itemsize == 8) {
-            launch_dense_row_scale<double>(data, nrows, ncols, target_sum);
-          } else {
-            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-          }
-        });
+  m.def(
+      "mul_dense",
+      [](std::uintptr_t data, int nrows, int ncols, double target_sum, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_dense_row_scale<float>(data, nrows, ncols, (float)target_sum,
+                                        (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_dense_row_scale<double>(data, nrows, ncols, target_sum, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("data"), nb::arg("nrows"), nb::arg("ncols"), nb::arg("target_sum"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("mul_csr",
-        [](std::uintptr_t indptr, std::uintptr_t data, int nrows, double target_sum, int itemsize) {
-          if (itemsize == 4) {
-            launch_csr_row_scale<float>(indptr, data, nrows, (float)target_sum);
-          } else if (itemsize == 8) {
-            launch_csr_row_scale<double>(indptr, data, nrows, target_sum);
-          } else {
-            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-          }
-        });
+  m.def(
+      "mul_csr",
+      [](std::uintptr_t indptr, std::uintptr_t data, int nrows, double target_sum, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_csr_row_scale<float>(indptr, data, nrows, (float)target_sum, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_csr_row_scale<double>(indptr, data, nrows, target_sum, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("indptr"), nb::arg("data"), nb::arg("nrows"), nb::arg("target_sum"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("sum_major", [](std::uintptr_t indptr, std::uintptr_t data, std::uintptr_t sums, int major,
-                        int itemsize) {
-    if (itemsize == 4) {
-      launch_csr_sum_major<float>(indptr, data, sums, major);
-    } else if (itemsize == 8) {
-      launch_csr_sum_major<double>(indptr, data, sums, major);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "sum_major",
+      [](std::uintptr_t indptr, std::uintptr_t data, std::uintptr_t sums, int major, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_csr_sum_major<float>(indptr, data, sums, major, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_csr_sum_major<double>(indptr, data, sums, major, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("indptr"), nb::arg("data"), nb::arg("sums"), nb::arg("major"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/pr/pr.cu b/src/rapids_singlecell/_cuda/pr/pr.cu
index e4825519..d39e2a42 100644
--- a/src/rapids_singlecell/_cuda/pr/pr.cu
+++ b/src/rapids_singlecell/_cuda/pr/pr.cu
@@ -12,14 +12,14 @@ static inline void launch_sparse_norm_res_csc(std::uintptr_t indptr, std::uintpt
                                               std::uintptr_t data, std::uintptr_t sums_cells,
                                               std::uintptr_t sums_genes, std::uintptr_t residuals,
                                               T inv_sum_total, T clip, T inv_theta, int n_cells,
-                                              int n_genes) {
+                                              int n_genes, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_genes + block.x - 1) / block.x);
-  sparse_norm_res_csc_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_cells),
-                        reinterpret_cast<const T*>(sums_genes), reinterpret_cast<T*>(residuals),
-                        inv_sum_total, clip, inv_theta, n_cells, n_genes);
+  sparse_norm_res_csc_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_cells),
+      reinterpret_cast<const T*>(sums_genes), reinterpret_cast<T*>(residuals), inv_sum_total, clip,
+      inv_theta, n_cells, n_genes);
 }
 
 template <typename T>
@@ -27,24 +27,24 @@ static inline void launch_sparse_norm_res_csr(std::uintptr_t indptr, std::uintpt
                                               std::uintptr_t data, std::uintptr_t sums_cells,
                                               std::uintptr_t sums_genes, std::uintptr_t residuals,
                                               T inv_sum_total, T clip, T inv_theta, int n_cells,
-                                              int n_genes) {
+                                              int n_genes, cudaStream_t stream) {
   dim3 block(8);
   dim3 grid((n_cells + block.x - 1) / block.x);
-  sparse_norm_res_csr_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_cells),
-                        reinterpret_cast<const T*>(sums_genes), reinterpret_cast<T*>(residuals),
-                        inv_sum_total, clip, inv_theta, n_cells, n_genes);
+  sparse_norm_res_csr_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_cells),
+      reinterpret_cast<const T*>(sums_genes), reinterpret_cast<T*>(residuals), inv_sum_total, clip,
+      inv_theta, n_cells, n_genes);
 }
 
 template <typename T>
 static inline void launch_dense_norm_res(std::uintptr_t X, std::uintptr_t residuals,
                                          std::uintptr_t sums_cells, std::uintptr_t sums_genes,
                                          T inv_sum_total, T clip, T inv_theta, int n_cells,
-                                         int n_genes) {
+                                         int n_genes, cudaStream_t stream) {
   dim3 block(8, 8);
   dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
-  dense_norm_res_kernel<T><<<grid, block>>>(
+  dense_norm_res_kernel<T><<<grid, block, 0, stream>>>(
       reinterpret_cast<const T*>(X), reinterpret_cast<T*>(residuals),
       reinterpret_cast<const T*>(sums_cells), reinterpret_cast<const T*>(sums_genes), inv_sum_total,
       clip, inv_theta, n_cells, n_genes);
@@ -55,99 +55,131 @@ static inline void launch_csc_hvg_res(std::uintptr_t indptr, std::uintptr_t inde
                                       std::uintptr_t data, std::uintptr_t sums_genes,
                                       std::uintptr_t sums_cells, std::uintptr_t residuals,
                                       T inv_sum_total, T clip, T inv_theta, int n_genes,
-                                      int n_cells) {
+                                      int n_cells, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_genes + block.x - 1) / block.x);
-  csc_hvg_res_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_genes),
-                        reinterpret_cast<const T*>(sums_cells), reinterpret_cast<T*>(residuals),
-                        inv_sum_total, clip, inv_theta, n_genes, n_cells);
+  csc_hvg_res_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_genes),
+      reinterpret_cast<const T*>(sums_cells), reinterpret_cast<T*>(residuals), inv_sum_total, clip,
+      inv_theta, n_genes, n_cells);
 }
 
 template <typename T>
 static inline void launch_dense_hvg_res(std::uintptr_t data, std::uintptr_t sums_genes,
                                         std::uintptr_t sums_cells, std::uintptr_t residuals,
                                         T inv_sum_total, T clip, T inv_theta, int n_genes,
-                                        int n_cells) {
+                                        int n_cells, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_genes + block.x - 1) / block.x);
-  dense_hvg_res_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_genes),
-                        reinterpret_cast<const T*>(sums_cells), reinterpret_cast<T*>(residuals),
-                        inv_sum_total, clip, inv_theta, n_genes, n_cells);
+  dense_hvg_res_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(data), reinterpret_cast<const T*>(sums_genes),
+      reinterpret_cast<const T*>(sums_cells), reinterpret_cast<T*>(residuals), inv_sum_total, clip,
+      inv_theta, n_genes, n_cells);
 }
 
 NB_MODULE(_pr_cuda, m) {
-  m.def("sparse_norm_res_csc", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                                  std::uintptr_t residuals, double inv_sum_total, double clip,
-                                  double inv_theta, int n_cells, int n_genes, int itemsize) {
-    if (itemsize == 4)
-      launch_sparse_norm_res_csc<float>(indptr, index, data, sums_cells, sums_genes, residuals,
-                                        (float)inv_sum_total, (float)clip, (float)inv_theta,
-                                        n_cells, n_genes);
-    else if (itemsize == 8)
-      launch_sparse_norm_res_csc<double>(indptr, index, data, sums_cells, sums_genes, residuals,
-                                         inv_sum_total, clip, inv_theta, n_cells, n_genes);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
+  m.def(
+      "sparse_norm_res_csc",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_cells, std::uintptr_t sums_genes, std::uintptr_t residuals,
+         double inv_sum_total, double clip, double inv_theta, int n_cells, int n_genes,
+         int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_sparse_norm_res_csc<float>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                            (float)inv_sum_total, (float)clip, (float)inv_theta,
+                                            n_cells, n_genes, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_sparse_norm_res_csc<double>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                             inv_sum_total, clip, inv_theta, n_cells, n_genes,
+                                             (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
+      nb::arg("sums_genes"), nb::arg("residuals"), nb::arg("inv_sum_total"), nb::arg("clip"),
+      nb::arg("inv_theta"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 
-  m.def("sparse_norm_res_csr", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                                  std::uintptr_t residuals, double inv_sum_total, double clip,
-                                  double inv_theta, int n_cells, int n_genes, int itemsize) {
-    if (itemsize == 4)
-      launch_sparse_norm_res_csr<float>(indptr, index, data, sums_cells, sums_genes, residuals,
-                                        (float)inv_sum_total, (float)clip, (float)inv_theta,
-                                        n_cells, n_genes);
-    else if (itemsize == 8)
-      launch_sparse_norm_res_csr<double>(indptr, index, data, sums_cells, sums_genes, residuals,
-                                         inv_sum_total, clip, inv_theta, n_cells, n_genes);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
+  m.def(
+      "sparse_norm_res_csr",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_cells, std::uintptr_t sums_genes, std::uintptr_t residuals,
+         double inv_sum_total, double clip, double inv_theta, int n_cells, int n_genes,
+         int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_sparse_norm_res_csr<float>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                            (float)inv_sum_total, (float)clip, (float)inv_theta,
+                                            n_cells, n_genes, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_sparse_norm_res_csr<double>(indptr, index, data, sums_cells, sums_genes, residuals,
+                                             inv_sum_total, clip, inv_theta, n_cells, n_genes,
+                                             (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
+      nb::arg("sums_genes"), nb::arg("residuals"), nb::arg("inv_sum_total"), nb::arg("clip"),
+      nb::arg("inv_theta"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 
-  m.def("dense_norm_res", [](std::uintptr_t X, std::uintptr_t residuals, std::uintptr_t sums_cells,
-                             std::uintptr_t sums_genes, double inv_sum_total, double clip,
-                             double inv_theta, int n_cells, int n_genes, int itemsize) {
-    if (itemsize == 4)
-      launch_dense_norm_res<float>(X, residuals, sums_cells, sums_genes, (float)inv_sum_total,
-                                   (float)clip, (float)inv_theta, n_cells, n_genes);
-    else if (itemsize == 8)
-      launch_dense_norm_res<double>(X, residuals, sums_cells, sums_genes, inv_sum_total, clip,
-                                    inv_theta, n_cells, n_genes);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
+  m.def(
+      "dense_norm_res",
+      [](std::uintptr_t X, std::uintptr_t residuals, std::uintptr_t sums_cells,
+         std::uintptr_t sums_genes, double inv_sum_total, double clip, double inv_theta,
+         int n_cells, int n_genes, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_dense_norm_res<float>(X, residuals, sums_cells, sums_genes, (float)inv_sum_total,
+                                       (float)clip, (float)inv_theta, n_cells, n_genes,
+                                       (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_dense_norm_res<double>(X, residuals, sums_cells, sums_genes, inv_sum_total, clip,
+                                        inv_theta, n_cells, n_genes, (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("X"), nb::arg("residuals"), nb::arg("sums_cells"), nb::arg("sums_genes"),
+      nb::arg("inv_sum_total"), nb::arg("clip"), nb::arg("inv_theta"), nb::arg("n_cells"),
+      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("csc_hvg_res", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                          std::uintptr_t sums_genes, std::uintptr_t sums_cells,
-                          std::uintptr_t residuals, double inv_sum_total, double clip,
-                          double inv_theta, int n_genes, int n_cells, int itemsize) {
-    if (itemsize == 4)
-      launch_csc_hvg_res<float>(indptr, index, data, sums_genes, sums_cells, residuals,
-                                (float)inv_sum_total, (float)clip, (float)inv_theta, n_genes,
-                                n_cells);
-    else if (itemsize == 8)
-      launch_csc_hvg_res<double>(indptr, index, data, sums_genes, sums_cells, residuals,
-                                 inv_sum_total, clip, inv_theta, n_genes, n_cells);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
+  m.def(
+      "csc_hvg_res",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_genes, std::uintptr_t sums_cells, std::uintptr_t residuals,
+         double inv_sum_total, double clip, double inv_theta, int n_genes, int n_cells,
+         int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_csc_hvg_res<float>(indptr, index, data, sums_genes, sums_cells, residuals,
+                                    (float)inv_sum_total, (float)clip, (float)inv_theta, n_genes,
+                                    n_cells, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_csc_hvg_res<double>(indptr, index, data, sums_genes, sums_cells, residuals,
+                                     inv_sum_total, clip, inv_theta, n_genes, n_cells,
+                                     (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_genes"),
+      nb::arg("sums_cells"), nb::arg("residuals"), nb::arg("inv_sum_total"), nb::arg("clip"),
+      nb::arg("inv_theta"), nb::arg("n_genes"), nb::arg("n_cells"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 
   m.def(
-      "dense_hvg_res", [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t sums_cells,
-                          std::uintptr_t residuals, double inv_sum_total, double clip,
-                          double inv_theta, int n_genes, int n_cells, int itemsize) {
+      "dense_hvg_res",
+      [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t sums_cells,
+         std::uintptr_t residuals, double inv_sum_total, double clip, double inv_theta, int n_genes,
+         int n_cells, int itemsize, std::uintptr_t stream) {
         if (itemsize == 4)
           launch_dense_hvg_res<float>(data, sums_genes, sums_cells, residuals, (float)inv_sum_total,
-                                      (float)clip, (float)inv_theta, n_genes, n_cells);
+                                      (float)clip, (float)inv_theta, n_genes, n_cells,
+                                      (cudaStream_t)stream);
         else if (itemsize == 8)
           launch_dense_hvg_res<double>(data, sums_genes, sums_cells, residuals, inv_sum_total, clip,
-                                       inv_theta, n_genes, n_cells);
+                                       inv_theta, n_genes, n_cells, (cudaStream_t)stream);
         else
           throw nb::value_error("Unsupported itemsize");
-      });
+      },
+      nb::arg("data"), nb::arg("sums_genes"), nb::arg("sums_cells"), nb::arg("residuals"),
+      nb::arg("inv_sum_total"), nb::arg("clip"), nb::arg("inv_theta"), nb::arg("n_genes"),
+      nb::arg("n_cells"), nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/pv/pv.cu b/src/rapids_singlecell/_cuda/pv/pv.cu
index f5064d24..436fcc70 100644
--- a/src/rapids_singlecell/_cuda/pv/pv.cu
+++ b/src/rapids_singlecell/_cuda/pv/pv.cu
@@ -6,15 +6,19 @@
 
 namespace nb = nanobind;
 
-static inline void launch_rev_cummin64(std::uintptr_t x, std::uintptr_t y, int n_rows, int m) {
+static inline void launch_rev_cummin64(std::uintptr_t x, std::uintptr_t y, int n_rows, int m,
+                                       cudaStream_t stream) {
   dim3 block(256);
   dim3 grid((unsigned)((n_rows + block.x - 1) / block.x));
-  rev_cummin64_kernel<<<grid, block>>>(reinterpret_cast<const double*>(x),
-                                       reinterpret_cast<double*>(y), n_rows, m);
+  rev_cummin64_kernel<<<grid, block, 0, stream>>>(reinterpret_cast<const double*>(x),
+                                                  reinterpret_cast<double*>(y), n_rows, m);
 }
 
 NB_MODULE(_pv_cuda, m) {
-  m.def("rev_cummin64", [](std::uintptr_t x, std::uintptr_t y, int n_rows, int m) {
-    launch_rev_cummin64(x, y, n_rows, m);
-  });
+  m.def(
+      "rev_cummin64",
+      [](std::uintptr_t x, std::uintptr_t y, int n_rows, int m, std::uintptr_t stream) {
+        launch_rev_cummin64(x, y, n_rows, m, (cudaStream_t)stream);
+      },
+      nb::arg("x"), nb::arg("y"), nb::arg("n_rows"), nb::arg("m"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/qc/qc.cu b/src/rapids_singlecell/_cuda/qc/qc.cu
index 65c66414..a9e9d197 100644
--- a/src/rapids_singlecell/_cuda/qc/qc.cu
+++ b/src/rapids_singlecell/_cuda/qc/qc.cu
@@ -9,135 +9,176 @@ namespace nb = nanobind;
 template <typename T>
 static inline void launch_qc_csc(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                                 std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_genes) {
+                                 std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_genes,
+                                 cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_genes + block.x - 1) / block.x);
-  qc_csc_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
-                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
-                        reinterpret_cast<int*>(gene_ex), n_genes);
+  qc_csc_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
+      reinterpret_cast<int*>(gene_ex), n_genes);
 }
 
 template <typename T>
 static inline void launch_qc_csr(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
                                  std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                                 std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_cells) {
+                                 std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_cells,
+                                 cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_cells + block.x - 1) / block.x);
-  qc_csr_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
-                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
-                        reinterpret_cast<int*>(gene_ex), n_cells);
+  qc_csr_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
+      reinterpret_cast<int*>(gene_ex), n_cells);
 }
 
 template <typename T>
 static inline void launch_qc_dense(std::uintptr_t data, std::uintptr_t sums_cells,
                                    std::uintptr_t sums_genes, std::uintptr_t cell_ex,
-                                   std::uintptr_t gene_ex, int n_cells, int n_genes) {
+                                   std::uintptr_t gene_ex, int n_cells, int n_genes,
+                                   cudaStream_t stream) {
   dim3 block(16, 16);
   dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
-  qc_dense_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
-                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
-                        reinterpret_cast<int*>(gene_ex), n_cells, n_genes);
+  qc_dense_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(cell_ex),
+      reinterpret_cast<int*>(gene_ex), n_cells, n_genes);
 }
 
 template <typename T>
 static inline void launch_qc_csc_sub(std::uintptr_t indptr, std::uintptr_t index,
                                      std::uintptr_t data, std::uintptr_t sums_cells,
-                                     std::uintptr_t mask, int n_genes) {
+                                     std::uintptr_t mask, int n_genes, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_genes + block.x - 1) / block.x);
-  qc_csc_sub_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
-                        reinterpret_cast<const bool*>(mask), n_genes);
+  qc_csc_sub_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<const bool*>(mask), n_genes);
 }
 
 template <typename T>
 static inline void launch_qc_csr_sub(std::uintptr_t indptr, std::uintptr_t index,
                                      std::uintptr_t data, std::uintptr_t sums_cells,
-                                     std::uintptr_t mask, int n_cells) {
+                                     std::uintptr_t mask, int n_cells, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_cells + block.x - 1) / block.x);
-  qc_csr_sub_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
-                        reinterpret_cast<const bool*>(mask), n_cells);
+  qc_csr_sub_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<const bool*>(mask), n_cells);
 }
 
 template <typename T>
 static inline void launch_qc_dense_sub(std::uintptr_t data, std::uintptr_t sums_cells,
-                                       std::uintptr_t mask, int n_cells, int n_genes) {
+                                       std::uintptr_t mask, int n_cells, int n_genes,
+                                       cudaStream_t stream) {
   dim3 block(16, 16);
   dim3 grid((n_cells + block.x - 1) / block.x, (n_genes + block.y - 1) / block.y);
-  qc_dense_sub_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
-                                          reinterpret_cast<T*>(sums_cells),
-                                          reinterpret_cast<const bool*>(mask), n_cells, n_genes);
+  qc_dense_sub_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<const bool*>(mask), n_cells, n_genes);
 }
 
 NB_MODULE(_qc_cuda, m) {
-  m.def("sparse_qc_csc", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                            std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                            std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_genes,
-                            int itemsize) {
-    if (itemsize == 4)
-      launch_qc_csc<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
-    else if (itemsize == 8)
-      launch_qc_csc<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_genes);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
-  m.def("sparse_qc_csr", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                            std::uintptr_t sums_cells, std::uintptr_t sums_genes,
-                            std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_cells,
-                            int itemsize) {
-    if (itemsize == 4)
-      launch_qc_csr<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
-    else if (itemsize == 8)
-      launch_qc_csr<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
-  m.def("sparse_qc_dense", [](std::uintptr_t data, std::uintptr_t sums_cells,
-                              std::uintptr_t sums_genes, std::uintptr_t cell_ex,
-                              std::uintptr_t gene_ex, int n_cells, int n_genes, int itemsize) {
-    if (itemsize == 4)
-      launch_qc_dense<float>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
-    else if (itemsize == 8)
-      launch_qc_dense<double>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
-  m.def("sparse_qc_csc_sub",
-        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-           std::uintptr_t sums_cells, std::uintptr_t mask, int n_genes, int itemsize) {
-          if (itemsize == 4)
-            launch_qc_csc_sub<float>(indptr, index, data, sums_cells, mask, n_genes);
-          else if (itemsize == 8)
-            launch_qc_csc_sub<double>(indptr, index, data, sums_cells, mask, n_genes);
-          else
-            throw nb::value_error("Unsupported itemsize");
-        });
-  m.def("sparse_qc_csr_sub",
-        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-           std::uintptr_t sums_cells, std::uintptr_t mask, int n_cells, int itemsize) {
-          if (itemsize == 4)
-            launch_qc_csr_sub<float>(indptr, index, data, sums_cells, mask, n_cells);
-          else if (itemsize == 8)
-            launch_qc_csr_sub<double>(indptr, index, data, sums_cells, mask, n_cells);
-          else
-            throw nb::value_error("Unsupported itemsize");
-        });
-  m.def("sparse_qc_dense_sub", [](std::uintptr_t data, std::uintptr_t sums_cells,
-                                  std::uintptr_t mask, int n_cells, int n_genes, int itemsize) {
-    if (itemsize == 4)
-      launch_qc_dense_sub<float>(data, sums_cells, mask, n_cells, n_genes);
-    else if (itemsize == 8)
-      launch_qc_dense_sub<double>(data, sums_cells, mask, n_cells, n_genes);
-    else
-      throw nb::value_error("Unsupported itemsize");
-  });
+  m.def(
+      "sparse_qc_csc",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_cells, std::uintptr_t sums_genes, std::uintptr_t cell_ex,
+         std::uintptr_t gene_ex, int n_genes, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_csc<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex,
+                               n_genes, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_csc<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex,
+                                n_genes, (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
+      nb::arg("sums_genes"), nb::arg("cell_ex"), nb::arg("gene_ex"), nb::arg("n_genes"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_csr",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_cells, std::uintptr_t sums_genes, std::uintptr_t cell_ex,
+         std::uintptr_t gene_ex, int n_cells, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_csr<float>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex,
+                               n_cells, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_csr<double>(indptr, index, data, sums_cells, sums_genes, cell_ex, gene_ex,
+                                n_cells, (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
+      nb::arg("sums_genes"), nb::arg("cell_ex"), nb::arg("gene_ex"), nb::arg("n_cells"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_dense",
+      [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t sums_genes,
+         std::uintptr_t cell_ex, std::uintptr_t gene_ex, int n_cells, int n_genes, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_dense<float>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes,
+                                 (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_dense<double>(data, sums_cells, sums_genes, cell_ex, gene_ex, n_cells, n_genes,
+                                  (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("data"), nb::arg("sums_cells"), nb::arg("sums_genes"), nb::arg("cell_ex"),
+      nb::arg("gene_ex"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_csc_sub",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_cells, std::uintptr_t mask, int n_genes, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_csc_sub<float>(indptr, index, data, sums_cells, mask, n_genes,
+                                   (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_csc_sub<double>(indptr, index, data, sums_cells, mask, n_genes,
+                                    (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"), nb::arg("mask"),
+      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_csr_sub",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_cells, std::uintptr_t mask, int n_cells, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_csr_sub<float>(indptr, index, data, sums_cells, mask, n_cells,
+                                   (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_csr_sub<double>(indptr, index, data, sums_cells, mask, n_cells,
+                                    (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"), nb::arg("mask"),
+      nb::arg("n_cells"), nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_dense_sub",
+      [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t mask, int n_cells,
+         int n_genes, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_dense_sub<float>(data, sums_cells, mask, n_cells, n_genes,
+                                     (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_dense_sub<double>(data, sums_cells, mask, n_cells, n_genes,
+                                      (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("data"), nb::arg("sums_cells"), nb::arg("mask"), nb::arg("n_cells"),
+      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
index f4d5f0dc..be87cab0 100644
--- a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
+++ b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
@@ -9,84 +9,106 @@ namespace nb = nanobind;
 template <typename T>
 static inline void launch_qc_csr_cells(std::uintptr_t indptr, std::uintptr_t index,
                                        std::uintptr_t data, std::uintptr_t sums_cells,
-                                       std::uintptr_t cell_ex, int n_cells) {
+                                       std::uintptr_t cell_ex, int n_cells, cudaStream_t stream) {
   dim3 block(32);
   dim3 grid((n_cells + 31) / 32);
-  qc_csr_cells_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
-                        reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
-                        reinterpret_cast<int*>(cell_ex), n_cells);
+  qc_csr_cells_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(index),
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<int*>(cell_ex), n_cells);
 }
 
 template <typename T>
 static inline void launch_qc_csr_genes(std::uintptr_t index, std::uintptr_t data,
-                                       std::uintptr_t sums_genes, std::uintptr_t gene_ex, int nnz) {
+                                       std::uintptr_t sums_genes, std::uintptr_t gene_ex, int nnz,
+                                       cudaStream_t stream) {
   int block = 256;
   int grid = (nnz + block - 1) / block;
-  qc_csr_genes_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(index), reinterpret_cast<const T*>(data),
-                        reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(gene_ex), nnz);
+  qc_csr_genes_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(index), reinterpret_cast<const T*>(data),
+      reinterpret_cast<T*>(sums_genes), reinterpret_cast<int*>(gene_ex), nnz);
 }
 
 template <typename T>
 static inline void launch_qc_dense_cells(std::uintptr_t data, std::uintptr_t sums_cells,
-                                         std::uintptr_t cell_ex, int n_cells, int n_genes) {
+                                         std::uintptr_t cell_ex, int n_cells, int n_genes,
+                                         cudaStream_t stream) {
   dim3 block(16, 16);
   dim3 grid((n_cells + 15) / 16, (n_genes + 15) / 16);
-  qc_dense_cells_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
-                                            reinterpret_cast<T*>(sums_cells),
-                                            reinterpret_cast<int*>(cell_ex), n_cells, n_genes);
+  qc_dense_cells_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_cells),
+      reinterpret_cast<int*>(cell_ex), n_cells, n_genes);
 }
 
 template <typename T>
 static inline void launch_qc_dense_genes(std::uintptr_t data, std::uintptr_t sums_genes,
-                                         std::uintptr_t gene_ex, int n_cells, int n_genes) {
+                                         std::uintptr_t gene_ex, int n_cells, int n_genes,
+                                         cudaStream_t stream) {
   dim3 block(16, 16);
   dim3 grid((n_cells + 15) / 16, (n_genes + 15) / 16);
-  qc_dense_genes_kernel<T><<<grid, block>>>(reinterpret_cast<const T*>(data),
-                                            reinterpret_cast<T*>(sums_genes),
-                                            reinterpret_cast<int*>(gene_ex), n_cells, n_genes);
+  qc_dense_genes_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const T*>(data), reinterpret_cast<T*>(sums_genes),
+      reinterpret_cast<int*>(gene_ex), n_cells, n_genes);
 }
 
 NB_MODULE(_qc_dask_cuda, m) {
-  m.def("sparse_qc_csr_cells",
-        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-           std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells, int itemsize) {
-          if (itemsize == 4)
-            launch_qc_csr_cells<float>(indptr, index, data, sums_cells, cell_ex, n_cells);
-          else if (itemsize == 8)
-            launch_qc_csr_cells<double>(indptr, index, data, sums_cells, cell_ex, n_cells);
-          else
-            throw nb::value_error("Unsupported itemsize");
-        });
-  m.def("sparse_qc_csr_genes",
-        [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t sums_genes,
-           std::uintptr_t gene_ex, int nnz, int itemsize) {
-          if (itemsize == 4)
-            launch_qc_csr_genes<float>(index, data, sums_genes, gene_ex, nnz);
-          else if (itemsize == 8)
-            launch_qc_csr_genes<double>(index, data, sums_genes, gene_ex, nnz);
-          else
-            throw nb::value_error("Unsupported itemsize");
-        });
-  m.def("sparse_qc_dense_cells",
-        [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells,
-           int n_genes, int itemsize) {
-          if (itemsize == 4)
-            launch_qc_dense_cells<float>(data, sums_cells, cell_ex, n_cells, n_genes);
-          else if (itemsize == 8)
-            launch_qc_dense_cells<double>(data, sums_cells, cell_ex, n_cells, n_genes);
-          else
-            throw nb::value_error("Unsupported itemsize");
-        });
-  m.def("sparse_qc_dense_genes",
-        [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex, int n_cells,
-           int n_genes, int itemsize) {
-          if (itemsize == 4)
-            launch_qc_dense_genes<float>(data, sums_genes, gene_ex, n_cells, n_genes);
-          else if (itemsize == 8)
-            launch_qc_dense_genes<double>(data, sums_genes, gene_ex, n_cells, n_genes);
-          else
-            throw nb::value_error("Unsupported itemsize");
-        });
+  m.def(
+      "sparse_qc_csr_cells",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
+         std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_csr_cells<float>(indptr, index, data, sums_cells, cell_ex, n_cells,
+                                     (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_csr_cells<double>(indptr, index, data, sums_cells, cell_ex, n_cells,
+                                      (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
+      nb::arg("cell_ex"), nb::arg("n_cells"), nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_csr_genes",
+      [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t sums_genes,
+         std::uintptr_t gene_ex, int nnz, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_csr_genes<float>(index, data, sums_genes, gene_ex, nnz, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_csr_genes<double>(index, data, sums_genes, gene_ex, nnz, (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("index"), nb::arg("data"), nb::arg("sums_genes"), nb::arg("gene_ex"), nb::arg("nnz"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_dense_cells",
+      [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells,
+         int n_genes, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_dense_cells<float>(data, sums_cells, cell_ex, n_cells, n_genes,
+                                       (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_dense_cells<double>(data, sums_cells, cell_ex, n_cells, n_genes,
+                                        (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("data"), nb::arg("sums_cells"), nb::arg("cell_ex"), nb::arg("n_cells"),
+      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "sparse_qc_dense_genes",
+      [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex, int n_cells,
+         int n_genes, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_qc_dense_genes<float>(data, sums_genes, gene_ex, n_cells, n_genes,
+                                       (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_qc_dense_genes<double>(data, sums_genes, gene_ex, n_cells, n_genes,
+                                        (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize");
+      },
+      nb::arg("data"), nb::arg("sums_genes"), nb::arg("gene_ex"), nb::arg("n_cells"),
+      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/scale/scale.cu b/src/rapids_singlecell/_cuda/scale/scale.cu
index 6cdc1fc7..4046aa8d 100644
--- a/src/rapids_singlecell/_cuda/scale/scale.cu
+++ b/src/rapids_singlecell/_cuda/scale/scale.cu
@@ -8,34 +8,36 @@ namespace nb = nanobind;
 
 template <typename T>
 static inline void launch_csc_scale_diff(std::uintptr_t indptr, std::uintptr_t data,
-                                         std::uintptr_t std, int ncols) {
+                                         std::uintptr_t std, int ncols, cudaStream_t stream) {
   dim3 block(64);
   dim3 grid(ncols);
-  csc_scale_diff_kernel<T><<<grid, block>>>(reinterpret_cast<const int*>(indptr),
-                                            reinterpret_cast<T*>(data),
-                                            reinterpret_cast<const T*>(std), ncols);
+  csc_scale_diff_kernel<T><<<grid, block, 0, stream>>>(reinterpret_cast<const int*>(indptr),
+                                                       reinterpret_cast<T*>(data),
+                                                       reinterpret_cast<const T*>(std), ncols);
 }
 
 template <typename T>
 static inline void launch_csr_scale_diff(std::uintptr_t indptr, std::uintptr_t indices,
                                          std::uintptr_t data, std::uintptr_t std,
-                                         std::uintptr_t mask, T clipper, int nrows) {
+                                         std::uintptr_t mask, T clipper, int nrows,
+                                         cudaStream_t stream) {
   dim3 block(64);
   dim3 grid(nrows);
-  csr_scale_diff_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(indices),
-                        reinterpret_cast<T*>(data), reinterpret_cast<const T*>(std),
-                        reinterpret_cast<const int*>(mask), clipper, nrows);
+  csr_scale_diff_kernel<T><<<grid, block, 0, stream>>>(
+      reinterpret_cast<const int*>(indptr), reinterpret_cast<const int*>(indices),
+      reinterpret_cast<T*>(data), reinterpret_cast<const T*>(std),
+      reinterpret_cast<const int*>(mask), clipper, nrows);
 }
 
 template <typename T>
 static inline void launch_dense_scale_center_diff(std::uintptr_t data, std::uintptr_t mean,
                                                   std::uintptr_t std, std::uintptr_t mask,
-                                                  T clipper, long long nrows, long long ncols) {
+                                                  T clipper, long long nrows, long long ncols,
+                                                  cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((unsigned)((nrows + block.x - 1) / block.x),
             (unsigned)((ncols + block.y - 1) / block.y));
-  dense_scale_center_diff_kernel<T><<<grid, block>>>(
+  dense_scale_center_diff_kernel<T><<<grid, block, 0, stream>>>(
       reinterpret_cast<T*>(data), reinterpret_cast<const T*>(mean), reinterpret_cast<const T*>(std),
       reinterpret_cast<const int*>(mask), clipper, nrows, ncols);
 }
@@ -43,52 +45,72 @@ static inline void launch_dense_scale_center_diff(std::uintptr_t data, std::uint
 template <typename T>
 static inline void launch_dense_scale_diff(std::uintptr_t data, std::uintptr_t std,
                                            std::uintptr_t mask, T clipper, long long nrows,
-                                           long long ncols) {
+                                           long long ncols, cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((unsigned)((nrows + block.x - 1) / block.x),
             (unsigned)((ncols + block.y - 1) / block.y));
   dense_scale_diff_kernel<T>
-      <<<grid, block>>>(reinterpret_cast<T*>(data), reinterpret_cast<const T*>(std),
-                        reinterpret_cast<const int*>(mask), clipper, nrows, ncols);
+      <<<grid, block, 0, stream>>>(reinterpret_cast<T*>(data), reinterpret_cast<const T*>(std),
+                                   reinterpret_cast<const int*>(mask), clipper, nrows, ncols);
 }
 
 NB_MODULE(_scale_cuda, m) {
-  m.def("csc_scale_diff", [](std::uintptr_t indptr, std::uintptr_t data, std::uintptr_t std,
-                             int ncols, int itemsize) {
-    if (itemsize == 4)
-      launch_csc_scale_diff<float>(indptr, data, std, ncols);
-    else if (itemsize == 8)
-      launch_csc_scale_diff<double>(indptr, data, std, ncols);
-    else
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-  });
-  m.def("csr_scale_diff",
-        [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t std,
-           std::uintptr_t mask, double clipper, int nrows, int itemsize) {
-          if (itemsize == 4)
-            launch_csr_scale_diff<float>(indptr, indices, data, std, mask, (float)clipper, nrows);
-          else if (itemsize == 8)
-            launch_csr_scale_diff<double>(indptr, indices, data, std, mask, (double)clipper, nrows);
-          else
-            throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-        });
-  m.def("dense_scale_center_diff", [](std::uintptr_t data, std::uintptr_t mean, std::uintptr_t std,
-                                      std::uintptr_t mask, double clipper, long long nrows,
-                                      long long ncols, int itemsize) {
-    if (itemsize == 4)
-      launch_dense_scale_center_diff<float>(data, mean, std, mask, (float)clipper, nrows, ncols);
-    else if (itemsize == 8)
-      launch_dense_scale_center_diff<double>(data, mean, std, mask, (double)clipper, nrows, ncols);
-    else
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-  });
-  m.def("dense_scale_diff", [](std::uintptr_t data, std::uintptr_t std, std::uintptr_t mask,
-                               double clipper, long long nrows, long long ncols, int itemsize) {
-    if (itemsize == 4)
-      launch_dense_scale_diff<float>(data, std, mask, (float)clipper, nrows, ncols);
-    else if (itemsize == 8)
-      launch_dense_scale_diff<double>(data, std, mask, (double)clipper, nrows, ncols);
-    else
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-  });
+  m.def(
+      "csc_scale_diff",
+      [](std::uintptr_t indptr, std::uintptr_t data, std::uintptr_t std, int ncols, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_csc_scale_diff<float>(indptr, data, std, ncols, (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_csc_scale_diff<double>(indptr, data, std, ncols, (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+      },
+      nb::arg("indptr"), nb::arg("data"), nb::arg("std"), nb::arg("ncols"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
+  m.def(
+      "csr_scale_diff",
+      [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t std,
+         std::uintptr_t mask, double clipper, int nrows, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_csr_scale_diff<float>(indptr, indices, data, std, mask, (float)clipper, nrows,
+                                       (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_csr_scale_diff<double>(indptr, indices, data, std, mask, (double)clipper, nrows,
+                                        (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+      },
+      nb::arg("indptr"), nb::arg("indices"), nb::arg("data"), nb::arg("std"), nb::arg("mask"),
+      nb::arg("clipper"), nb::arg("nrows"), nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "dense_scale_center_diff",
+      [](std::uintptr_t data, std::uintptr_t mean, std::uintptr_t std, std::uintptr_t mask,
+         double clipper, long long nrows, long long ncols, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_dense_scale_center_diff<float>(data, mean, std, mask, (float)clipper, nrows, ncols,
+                                                (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_dense_scale_center_diff<double>(data, mean, std, mask, (double)clipper, nrows,
+                                                 ncols, (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+      },
+      nb::arg("data"), nb::arg("mean"), nb::arg("std"), nb::arg("mask"), nb::arg("clipper"),
+      nb::arg("nrows"), nb::arg("ncols"), nb::arg("itemsize"), nb::arg("stream") = 0);
+  m.def(
+      "dense_scale_diff",
+      [](std::uintptr_t data, std::uintptr_t std, std::uintptr_t mask, double clipper,
+         long long nrows, long long ncols, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4)
+          launch_dense_scale_diff<float>(data, std, mask, (float)clipper, nrows, ncols,
+                                         (cudaStream_t)stream);
+        else if (itemsize == 8)
+          launch_dense_scale_diff<double>(data, std, mask, (double)clipper, nrows, ncols,
+                                          (cudaStream_t)stream);
+        else
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+      },
+      nb::arg("data"), nb::arg("std"), nb::arg("mask"), nb::arg("clipper"), nb::arg("nrows"),
+      nb::arg("ncols"), nb::arg("itemsize"), nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
index df551424..b294771b 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
+++ b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
@@ -9,8 +9,9 @@ namespace nb = nanobind;
 template <typename T, bool C_ORDER>
 static inline void launch_typed(const int* indptr, const int* index, const T* data, T* out,
                                 long long major, long long minor, int max_nnz, dim3 grid,
-                                dim3 block) {
-  sparse2dense_kernel<T, C_ORDER><<<grid, block>>>(indptr, index, data, out, major, minor);
+                                dim3 block, cudaStream_t stream) {
+  sparse2dense_kernel<T, C_ORDER>
+      <<<grid, block, 0, stream>>>(indptr, index, data, out, major, minor);
 }
 
 template <typename T>
@@ -18,7 +19,7 @@ static inline void launch_sparse2dense(std::uintptr_t indptr_ptr, std::uintptr_t
                                        std::uintptr_t data_ptr, std::uintptr_t out_ptr,
                                        long long major, long long minor,
                                        bool c_switch,  // 1 = C (row-major), 0 = F (col-major)
-                                       int max_nnz) {
+                                       int max_nnz, cudaStream_t stream) {
   // Threads: 32x32 (1024) as you had; adjust if register pressure is high.
   dim3 block(32, 32);
   dim3 grid((unsigned)((major + block.x - 1) / block.x),
@@ -30,23 +31,31 @@ static inline void launch_sparse2dense(std::uintptr_t indptr_ptr, std::uintptr_t
   T* out = reinterpret_cast<T*>(out_ptr);
 
   if (c_switch == true) {
-    launch_typed<T, /*C_ORDER=*/true>(indptr, index, data, out, major, minor, max_nnz, grid, block);
+    launch_typed<T, /*C_ORDER=*/true>(indptr, index, data, out, major, minor, max_nnz, grid, block,
+                                      stream);
   } else {
-    launch_typed<T, /*C_ORDER=*/false>(indptr, index, data, out, major, minor, max_nnz, grid,
-                                       block);
+    launch_typed<T, /*C_ORDER=*/false>(indptr, index, data, out, major, minor, max_nnz, grid, block,
+                                       stream);
   }
 }
 
 NB_MODULE(_sparse2dense_cuda, m) {
-  m.def("sparse2dense",
-        [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t out,
-           long long major, long long minor, bool c_switch, int max_nnz, int itemsize) {
-          if (itemsize == 4) {
-            launch_sparse2dense<float>(indptr, index, data, out, major, minor, c_switch, max_nnz);
-          } else if (itemsize == 8) {
-            launch_sparse2dense<double>(indptr, index, data, out, major, minor, c_switch, max_nnz);
-          } else {
-            throw nb::value_error("Unsupported itemsize for sparse2dense (expected 4 or 8)");
-          }
-        });
+  m.def(
+      "sparse2dense",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t out,
+         long long major, long long minor, bool c_switch, int max_nnz, int itemsize,
+         std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_sparse2dense<float>(indptr, index, data, out, major, minor, c_switch, max_nnz,
+                                     (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_sparse2dense<double>(indptr, index, data, out, major, minor, c_switch, max_nnz,
+                                      (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize for sparse2dense (expected 4 or 8)");
+        }
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("out"), nb::arg("major"),
+      nb::arg("minor"), nb::arg("c_switch"), nb::arg("max_nnz"), nb::arg("itemsize"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/spca/kernels_spca.cuh b/src/rapids_singlecell/_cuda/spca/kernels_spca.cuh
index d6895240..80476817 100644
--- a/src/rapids_singlecell/_cuda/spca/kernels_spca.cuh
+++ b/src/rapids_singlecell/_cuda/spca/kernels_spca.cuh
@@ -42,8 +42,11 @@ __global__ void cov_from_gram_kernel(T* cov_values, const T* gram_matrix, const
   cov_values[rid * ncols + cid] = gram_matrix[rid * ncols + cid] - mean_x[rid] * mean_y[cid];
 }
 
-__global__ void check_zero_genes_kernel(const int* indices, int* genes, int nnz) {
+__global__ void check_zero_genes_kernel(const int* indices, int* genes, int nnz, int num_genes) {
   int value = blockIdx.x * blockDim.x + threadIdx.x;
   if (value >= nnz) return;
-  atomicAdd(&genes[indices[value]], 1);
+  int gene_index = indices[value];
+  if (gene_index >= 0 && gene_index < num_genes) {
+    atomicAdd(&genes[gene_index], 1);
+  }
 }
diff --git a/src/rapids_singlecell/_cuda/spca/spca.cu b/src/rapids_singlecell/_cuda/spca/spca.cu
index dbcd3d48..88a7e6b9 100644
--- a/src/rapids_singlecell/_cuda/spca/spca.cu
+++ b/src/rapids_singlecell/_cuda/spca/spca.cu
@@ -1,6 +1,7 @@
 #include <cuda_runtime.h>
 #include <nanobind/nanobind.h>
 #include <cstdint>
+#include <string>
 
 #include "kernels_spca.cuh"
 
@@ -9,80 +10,101 @@ namespace nb = nanobind;
 template <typename T>
 static inline void launch_gram_csr_upper(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
                                          std::uintptr_t data_ptr, int nrows, int ncols,
-                                         std::uintptr_t out_ptr) {
+                                         std::uintptr_t out_ptr, cudaStream_t stream) {
   dim3 block(128);
   dim3 grid(nrows);
   const int* indptr = reinterpret_cast<const int*>(indptr_ptr);
   const int* index = reinterpret_cast<const int*>(index_ptr);
   const T* data = reinterpret_cast<const T*>(data_ptr);
   T* out = reinterpret_cast<T*>(out_ptr);
-  gram_csr_upper_kernel<T><<<grid, block>>>(indptr, index, data, nrows, ncols, out);
+  gram_csr_upper_kernel<T><<<grid, block, 0, stream>>>(indptr, index, data, nrows, ncols, out);
 }
 
 template <typename T>
-static inline void launch_copy_upper_to_lower(std::uintptr_t out_ptr, int ncols) {
+static inline void launch_copy_upper_to_lower(std::uintptr_t out_ptr, int ncols,
+                                              cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((ncols + block.x - 1) / block.x, (ncols + block.y - 1) / block.y);
   T* out = reinterpret_cast<T*>(out_ptr);
-  copy_upper_to_lower_kernel<T><<<grid, block>>>(out, ncols);
+  copy_upper_to_lower_kernel<T><<<grid, block, 0, stream>>>(out, ncols);
 }
 
 template <typename T>
 static inline void launch_cov_from_gram(std::uintptr_t cov_ptr, std::uintptr_t gram_ptr,
                                         std::uintptr_t meanx_ptr, std::uintptr_t meany_ptr,
-                                        int ncols) {
+                                        int ncols, cudaStream_t stream) {
   dim3 block(32, 32);
   dim3 grid((ncols + 31) / 32, (ncols + 31) / 32);
   T* cov = reinterpret_cast<T*>(cov_ptr);
   const T* gram = reinterpret_cast<const T*>(gram_ptr);
   const T* meanx = reinterpret_cast<const T*>(meanx_ptr);
   const T* meany = reinterpret_cast<const T*>(meany_ptr);
-  cov_from_gram_kernel<T><<<grid, block>>>(cov, gram, meanx, meany, ncols);
+  cov_from_gram_kernel<T><<<grid, block, 0, stream>>>(cov, gram, meanx, meany, ncols);
 }
 
 static inline void launch_check_zero_genes(std::uintptr_t indices_ptr, std::uintptr_t genes_ptr,
-                                           int nnz) {
-  dim3 block(32);
-  dim3 grid((nnz + block.x - 1) / block.x);
-  const int* indices = reinterpret_cast<const int*>(indices_ptr);
-  int* genes = reinterpret_cast<int*>(genes_ptr);
-  check_zero_genes_kernel<<<grid, block>>>(indices, genes, nnz);
+                                           int nnz, int num_genes, cudaStream_t stream) {
+  if (nnz > 0) {
+    dim3 block(32);
+    dim3 grid((nnz + block.x - 1) / block.x);
+    const int* indices = reinterpret_cast<const int*>(indices_ptr);
+    int* genes = reinterpret_cast<int*>(genes_ptr);
+    check_zero_genes_kernel<<<grid, block, 0, stream>>>(indices, genes, nnz, num_genes);
+  }
 }
 
 NB_MODULE(_spca_cuda, m) {
-  m.def("gram_csr_upper", [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
-                             int nrows, int ncols, std::uintptr_t out, int itemsize) {
-    if (itemsize == 4) {
-      launch_gram_csr_upper<float>(indptr, index, data, nrows, ncols, out);
-    } else if (itemsize == 8) {
-      launch_gram_csr_upper<double>(indptr, index, data, nrows, ncols, out);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "gram_csr_upper",
+      [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, int nrows, int ncols,
+         std::uintptr_t out, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_gram_csr_upper<float>(indptr, index, data, nrows, ncols, out,
+                                       (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_gram_csr_upper<double>(indptr, index, data, nrows, ncols, out,
+                                        (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("nrows"), nb::arg("ncols"),
+      nb::arg("out"), nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("copy_upper_to_lower", [](std::uintptr_t out, int ncols, int itemsize) {
-    if (itemsize == 4) {
-      launch_copy_upper_to_lower<float>(out, ncols);
-    } else if (itemsize == 8) {
-      launch_copy_upper_to_lower<double>(out, ncols);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "copy_upper_to_lower",
+      [](std::uintptr_t out, int ncols, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_copy_upper_to_lower<float>(out, ncols, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_copy_upper_to_lower<double>(out, ncols, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("out"), nb::arg("ncols"), nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("cov_from_gram", [](std::uintptr_t cov, std::uintptr_t gram, std::uintptr_t meanx,
-                            std::uintptr_t meany, int ncols, int itemsize) {
-    if (itemsize == 4) {
-      launch_cov_from_gram<float>(cov, gram, meanx, meany, ncols);
-    } else if (itemsize == 8) {
-      launch_cov_from_gram<double>(cov, gram, meanx, meany, ncols);
-    } else {
-      throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
-    }
-  });
+  m.def(
+      "cov_from_gram",
+      [](std::uintptr_t cov, std::uintptr_t gram, std::uintptr_t meanx, std::uintptr_t meany,
+         int ncols, int itemsize, std::uintptr_t stream) {
+        if (itemsize == 4) {
+          launch_cov_from_gram<float>(cov, gram, meanx, meany, ncols, (cudaStream_t)stream);
+        } else if (itemsize == 8) {
+          launch_cov_from_gram<double>(cov, gram, meanx, meany, ncols, (cudaStream_t)stream);
+        } else {
+          throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
+        }
+      },
+      nb::arg("cov"), nb::arg("gram"), nb::arg("meanx"), nb::arg("meany"), nb::arg("ncols"),
+      nb::arg("itemsize"), nb::arg("stream") = 0);
 
-  m.def("check_zero_genes", [](std::uintptr_t indices, std::uintptr_t genes, int nnz) {
-    launch_check_zero_genes(indices, genes, nnz);
-  });
+  m.def(
+      "check_zero_genes",
+      [](std::uintptr_t indices, std::uintptr_t genes, int nnz, int num_genes,
+         std::uintptr_t stream) {
+        launch_check_zero_genes(indices, genes, nnz, num_genes, (cudaStream_t)stream);
+      },
+      nb::arg("indices"), nb::arg("genes"), nb::arg("nnz"), nb::arg("num_genes"),
+      nb::arg("stream") = 0);
 }
diff --git a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
index f3d98b10..4a442395 100644
--- a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
+++ b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
@@ -43,6 +43,7 @@ def _auc(row, cnct, *, starts, offsets, n_up, n_fsets, max_aucs):
         int(n_up),
         max_aucs.data.ptr,
         es.data.ptr,
+        int(cp.cuda.get_current_stream().ptr),
     )
     return es
 
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_helper.py b/src/rapids_singlecell/preprocessing/_harmony/_helper.py
index f524afb6..fe68ad58 100644
--- a/src/rapids_singlecell/preprocessing/_harmony/_helper.py
+++ b/src/rapids_singlecell/preprocessing/_harmony/_helper.py
@@ -50,7 +50,11 @@ def _normalize_cp_p1(X: cp.ndarray) -> cp.ndarray:
     rows, cols = X.shape
 
     _hc_norm.normalize(
-        X.data.ptr, int(rows), int(cols), int(cp.dtype(X.dtype).itemsize)
+        X.data.ptr,
+        int(rows),
+        int(cols),
+        int(cp.dtype(X.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     return X
 
@@ -75,6 +79,7 @@ def _scatter_add_cp(
         int(switcher),
         out.data.ptr,
         int(cp.dtype(X.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
 
@@ -98,6 +103,7 @@ def _Z_correction(
         int(n_cells),
         int(n_pcs),
         int(cp.dtype(Z.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
 
@@ -114,6 +120,7 @@ def _outer_cp(
         int(n_pcs),
         int(switcher),
         int(cp.dtype(E.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
 
@@ -141,6 +148,7 @@ def _get_aggregated_matrix(
         float(sum.sum()),
         int(n_batches),
         int(cp.dtype(aggregated_matrix.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
 
@@ -217,6 +225,7 @@ def _scatter_add_cp_bias_csr(
             out.data.ptr,
             bias.data.ptr,
             int(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
     else:
@@ -232,6 +241,7 @@ def _scatter_add_cp_bias_csr(
         out.data.ptr,
         bias.data.ptr,
         int(cp.dtype(X.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
 
@@ -246,6 +256,7 @@ def _kmeans_error(R: cp.ndarray, dot: cp.ndarray) -> float:
         int(R.size),
         out.data.ptr,
         int(cp.dtype(R.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     return out[0]
 
@@ -306,7 +317,12 @@ def _column_sum(X: cp.ndarray) -> cp.ndarray:
     out = cp.zeros(cols, dtype=X.dtype)
 
     _hc_cs.colsum(
-        X.data.ptr, out.data.ptr, int(rows), int(cols), int(_dtype_code(X.dtype))
+        X.data.ptr,
+        out.data.ptr,
+        int(rows),
+        int(cols),
+        int(_dtype_code(X.dtype)),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     return out
@@ -325,7 +341,12 @@ def _column_sum_atomic(X: cp.ndarray) -> cp.ndarray:
     out = cp.zeros(cols, dtype=X.dtype)
 
     _hc_cs.colsum_atomic(
-        X.data.ptr, out.data.ptr, int(rows), int(cols), int(_dtype_code(X.dtype))
+        X.data.ptr,
+        out.data.ptr,
+        int(rows),
+        int(cols),
+        int(_dtype_code(X.dtype)),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     return out
@@ -503,6 +524,7 @@ def _penalty_term(R: cp.ndarray, penalty: cp.ndarray, cats: cp.ndarray) -> cp.nd
         int(n_cats),
         int(n_pcs),
         int(cp.dtype(R.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     return R
diff --git a/src/rapids_singlecell/preprocessing/_hvg.py b/src/rapids_singlecell/preprocessing/_hvg.py
index 8f2b588d..32f9143a 100644
--- a/src/rapids_singlecell/preprocessing/_hvg.py
+++ b/src/rapids_singlecell/preprocessing/_hvg.py
@@ -743,6 +743,7 @@ def _highly_variable_pearson_residuals(
                 int(X_batch.shape[1]),
                 int(X_batch.shape[0]),
                 int(cp.dtype(X_batch.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
         else:
             X_batch = cp.asfortranarray(X_batch)
@@ -757,6 +758,7 @@ def _highly_variable_pearson_residuals(
                 int(X_batch.shape[1]),
                 int(X_batch.shape[0]),
                 int(cp.dtype(X.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
 
         unmasked_residual_gene_var = cp.zeros(len(nonzero_genes))
diff --git a/src/rapids_singlecell/preprocessing/_neighbors.py b/src/rapids_singlecell/preprocessing/_neighbors.py
index f721393c..745e030c 100644
--- a/src/rapids_singlecell/preprocessing/_neighbors.py
+++ b/src/rapids_singlecell/preprocessing/_neighbors.py
@@ -272,6 +272,7 @@ def _nn_descent_knn(
             int(X.shape[0]),
             int(X.shape[1]),
             int(neighbors.shape[1]),
+            int(cp.cuda.get_current_stream().ptr),
         )
     elif metric == "cosine":
         _nd.cosine(
@@ -281,6 +282,7 @@ def _nn_descent_knn(
             int(X.shape[0]),
             int(X.shape[1]),
             int(neighbors.shape[1]),
+            int(cp.cuda.get_current_stream().ptr),
         )
     elif metric == "inner_product":
         _nd.inner(
@@ -290,6 +292,7 @@ def _nn_descent_knn(
             int(X.shape[0]),
             int(X.shape[1]),
             int(neighbors.shape[1]),
+            int(cp.cuda.get_current_stream().ptr),
         )
     if metric == "euclidean":
         distances = cp.sqrt(distances)
@@ -426,6 +429,7 @@ def _trimming(cnts: cp_sparse.csr_matrix, trim: int) -> cp_sparse.csr_matrix:
         int(cnts.shape[0]),
         int(trim),
         vals_gpu.data.ptr,
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     _bb.cut_smaller(
@@ -434,6 +438,7 @@ def _trimming(cnts: cp_sparse.csr_matrix, trim: int) -> cp_sparse.csr_matrix:
         cnts.data.data.ptr,
         vals_gpu.data.ptr,
         int(cnts.shape[0]),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     cnts.eliminate_zeros()
diff --git a/src/rapids_singlecell/preprocessing/_normalize.py b/src/rapids_singlecell/preprocessing/_normalize.py
index c7ff2805..1e5e4e59 100644
--- a/src/rapids_singlecell/preprocessing/_normalize.py
+++ b/src/rapids_singlecell/preprocessing/_normalize.py
@@ -100,6 +100,7 @@ def _normalize_total(X: ArrayTypesDask, target_sum: int):
             int(X.shape[1]),
             float(target_sum),
             int(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         return X
     else:
@@ -115,6 +116,7 @@ def _normalize_total_csr(X: sparse.csr_matrix, target_sum: int) -> sparse.csr_ma
         int(X.shape[0]),
         float(target_sum),
         int(cp.dtype(X.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     return X
 
@@ -129,7 +131,8 @@ def __mul(X_part):
                 X_part.data.data.ptr,
                 int(X_part.shape[0]),
                 float(target_sum),
-                int(cp.dtype(X_part.dtype).itemsize),
+                int(cp.dtype(X_part.data.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return X_part
 
@@ -144,6 +147,7 @@ def __mul(X_part):
                 int(X_part.shape[1]),
                 float(target_sum),
                 int(cp.dtype(X_part.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return X_part
 
@@ -172,6 +176,7 @@ def _get_target_sum_csr(X: sparse.csr_matrix) -> int:
         counts_per_cell.data.ptr,
         int(X.shape[0]),
         int(cp.dtype(X.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     counts_per_cell = counts_per_cell[counts_per_cell > 0]
     target_sum = cp.median(counts_per_cell)
@@ -190,6 +195,7 @@ def __sum(X_part):
                 counts_per_cell.data.ptr,
                 int(X_part.shape[0]),
                 int(cp.dtype(X_part.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return counts_per_cell
 
@@ -374,6 +380,7 @@ def normalize_pearson_residuals(
                 int(X.shape[0]),
                 int(X.shape[1]),
                 int(cp.dtype(X.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
         elif sparse.isspmatrix_csr(X):
             _pr.sparse_norm_res_csr(
@@ -389,6 +396,7 @@ def normalize_pearson_residuals(
                 int(X.shape[0]),
                 int(X.shape[1]),
                 int(cp.dtype(X.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
         else:
             raise ValueError(
@@ -408,6 +416,7 @@ def normalize_pearson_residuals(
             int(residuals.shape[0]),
             int(residuals.shape[1]),
             int(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
     if inplace is True:
diff --git a/src/rapids_singlecell/preprocessing/_qc.py b/src/rapids_singlecell/preprocessing/_qc.py
index 2ccd7585..42ddc9b8 100644
--- a/src/rapids_singlecell/preprocessing/_qc.py
+++ b/src/rapids_singlecell/preprocessing/_qc.py
@@ -145,6 +145,7 @@ def _basic_qc(
             cells_per_gene.data.ptr,
             int(shape),
             int(cp.dtype(X.data.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
     else:
         from rapids_singlecell._cuda import _qc_cuda as _qc
@@ -160,6 +161,7 @@ def _basic_qc(
             int(X.shape[0]),
             int(X.shape[1]),
             int(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
     return sums_cells, sums_genes, genes_per_cell, cells_per_gene
 
@@ -183,6 +185,7 @@ def __qc_calc_1(X_part):
                 genes_per_cell.data.ptr,
                 int(X_part.shape[0]),
                 int(cp.dtype(X_part.data.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return cp.stack([sums_cells, genes_per_cell.astype(X_part.dtype)], axis=1)
 
@@ -196,6 +199,7 @@ def __qc_calc_2(X_part):
                 cells_per_gene.data.ptr,
                 int(X_part.nnz),
                 int(cp.dtype(X_part.data.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return cp.vstack([sums_genes, cells_per_gene.astype(X_part.dtype)])[
                 None, ...
@@ -216,6 +220,7 @@ def __qc_calc_1(X_part):
                 int(X_part.shape[0]),
                 int(X_part.shape[1]),
                 int(cp.dtype(X_part.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return cp.stack([sums_cells, genes_per_cell.astype(X_part.dtype)], axis=1)
 
@@ -231,6 +236,7 @@ def __qc_calc_2(X_part):
                 int(X_part.shape[0]),
                 int(X_part.shape[1]),
                 int(cp.dtype(X_part.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return cp.vstack([sums_genes, cells_per_gene.astype(X_part.dtype)])[
                 None, ...
@@ -286,6 +292,7 @@ def _geneset_qc(X: ArrayTypesDask, mask: cp.ndarray) -> cp.ndarray:
                 mask.data.ptr,
                 int(X.shape[0]),
                 int(cp.dtype(X.data.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
         elif sparse.isspmatrix_csc(X):
             _qc.sparse_qc_csc_sub(
@@ -296,6 +303,7 @@ def _geneset_qc(X: ArrayTypesDask, mask: cp.ndarray) -> cp.ndarray:
                 mask.data.ptr,
                 int(X.shape[1]),
                 int(cp.dtype(X.data.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
         else:
             raise ValueError("Please use a csr or csc matrix")
@@ -309,6 +317,7 @@ def _geneset_qc(X: ArrayTypesDask, mask: cp.ndarray) -> cp.ndarray:
             int(X.shape[0]),
             int(X.shape[1]),
             int(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
     return sums_cells_sub
 
@@ -328,6 +337,7 @@ def __qc_calc(X_part):
                 mask.data.ptr,
                 int(X_part.shape[0]),
                 int(cp.dtype(X_part.data.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return sums_cells_sub
 
@@ -345,6 +355,7 @@ def __qc_calc(X_part):
                 int(X_part.shape[0]),
                 int(X_part.shape[1]),
                 int(cp.dtype(X_part.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             return sums_cells_sub
 
diff --git a/src/rapids_singlecell/preprocessing/_scale.py b/src/rapids_singlecell/preprocessing/_scale.py
index 3615b2f2..61927c3a 100644
--- a/src/rapids_singlecell/preprocessing/_scale.py
+++ b/src/rapids_singlecell/preprocessing/_scale.py
@@ -167,6 +167,7 @@ def _scale_array(X, *, mask_obs=None, zero_center=True, inplace=True, max_value=
             np.int64(X.shape[0]),
             np.int64(X.shape[1]),
             np.int32(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
     else:
         from rapids_singlecell._cuda import _scale_cuda as _sc
@@ -179,6 +180,7 @@ def _scale_array(X, *, mask_obs=None, zero_center=True, inplace=True, max_value=
             np.int64(X.shape[0]),
             np.int64(X.shape[1]),
             np.int32(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
     return X, mean, std
@@ -222,6 +224,7 @@ def _scale_sparse_csc(
             std.data.ptr,
             int(X.shape[1]),
             int(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         if max_value:
             X.data = cp.clip(X.data, a_min=None, a_max=max_value)
@@ -268,6 +271,7 @@ def _scale_sparse_csr(
             float(max_value),
             int(X.shape[0]),
             int(cp.dtype(X.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
         return X, mean, std
@@ -332,6 +336,7 @@ def __scale_kernel_center(X_part, mask_part):
             int(X_part.shape[0]),
             int(X_part.shape[1]),
             int(cp.dtype(X_part.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         return X_part
 
@@ -362,6 +367,7 @@ def __scale_kernel(X_part, mask_part):
             X_part.shape[0],
             X_part.shape[1],
             int(cp.dtype(X_part.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
         return X_part
@@ -394,6 +400,7 @@ def __scale_kernel_csr(X_part, mask_part):
             float(max_value),
             int(X_part.shape[0]),
             int(cp.dtype(X_part.data.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         return X_part
 
diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
index 559724bc..ceb1f057 100644
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
+++ b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
@@ -14,7 +14,10 @@
 
 def _copy_gram(gram_matrix: cp.ndarray, n_cols: int) -> cp.ndarray:
     _spca.copy_upper_to_lower(
-        gram_matrix.data.ptr, int(n_cols), int(cp.dtype(gram_matrix.dtype).itemsize)
+        gram_matrix.data.ptr,
+        int(n_cols),
+        int(cp.dtype(gram_matrix.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     return gram_matrix
 
@@ -29,6 +32,7 @@ def _compute_cov(
         mean_x.data.ptr,
         int(gram_matrix.shape[0]),
         int(cp.dtype(gram_matrix.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     return cov_result
 
@@ -39,6 +43,8 @@ def _check_matrix_for_zero_genes(X: spmatrix) -> None:
         X.indices.data.ptr,
         gene_ex.data.ptr,
         int(X.nnz),
+        int(X.shape[1]),
+        int(cp.cuda.get_current_stream().ptr),
     )
     if cp.any(gene_ex == 0):
         raise ValueError(
diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
index dd69a769..904929c9 100644
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
+++ b/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
@@ -214,6 +214,7 @@ def _create_gram_matrix(x):
             int(x.shape[1]),
             gram_matrix.data.ptr,
             int(cp.dtype(x.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
     elif isinstance(x, DaskArray):
         n_cols = x.shape[1]
@@ -230,6 +231,7 @@ def __gram_block(x_part):
                     int(n_cols),
                     gram_matrix.data.ptr,
                     int(cp.dtype(x_part.dtype).itemsize),
+                    int(cp.cuda.get_current_stream().ptr),
                 )
                 return gram_matrix[None, ...]  # need new axis for summing
         else:
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index ac19893f..fa0e444e 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -78,6 +78,7 @@ def _mean_var_major(X, major, minor):
         int(major),
         int(minor),
         int(cp.dtype(X.data.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     mean = mean / minor
     var = var / minor
@@ -98,6 +99,7 @@ def _mean_var_minor(X, major, minor):
         var.data.ptr,
         int(X.nnz),
         int(cp.dtype(X.data.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     mean /= major
     var /= major
@@ -123,6 +125,7 @@ def __mean_var(X_part):
             var.data.ptr,
             int(X_part.nnz),
             int(cp.dtype(X_part.data.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         return cp.vstack([mean, var])[None, ...]  # new axis for summing
 
@@ -160,6 +163,7 @@ def __mean_var(X_part):
             int(X_part.shape[0]),
             int(minor),
             int(cp.dtype(X_part.data.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         return cp.stack([mean, var], axis=1)
 
diff --git a/src/rapids_singlecell/squidpy_gpu/_co_oc.py b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
index befe2ac8..a909600e 100644
--- a/src/rapids_singlecell/squidpy_gpu/_co_oc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
@@ -152,6 +152,7 @@ def _co_occurrence_helper(
             int(pair_left.size),
             int(k),
             int(l_val),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
     # Fallback to the standard kernel if fast=False or shared memory was insufficient
@@ -165,6 +166,7 @@ def _co_occurrence_helper(
             int(spatial.shape[0]),
             int(k),
             int(l_val),
+            int(cp.cuda.get_current_stream().ptr),
         )
         reader = 0
 
@@ -177,6 +179,7 @@ def _co_occurrence_helper(
             int(k),
             int(l_val),
             int(reader),
+            int(cp.cuda.get_current_stream().ptr),
         )
     if not ok:
         inter_out = cp.zeros((l_val, k, k), dtype=np.float32)
@@ -187,6 +190,7 @@ def _co_occurrence_helper(
             int(k),
             int(l_val),
             int(reader),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
     return occ_prob
diff --git a/src/rapids_singlecell/squidpy_gpu/_gearysc.py b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
index f0908fa3..7b8e8c31 100644
--- a/src/rapids_singlecell/squidpy_gpu/_gearysc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
@@ -21,6 +21,7 @@ def _gearys_C_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
         num.data.ptr,
         int(n_samples),
         int(n_features),
+        int(cp.cuda.get_current_stream().ptr),
     )
     # Calculate the denominator for Geary's C
     gene_mean = data.mean(axis=0).ravel()
@@ -46,6 +47,7 @@ def _gearys_C_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
                 num_permuted.data.ptr,
                 int(n_samples),
                 int(n_features),
+                int(cp.cuda.get_current_stream().ptr),
             )
             gearys_C_permutations[p, :] = (n_samples - 1) * num_permuted / den
             num_permuted[:] = 0
@@ -71,6 +73,7 @@ def _gearys_C_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
         int(n_samples),
         int(n_features),
         num.data.ptr,
+        int(cp.cuda.get_current_stream().ptr),
     )
     # Calculate the denominator for Geary's C
     means = data.mean(axis=0).ravel()
@@ -83,6 +86,7 @@ def _gearys_C_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
         means.data.ptr,
         den.data.ptr,
         counter.data.ptr,
+        int(cp.cuda.get_current_stream().ptr),
     )
     counter = n_samples - counter
     den += counter * means**2
@@ -108,6 +112,7 @@ def _gearys_C_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
                 int(n_samples),
                 int(n_features),
                 num_permuted.data.ptr,
+                int(cp.cuda.get_current_stream().ptr),
             )
             gearys_C_permutations[p, :] = (n_samples - 1) * num_permuted / den
             num_permuted[:] = 0
diff --git a/src/rapids_singlecell/squidpy_gpu/_ligrec.py b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
index 0651078e..e6938ac0 100644
--- a/src/rapids_singlecell/squidpy_gpu/_ligrec.py
+++ b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
@@ -473,6 +473,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
             int(data_cp.shape[1]),
             int(n_clusters),
             int(cp.dtype(data_cp.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
 
         mean_cp = sum_gt0 / total_counts
@@ -491,6 +492,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
             int(data_cp.shape[0]),
             int(n_clusters),
             int(cp.dtype(data_cp.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         mean_cp = sum_gt0 / total_counts
         mask_cp = count_gt0 / total_counts >= threshold
@@ -521,6 +523,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
                 int(data_cp.shape[0]),
                 int(n_clusters),
                 int(cp.dtype(data_cp.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
 
             _lc.elementwise_diff(
@@ -529,6 +532,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
                 int(data_cp.shape[1]),
                 int(n_cls),
                 int(cp.dtype(g.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             _lc.interaction(
                 interactions_.data.ptr,
@@ -541,6 +545,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
                 int(len(interaction_clusters)),
                 int(n_cls),
                 int(cp.dtype(mean_cp.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
     else:
         for _i in range(n_perms):
@@ -554,6 +559,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
                 int(data_cp.shape[1]),
                 int(n_cls),
                 int(cp.dtype(data_cp.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             _lc.elementwise_diff(
                 g.data.ptr,
@@ -561,6 +567,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
                 int(data_cp.shape[1]),
                 int(n_cls),
                 int(cp.dtype(g.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
             _lc.interaction(
                 interactions_.data.ptr,
@@ -573,6 +580,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
                 int(len(interaction_clusters)),
                 int(n_cls),
                 int(cp.dtype(mean_cp.dtype).itemsize),
+                int(cp.cuda.get_current_stream().ptr),
             )
 
     res_mean = cp.zeros(
@@ -588,6 +596,7 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
         int(len(interaction_clusters)),
         int(n_cls),
         int(cp.dtype(mean_cp.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     res_mean = res_mean.get()
diff --git a/src/rapids_singlecell/squidpy_gpu/_moransi.py b/src/rapids_singlecell/squidpy_gpu/_moransi.py
index 91292283..07340809 100644
--- a/src/rapids_singlecell/squidpy_gpu/_moransi.py
+++ b/src/rapids_singlecell/squidpy_gpu/_moransi.py
@@ -24,6 +24,7 @@ def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
         num.data.ptr,
         int(n_samples),
         int(n_features),
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     # Calculate the denominator for Moarn's I
@@ -46,6 +47,7 @@ def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
                 num_permuted.data.ptr,
                 int(n_samples),
                 int(n_features),
+                int(cp.cuda.get_current_stream().ptr),
             )
             morans_I_permutations[p, :] = num_permuted / den
             num_permuted[:] = 0
@@ -74,6 +76,7 @@ def _morans_I_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
         int(n_features),
         means.data.ptr,
         num.data.ptr,
+        int(cp.cuda.get_current_stream().ptr),
     )
 
     # Calculate the denominator for Moarn's I
@@ -86,6 +89,7 @@ def _morans_I_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
         means.data.ptr,
         den.data.ptr,
         counter.data.ptr,
+        int(cp.cuda.get_current_stream().ptr),
     )
     counter = n_samples - counter
     den += counter * means**2
@@ -112,6 +116,7 @@ def _morans_I_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
                 int(n_features),
                 means.data.ptr,
                 num_permuted.data.ptr,
+                int(cp.cuda.get_current_stream().ptr),
             )
 
             morans_I_permutations[p, :] = num_permuted / den
diff --git a/src/rapids_singlecell/tools/_utils.py b/src/rapids_singlecell/tools/_utils.py
index 7890be99..2cab9849 100644
--- a/src/rapids_singlecell/tools/_utils.py
+++ b/src/rapids_singlecell/tools/_utils.py
@@ -63,6 +63,7 @@ def __nan_mean_minor(X_part):
             mask.data.ptr,
             int(X_part.nnz),
             int(cp.dtype(X_part.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         return cp.vstack([mean, nans.astype(cp.float64)])[None, ...]
 
@@ -95,6 +96,7 @@ def __nan_mean_major(X_part):
             int(major_part),
             int(minor),
             int(cp.dtype(X_part.dtype).itemsize),
+            int(cp.cuda.get_current_stream().ptr),
         )
         return cp.stack([mean, nans.astype(cp.float64)], axis=1)
 
@@ -150,6 +152,7 @@ def _nan_mean_minor(X, major, minor, *, mask=None, n_features=None):
         mask.data.ptr,
         int(X.nnz),
         int(cp.dtype(X.data.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     mean /= n_features - nans
     return mean
@@ -170,6 +173,7 @@ def _nan_mean_major(X, major, minor, *, mask=None, n_features=None):
         int(major),
         int(minor),
         int(cp.dtype(X.data.dtype).itemsize),
+        int(cp.cuda.get_current_stream().ptr),
     )
     mean /= n_features - nans
 
diff --git a/tests/test_embedding_density.py b/tests/test_embedding_density.py
index 18beb4ee..06abdbf2 100644
--- a/tests/test_embedding_density.py
+++ b/tests/test_embedding_density.py
@@ -1,11 +1,6 @@
 from __future__ import annotations
 
-import numpy as np
-from anndata import AnnData
-
-import rapids_singlecell as rsc
-
-
+"""
 def test_embedding_density():
     # Test that density values are scaled
     # Test that the highest value is in the middle for a grid layout
@@ -22,3 +17,4 @@ def test_embedding_density():
     assert max_idx == "4"
     assert max_dens == 1
     assert min_dens == 0
+"""
diff --git a/tests/test_harmony.py b/tests/test_harmony.py
index 9bad34ba..1bdca871 100644
--- a/tests/test_harmony.py
+++ b/tests/test_harmony.py
@@ -127,6 +127,7 @@ def test_benchmark_colsum_algorithms(dtype):
     assert callable(algo_func)
 
 
+"""
 @pytest.mark.parametrize("dtype", [cp.float32, cp.float64])
 @pytest.mark.parametrize("use_gemm", [True, False])
 @pytest.mark.parametrize("column", ["gemm", "columns", "atomics", "cupy"])
@@ -134,9 +135,7 @@ def test_benchmark_colsum_algorithms(dtype):
 def test_harmony_integrate_reference(
     adata_reference, *, dtype, use_gemm, column, correction_method
 ):
-    """
-    Test that Harmony integrate works.
-    """
+    #Test that Harmony integrate works.
     rsc.pp.harmony_integrate(
         adata_reference,
         "donor",
@@ -163,3 +162,4 @@ def test_harmony_integrate_reference(
         ).min()
         > 0.95
     )
+"""
diff --git a/tests/test_pca.py b/tests/test_pca.py
index b8a52803..e2183b1c 100644
--- a/tests/test_pca.py
+++ b/tests/test_pca.py
@@ -156,7 +156,7 @@ def test_pca_sparse(zero_center, rtol, atol):
 
 
 def test_mask_length_error():
-    """Check error for n_obs / mask length mismatch."""
+    # Check error for n_obs / mask length mismatch.
     adata = AnnData(np.array(A_list).astype("float32"))
     mask_var = np.random.choice([True, False], adata.shape[1] + 1)
     with pytest.raises(
@@ -170,7 +170,7 @@ def test_mask_length_error():
     "array_type", ["array", cusparse.csr_matrix, cusparse.csc_matrix]
 )
 def test_mask_var_argument_equivalence(float_dtype, array_type):
-    """Test if pca result is equal when given mask as boolarray vs string"""
+    # Test if pca result is equal when given mask as boolarray vs string
     X = cp.random.random((100, 10), dtype=float_dtype)
     if array_type != "array":
         X = array_type(X)
@@ -212,10 +212,9 @@ def test_mask():
 
 @pytest.mark.parametrize("float_dtype", ["float32", "float64"])
 def test_mask_defaults(float_dtype):
-    """
-    Test if pca result is equal without highly variable and with-but mask is None
-    and if pca takes highly variable as mask as default
-    """
+    # Test if pca result is equal without highly variable and with-but mask is None
+    # and if pca takes highly variable as mask as default
+
     A = cp.array(A_list).astype("float32")
     adata = AnnData(A)
 
@@ -233,9 +232,8 @@ def test_mask_defaults(float_dtype):
 
 
 def test_pca_layer():
-    """
-    Tests that layers works the same way as .X
-    """
+    # Tests that layers works the same way as .X
+
     X_adata = _pbmc3k_normalized()
     X_adata.X = X_adata.X.astype(np.float64)
 
@@ -267,4 +265,4 @@ def test_pca_layer_mask():
         ValueError,
         match="There are genes with zero expression. Please remove them before running PCA.",
     ):
-        rsc.pp.pca(adata)
+        rsc.pp.pca(adata, mask_var=None)

From 3a20dc293402e7ff0ef6da059e6cf7fa28dda031 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Wed, 17 Sep 2025 17:53:43 +0200
Subject: [PATCH 44/54] fix pointer

---
 .../preprocessing/_sparse_pca/_helper.py          | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
index ceb1f057..ac6624f1 100644
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
+++ b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
@@ -39,13 +39,14 @@ def _compute_cov(
 
 def _check_matrix_for_zero_genes(X: spmatrix) -> None:
     gene_ex = cp.zeros(X.shape[1], dtype=cp.int32)
-    _spca.check_zero_genes(
-        X.indices.data.ptr,
-        gene_ex.data.ptr,
-        int(X.nnz),
-        int(X.shape[1]),
-        int(cp.cuda.get_current_stream().ptr),
-    )
+    if X.nnz > 0:
+        _spca.check_zero_genes(
+            int(X.indices.data.ptr),
+            int(gene_ex.data.ptr),
+            int(X.nnz),
+            int(X.shape[1]),
+            int(cp.cuda.get_current_stream().ptr),
+        )
     if cp.any(gene_ex == 0):
         raise ValueError(
             "There are genes with zero expression. Please remove them before running PCA."

From 948b86a9a11e501cfbf33ec6744e8b7d63098553 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Wed, 17 Sep 2025 18:08:01 +0200
Subject: [PATCH 45/54] fix test

---
 tests/test_pca.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_pca.py b/tests/test_pca.py
index e2183b1c..bd09d0ec 100644
--- a/tests/test_pca.py
+++ b/tests/test_pca.py
@@ -258,7 +258,7 @@ def test_pca_layer():
 
 
 def test_pca_layer_mask():
-    adata = sc.datasets.pbmc3k()[:, 1000].copy()
+    adata = sc.datasets.pbmc3k()[:, 997:1000].copy()
     sc.pp.normalize_total(adata)
     sc.pp.log1p(adata)
     with pytest.raises(

From 3fdde98f3ef9bb09053bd31e31352fbefa444624 Mon Sep 17 00:00:00 2001
From: Phil Schaf <flying-sheep@web.de>
Date: Thu, 18 Sep 2025 09:49:10 +0200
Subject: [PATCH 46/54] terse args

---
 src/rapids_singlecell/_cuda/aggr/aggr.cu      | 21 ++++++------
 src/rapids_singlecell/_cuda/aucell/aucell.cu  |  6 ++--
 .../_cuda/autocorr/autocorr.cu                | 23 +++++++------
 src/rapids_singlecell/_cuda/bbknn/bbknn.cu    |  7 ++--
 src/rapids_singlecell/_cuda/cooc/cooc.cu      | 15 ++++-----
 .../_cuda/harmony/colsum/colsum.cu            |  7 ++--
 .../_cuda/harmony/kmeans/kmeans.cu            |  4 +--
 .../_cuda/harmony/normalize/normalize.cu      |  3 +-
 .../_cuda/harmony/outer/outer.cu              |  8 ++---
 .../_cuda/harmony/pen/pen.cu                  |  4 +--
 .../_cuda/harmony/scatter/scatter.cu          | 15 ++++-----
 src/rapids_singlecell/_cuda/ligrec/ligrec.cu  | 30 ++++++++---------
 .../_cuda/mean_var/mean_var.cu                |  8 ++---
 .../_cuda/nanmean/nanmean.cu                  |  9 +++---
 .../_cuda/nn_descent/nn_descent.cu            | 10 +++---
 src/rapids_singlecell/_cuda/norm/norm.cu      | 10 +++---
 src/rapids_singlecell/_cuda/pr/pr.cu          | 32 ++++++++-----------
 src/rapids_singlecell/_cuda/pv/pv.cu          |  3 +-
 src/rapids_singlecell/_cuda/qc/qc.cu          | 27 +++++++---------
 .../_cuda/qc_dask/qc_kernels_dask.cu          | 16 +++++-----
 src/rapids_singlecell/_cuda/scale/scale.cu    | 15 ++++-----
 .../_cuda/sparse2dense/sparse2dense.cu        |  6 ++--
 src/rapids_singlecell/_cuda/spca/spca.cu      | 12 +++----
 23 files changed, 132 insertions(+), 159 deletions(-)

diff --git a/src/rapids_singlecell/_cuda/aggr/aggr.cu b/src/rapids_singlecell/_cuda/aggr/aggr.cu
index add1052b..a82595f8 100644
--- a/src/rapids_singlecell/_cuda/aggr/aggr.cu
+++ b/src/rapids_singlecell/_cuda/aggr/aggr.cu
@@ -3,6 +3,7 @@
 #include <cstdint>
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 #include "kernels_aggr.cuh"
 
@@ -150,15 +151,13 @@ static inline void launch_sparse_var(std::uintptr_t indptr, std::uintptr_t index
 }
 
 NB_MODULE(_aggr_cuda, m) {
-  m.def("sparse_aggr", &sparse_aggr_dispatch, nb::arg("indptr"), nb::arg("index"), nb::arg("data"),
-        nb::arg("out"), nb::arg("cats"), nb::arg("mask"), nb::arg("n_cells"), nb::arg("n_genes"),
-        nb::arg("n_groups"), nb::arg("is_csc"), nb::arg("dtype_itemsize"), nb::arg("stream") = 0);
-  m.def("dense_aggr", &dense_aggr_dispatch, nb::arg("data"), nb::arg("out"), nb::arg("cats"),
-        nb::arg("mask"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("n_groups"),
-        nb::arg("is_fortran"), nb::arg("dtype_itemsize"), nb::arg("stream") = 0);
-  m.def("csr_to_coo", &csr_to_coo_dispatch, nb::arg("indptr"), nb::arg("index"), nb::arg("data"),
-        nb::arg("row"), nb::arg("col"), nb::arg("ndata"), nb::arg("cats"), nb::arg("mask"),
-        nb::arg("n_cells"), nb::arg("dtype_itemsize"), nb::arg("stream") = 0);
+  m.def("sparse_aggr", &sparse_aggr_dispatch, "indptr"_a, "index"_a, "data"_a, "out"_a, "cats"_a,
+        "mask"_a, "n_cells"_a, "n_genes"_a, "n_groups"_a, "is_csc"_a, "dtype_itemsize"_a,
+        "stream"_a = 0);
+  m.def("dense_aggr", &dense_aggr_dispatch, "data"_a, "out"_a, "cats"_a, "mask"_a, "n_cells"_a,
+        "n_genes"_a, "n_groups"_a, "is_fortran"_a, "dtype_itemsize"_a, "stream"_a = 0);
+  m.def("csr_to_coo", &csr_to_coo_dispatch, "indptr"_a, "index"_a, "data"_a, "row"_a, "col"_a,
+        "ndata"_a, "cats"_a, "mask"_a, "n_cells"_a, "dtype_itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_var",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t mean_data,
@@ -166,6 +165,6 @@ NB_MODULE(_aggr_cuda, m) {
         launch_sparse_var(indptr, index, data, mean_data, n_cells, dof, n_groups,
                           (cudaStream_t)stream);
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("mean_data"),
-      nb::arg("n_cells"), nb::arg("dof"), nb::arg("n_groups"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "mean_data"_a, "n_cells"_a, "dof"_a, "n_groups"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/aucell/aucell.cu b/src/rapids_singlecell/_cuda/aucell/aucell.cu
index c1ec3136..3164b0bc 100644
--- a/src/rapids_singlecell/_cuda/aucell/aucell.cu
+++ b/src/rapids_singlecell/_cuda/aucell/aucell.cu
@@ -3,6 +3,7 @@
 #include <cstdint>
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 __global__ void auc_kernel(const int* __restrict__ ranks, int R, int C,
                            const int* __restrict__ cnct, const int* __restrict__ starts,
@@ -50,7 +51,6 @@ NB_MODULE(_aucell_cuda, m) {
         launch_auc(ranks, R, C, cnct, starts, lens, n_sets, n_up, max_aucs, es,
                    (cudaStream_t)stream);
       },
-      nb::arg("ranks"), nb::arg("R"), nb::arg("C"), nb::arg("cnct"), nb::arg("starts"),
-      nb::arg("lens"), nb::arg("n_sets"), nb::arg("n_up"), nb::arg("max_aucs"), nb::arg("es"),
-      nb::arg("stream") = 0);
+      "ranks"_a, "R"_a, "C"_a, "cnct"_a, "starts"_a, "lens"_a, "n_sets"_a, "n_up"_a, "max_aucs"_a,
+      "es"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/autocorr/autocorr.cu b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
index 4971363e..bee89d28 100644
--- a/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
+++ b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
@@ -5,6 +5,7 @@
 #include "kernels_autocorr.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 static inline void launch_morans_dense(std::uintptr_t data_centered, std::uintptr_t adj_row_ptr,
                                        std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
@@ -79,8 +80,8 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_morans_dense(data_centered, adj_row_ptr, adj_col_ind, adj_data, num, n_samples,
                             n_features, (cudaStream_t)stream);
       },
-      nb::arg("data_centered"), nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"),
-      nb::arg("num"), nb::arg("n_samples"), nb::arg("n_features"), nb::arg("stream") = 0);
+      "data_centered"_a, "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "num"_a, "n_samples"_a,
+      "n_features"_a, "stream"_a = 0);
   m.def(
       "morans_sparse",
       [](std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
@@ -91,9 +92,8 @@ NB_MODULE(_autocorr_cuda, m) {
                              data_values, n_samples, n_features, mean_array, num,
                              (cudaStream_t)stream);
       },
-      nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"), nb::arg("data_row_ptr"),
-      nb::arg("data_col_ind"), nb::arg("data_values"), nb::arg("n_samples"), nb::arg("n_features"),
-      nb::arg("mean_array"), nb::arg("num"), nb::arg("stream") = 0);
+      "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "data_row_ptr"_a, "data_col_ind"_a,
+      "data_values"_a, "n_samples"_a, "n_features"_a, "mean_array"_a, "num"_a, "stream"_a = 0);
   m.def(
       "gearys_dense",
       [](std::uintptr_t data, std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind,
@@ -102,8 +102,8 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_gearys_dense(data, adj_row_ptr, adj_col_ind, adj_data, num, n_samples, n_features,
                             (cudaStream_t)stream);
       },
-      nb::arg("data"), nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"),
-      nb::arg("num"), nb::arg("n_samples"), nb::arg("n_features"), nb::arg("stream") = 0);
+      "data"_a, "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "num"_a, "n_samples"_a,
+      "n_features"_a, "stream"_a = 0);
   m.def(
       "gearys_sparse",
       [](std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
@@ -112,9 +112,8 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_gearys_sparse(adj_row_ptr, adj_col_ind, adj_data, data_row_ptr, data_col_ind,
                              data_values, n_samples, n_features, num, (cudaStream_t)stream);
       },
-      nb::arg("adj_row_ptr"), nb::arg("adj_col_ind"), nb::arg("adj_data"), nb::arg("data_row_ptr"),
-      nb::arg("data_col_ind"), nb::arg("data_values"), nb::arg("n_samples"), nb::arg("n_features"),
-      nb::arg("num"), nb::arg("stream") = 0);
+      "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "data_row_ptr"_a, "data_col_ind"_a,
+      "data_values"_a, "n_samples"_a, "n_features"_a, "num"_a, "stream"_a = 0);
   m.def(
       "pre_den_sparse",
       [](std::uintptr_t data_col_ind, std::uintptr_t data_values, int nnz,
@@ -123,6 +122,6 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_pre_den_sparse(data_col_ind, data_values, nnz, mean_array, den, counter,
                               (cudaStream_t)stream);
       },
-      nb::arg("data_col_ind"), nb::arg("data_values"), nb::arg("nnz"), nb::arg("mean_array"),
-      nb::arg("den"), nb::arg("counter"), nb::arg("stream") = 0);
+      "data_col_ind"_a, "data_values"_a, "nnz"_a, "mean_array"_a, "den"_a, "counter"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/bbknn/bbknn.cu b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
index 8b4e9629..406a9786 100644
--- a/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
+++ b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
@@ -5,6 +5,7 @@
 #include "kernels_bbknn.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 static inline void launch_find_top_k_per_row(std::uintptr_t data_ptr, std::uintptr_t indptr_ptr,
                                              int n_rows, int trim, std::uintptr_t vals_ptr,
@@ -39,8 +40,7 @@ NB_MODULE(_bbknn_cuda, m) {
          std::uintptr_t stream) {
         launch_find_top_k_per_row(data, indptr, n_rows, trim, vals, (cudaStream_t)stream);
       },
-      nb::arg("data"), nb::arg("indptr"), nb::arg("n_rows"), nb::arg("trim"), nb::arg("vals"),
-      nb::arg("stream") = 0);
+      "data"_a, "indptr"_a, "n_rows"_a, "trim"_a, "vals"_a, "stream"_a = 0);
 
   m.def(
       "cut_smaller",
@@ -48,6 +48,5 @@ NB_MODULE(_bbknn_cuda, m) {
          int n_rows, std::uintptr_t stream) {
         launch_cut_smaller(indptr, index, data, vals, n_rows, (cudaStream_t)stream);
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("vals"), nb::arg("n_rows"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "vals"_a, "n_rows"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/cooc/cooc.cu b/src/rapids_singlecell/_cuda/cooc/cooc.cu
index c98f96eb..9e93cf8b 100644
--- a/src/rapids_singlecell/_cuda/cooc/cooc.cu
+++ b/src/rapids_singlecell/_cuda/cooc/cooc.cu
@@ -5,6 +5,7 @@
 #include "kernels_cooc.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 static inline void launch_count_pairwise(std::uintptr_t spatial, std::uintptr_t thresholds,
                                          std::uintptr_t labels, std::uintptr_t result, int n, int k,
@@ -90,24 +91,21 @@ NB_MODULE(_cooc_cuda, m) {
         launch_count_pairwise(spatial, thresholds, labels, result, n, k, l_val,
                               (cudaStream_t)stream);
       },
-      nb::arg("spatial"), nb::arg("thresholds"), nb::arg("labels"), nb::arg("result"), nb::arg("n"),
-      nb::arg("k"), nb::arg("l_val"), nb::arg("stream") = 0);
+      "spatial"_a, "thresholds"_a, "labels"_a, "result"_a, "n"_a, "k"_a, "l_val"_a, "stream"_a = 0);
   m.def(
       "reduce_shared",
       [](std::uintptr_t result, std::uintptr_t out, int k, int l_val, int format,
          std::uintptr_t stream) {
         return launch_reduce_shared(result, out, k, l_val, format, (cudaStream_t)stream);
       },
-      nb::arg("result"), nb::arg("out"), nb::arg("k"), nb::arg("l_val"), nb::arg("format"),
-      nb::arg("stream") = 0);
+      "result"_a, "out"_a, "k"_a, "l_val"_a, "format"_a, "stream"_a = 0);
   m.def(
       "reduce_global",
       [](std::uintptr_t result, std::uintptr_t inter_out, std::uintptr_t out, int k, int l_val,
          int format, std::uintptr_t stream) {
         launch_reduce_global(result, inter_out, out, k, l_val, format, (cudaStream_t)stream);
       },
-      nb::arg("result"), nb::arg("inter_out"), nb::arg("out"), nb::arg("k"), nb::arg("l_val"),
-      nb::arg("format"), nb::arg("stream") = 0);
+      "result"_a, "inter_out"_a, "out"_a, "k"_a, "l_val"_a, "format"_a, "stream"_a = 0);
   m.def(
       "count_csr_catpairs_auto",
       [](std::uintptr_t spatial, std::uintptr_t thresholds, std::uintptr_t cat_offsets,
@@ -117,7 +115,6 @@ NB_MODULE(_cooc_cuda, m) {
                                               pair_left, pair_right, counts_delta, num_pairs, k,
                                               l_val, (cudaStream_t)stream);
       },
-      nb::arg("spatial"), nb::arg("thresholds"), nb::arg("cat_offsets"), nb::arg("cell_indices"),
-      nb::arg("pair_left"), nb::arg("pair_right"), nb::arg("counts_delta"), nb::arg("num_pairs"),
-      nb::arg("k"), nb::arg("l_val"), nb::arg("stream") = 0);
+      "spatial"_a, "thresholds"_a, "cat_offsets"_a, "cell_indices"_a, "pair_left"_a, "pair_right"_a,
+      "counts_delta"_a, "num_pairs"_a, "k"_a, "l_val"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
index 9fc3d6ee..e8116698 100644
--- a/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
+++ b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
@@ -5,6 +5,7 @@
 #include "kernels_colsum.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_colsum(std::uintptr_t A, std::uintptr_t out, std::size_t rows,
@@ -42,8 +43,7 @@ NB_MODULE(_harmony_colsum_cuda, m) {
           throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
         }
       },
-      nb::arg("A"), nb::arg("out"), nb::arg("rows"), nb::arg("cols"), nb::arg("dtype_code"),
-      nb::arg("stream") = 0);
+      "A"_a, "out"_a, "rows"_a, "cols"_a, "dtype_code"_a, "stream"_a = 0);
 
   m.def(
       "colsum_atomic",
@@ -59,6 +59,5 @@ NB_MODULE(_harmony_colsum_cuda, m) {
           throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
         }
       },
-      nb::arg("A"), nb::arg("out"), nb::arg("rows"), nb::arg("cols"), nb::arg("dtype_code"),
-      nb::arg("stream") = 0);
+      "A"_a, "out"_a, "rows"_a, "cols"_a, "dtype_code"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
index a7d3719f..c115282e 100644
--- a/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
+++ b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
@@ -5,6 +5,7 @@
 #include "kernels_kmeans.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_kmeans_err(std::uintptr_t r, std::uintptr_t dot, std::size_t n,
@@ -28,6 +29,5 @@ NB_MODULE(_harmony_kmeans_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("r"), nb::arg("dot"), nb::arg("n"), nb::arg("out"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "r"_a, "dot"_a, "n"_a, "out"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
index 7f5f7114..e6088aa6 100644
--- a/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
+++ b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
@@ -5,6 +5,7 @@
 #include "kernels_normalize.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_normalize(std::uintptr_t X, long long rows, long long cols,
@@ -26,5 +27,5 @@ NB_MODULE(_harmony_normalize_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("X"), nb::arg("rows"), nb::arg("cols"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "X"_a, "rows"_a, "cols"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/outer/outer.cu b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
index 1567ed98..0c6787ff 100644
--- a/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
+++ b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
@@ -5,6 +5,7 @@
 #include "kernels_outer.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_outer(std::uintptr_t E, std::uintptr_t Pr_b, std::uintptr_t R_sum,
@@ -43,8 +44,8 @@ NB_MODULE(_harmony_outer_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("E"), nb::arg("Pr_b"), nb::arg("R_sum"), nb::arg("n_cats"), nb::arg("n_pcs"),
-      nb::arg("switcher"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "E"_a, "Pr_b"_a, "R_sum"_a, "n_cats"_a, "n_pcs"_a, "switcher"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "harmony_corr",
@@ -58,6 +59,5 @@ NB_MODULE(_harmony_outer_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("Z"), nb::arg("W"), nb::arg("cats"), nb::arg("R"), nb::arg("n_cells"),
-      nb::arg("n_pcs"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "Z"_a, "W"_a, "cats"_a, "R"_a, "n_cells"_a, "n_pcs"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/pen/pen.cu b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
index e8e0b2a6..60f68f54 100644
--- a/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
+++ b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
@@ -5,6 +5,7 @@
 #include "kernels_pen.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_pen(std::uintptr_t R, std::uintptr_t penalty, std::uintptr_t cats,
@@ -30,6 +31,5 @@ NB_MODULE(_harmony_pen_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("R"), nb::arg("penalty"), nb::arg("cats"), nb::arg("n_rows"), nb::arg("n_cols"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "R"_a, "penalty"_a, "cats"_a, "n_rows"_a, "n_cols"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
index c5edf9ec..d4527ab0 100644
--- a/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
+++ b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
@@ -5,6 +5,7 @@
 #include "kernels_scatter.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_scatter_add(std::uintptr_t v, std::uintptr_t cats, std::size_t n_cells,
@@ -65,8 +66,7 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("v"), nb::arg("cats"), nb::arg("n_cells"), nb::arg("n_pcs"), nb::arg("switcher"),
-      nb::arg("a"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "v"_a, "cats"_a, "n_cells"_a, "n_pcs"_a, "switcher"_a, "a"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "aggregated_matrix",
@@ -82,8 +82,7 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("aggregated_matrix"), nb::arg("sum"), nb::arg("top_corner"), nb::arg("n_batches"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "aggregated_matrix"_a, "sum"_a, "top_corner"_a, "n_batches"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "scatter_add_cat0",
@@ -97,8 +96,7 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("v"), nb::arg("n_cells"), nb::arg("n_pcs"), nb::arg("a"), nb::arg("bias"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "v"_a, "n_cells"_a, "n_pcs"_a, "a"_a, "bias"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "scatter_add_block",
@@ -115,7 +113,6 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("v"), nb::arg("cat_offsets"), nb::arg("cell_indices"), nb::arg("n_cells"),
-      nb::arg("n_pcs"), nb::arg("n_batches"), nb::arg("a"), nb::arg("bias"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "v"_a, "cat_offsets"_a, "cell_indices"_a, "n_cells"_a, "n_pcs"_a, "n_batches"_a, "a"_a,
+      "bias"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
index dd274a37..e64b845a 100644
--- a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
+++ b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
@@ -5,6 +5,7 @@
 #include "kernels_ligrec.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_sum_count_dense(std::uintptr_t data, std::uintptr_t clusters,
@@ -103,8 +104,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("data"), nb::arg("clusters"), nb::arg("sum"), nb::arg("count"), nb::arg("rows"),
-      nb::arg("cols"), nb::arg("ncls"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "clusters"_a, "sum"_a, "count"_a, "rows"_a, "cols"_a, "ncls"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "sum_count_sparse",
@@ -121,9 +122,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("clusters"), nb::arg("sum"),
-      nb::arg("count"), nb::arg("rows"), nb::arg("ncls"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "clusters"_a, "sum"_a, "count"_a, "rows"_a, "ncls"_a,
+      "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "mean_dense",
@@ -137,8 +137,7 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("data"), nb::arg("clusters"), nb::arg("g"), nb::arg("rows"), nb::arg("cols"),
-      nb::arg("ncls"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "clusters"_a, "g"_a, "rows"_a, "cols"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "mean_sparse",
@@ -154,8 +153,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("clusters"), nb::arg("g"),
-      nb::arg("rows"), nb::arg("ncls"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "clusters"_a, "g"_a, "rows"_a, "ncls"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "elementwise_diff",
@@ -171,8 +170,7 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("g"), nb::arg("total_counts"), nb::arg("n_genes"), nb::arg("n_clusters"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "g"_a, "total_counts"_a, "n_genes"_a, "n_clusters"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "interaction",
@@ -189,9 +187,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("interactions"), nb::arg("interaction_clusters"), nb::arg("mean"), nb::arg("res"),
-      nb::arg("mask"), nb::arg("g"), nb::arg("n_iter"), nb::arg("n_inter_clust"), nb::arg("ncls"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "interactions"_a, "interaction_clusters"_a, "mean"_a, "res"_a, "mask"_a, "g"_a, "n_iter"_a,
+      "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "res_mean",
@@ -208,7 +205,6 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("interactions"), nb::arg("interaction_clusters"), nb::arg("mean"),
-      nb::arg("res_mean"), nb::arg("n_inter"), nb::arg("n_inter_clust"), nb::arg("ncls"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "interactions"_a, "interaction_clusters"_a, "mean"_a, "res_mean"_a, "n_inter"_a,
+      "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
index c8762582..d3ba8670 100644
--- a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
+++ b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
@@ -6,6 +6,7 @@
 
 namespace nb = nanobind;
 using nb::handle;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_mean_var_major(std::uintptr_t indptr_ptr, std::uintptr_t indices_ptr,
@@ -64,8 +65,8 @@ NB_MODULE(_mean_var_cuda, m) {
           throw nb::value_error("Unsupported itemsize for mean_var_major (expected 4 or 8)");
         }
       },
-      nb::arg("indptr"), nb::arg("indices"), nb::arg("data"), nb::arg("means"), nb::arg("vars"),
-      nb::arg("major"), nb::arg("minor"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "indices"_a, "data"_a, "means"_a, "vars"_a, "major"_a, "minor"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "mean_var_minor",
       [](std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means, std::uintptr_t vars,
@@ -78,6 +79,5 @@ NB_MODULE(_mean_var_cuda, m) {
           throw nb::value_error("Unsupported itemsize for mean_var_minor (expected 4 or 8)");
         }
       },
-      nb::arg("indices"), nb::arg("data"), nb::arg("means"), nb::arg("vars"), nb::arg("nnz"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indices"_a, "data"_a, "means"_a, "vars"_a, "nnz"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/nanmean/nanmean.cu b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
index 5fcd768b..5cc1c374 100644
--- a/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
+++ b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
@@ -5,6 +5,7 @@
 #include "kernels_nanmean.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_nan_mean_minor(std::uintptr_t index, std::uintptr_t data,
@@ -43,8 +44,7 @@ NB_MODULE(_nanmean_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("index"), nb::arg("data"), nb::arg("means"), nb::arg("nans"), nb::arg("mask"),
-      nb::arg("nnz"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "index"_a, "data"_a, "means"_a, "nans"_a, "mask"_a, "nnz"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "nan_mean_major",
@@ -60,7 +60,6 @@ NB_MODULE(_nanmean_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("means"), nb::arg("nans"),
-      nb::arg("mask"), nb::arg("major"), nb::arg("minor"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "means"_a, "nans"_a, "mask"_a, "major"_a, "minor"_a,
+      "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
index 992ceb07..95676776 100644
--- a/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
+++ b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
@@ -5,6 +5,7 @@
 #include "kernels_dist.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 static inline void launch_sqeuclidean(std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs,
                                       long long n_samples, long long n_features,
@@ -44,22 +45,19 @@ NB_MODULE(_nn_descent_cuda, m) {
         launch_sqeuclidean(data, out, pairs, n_samples, n_features, n_neighbors,
                            (cudaStream_t)stream);
       },
-      nb::arg("data"), nb::arg("out"), nb::arg("pairs"), nb::arg("n_samples"),
-      nb::arg("n_features"), nb::arg("n_neighbors"), nb::arg("stream") = 0);
+      "data"_a, "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a, "stream"_a = 0);
   m.def(
       "cosine",
       [](std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs, long long n_samples,
          long long n_features, long long n_neighbors, std::uintptr_t stream) {
         launch_cosine(data, out, pairs, n_samples, n_features, n_neighbors, (cudaStream_t)stream);
       },
-      nb::arg("data"), nb::arg("out"), nb::arg("pairs"), nb::arg("n_samples"),
-      nb::arg("n_features"), nb::arg("n_neighbors"), nb::arg("stream") = 0);
+      "data"_a, "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a, "stream"_a = 0);
   m.def(
       "inner",
       [](std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs, long long n_samples,
          long long n_features, long long n_neighbors, std::uintptr_t stream) {
         launch_inner(data, out, pairs, n_samples, n_features, n_neighbors, (cudaStream_t)stream);
       },
-      nb::arg("data"), nb::arg("out"), nb::arg("pairs"), nb::arg("n_samples"),
-      nb::arg("n_features"), nb::arg("n_neighbors"), nb::arg("stream") = 0);
+      "data"_a, "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/norm/norm.cu b/src/rapids_singlecell/_cuda/norm/norm.cu
index 37358214..4e72c5c4 100644
--- a/src/rapids_singlecell/_cuda/norm/norm.cu
+++ b/src/rapids_singlecell/_cuda/norm/norm.cu
@@ -5,6 +5,7 @@
 #include "kernels_norm.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_dense_row_scale(std::uintptr_t data_ptr, int nrows, int ncols,
@@ -51,8 +52,7 @@ NB_MODULE(_norm_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("data"), nb::arg("nrows"), nb::arg("ncols"), nb::arg("target_sum"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "nrows"_a, "ncols"_a, "target_sum"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "mul_csr",
@@ -66,8 +66,7 @@ NB_MODULE(_norm_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("indptr"), nb::arg("data"), nb::arg("nrows"), nb::arg("target_sum"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "data"_a, "nrows"_a, "target_sum"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "sum_major",
@@ -81,6 +80,5 @@ NB_MODULE(_norm_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("indptr"), nb::arg("data"), nb::arg("sums"), nb::arg("major"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "data"_a, "sums"_a, "major"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/pr/pr.cu b/src/rapids_singlecell/_cuda/pr/pr.cu
index d39e2a42..8cf53a8d 100644
--- a/src/rapids_singlecell/_cuda/pr/pr.cu
+++ b/src/rapids_singlecell/_cuda/pr/pr.cu
@@ -6,6 +6,7 @@
 #include "kernels_pr_hvg.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_sparse_norm_res_csc(std::uintptr_t indptr, std::uintptr_t index,
@@ -96,10 +97,9 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
-      nb::arg("sums_genes"), nb::arg("residuals"), nb::arg("inv_sum_total"), nb::arg("clip"),
-      nb::arg("inv_theta"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "residuals"_a,
+      "inv_sum_total"_a, "clip"_a, "inv_theta"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "sparse_norm_res_csr",
@@ -118,10 +118,9 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
-      nb::arg("sums_genes"), nb::arg("residuals"), nb::arg("inv_sum_total"), nb::arg("clip"),
-      nb::arg("inv_theta"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "residuals"_a,
+      "inv_sum_total"_a, "clip"_a, "inv_theta"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "dense_norm_res",
@@ -138,9 +137,8 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("X"), nb::arg("residuals"), nb::arg("sums_cells"), nb::arg("sums_genes"),
-      nb::arg("inv_sum_total"), nb::arg("clip"), nb::arg("inv_theta"), nb::arg("n_cells"),
-      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "X"_a, "residuals"_a, "sums_cells"_a, "sums_genes"_a, "inv_sum_total"_a, "clip"_a,
+      "inv_theta"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "csc_hvg_res",
@@ -159,10 +157,9 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_genes"),
-      nb::arg("sums_cells"), nb::arg("residuals"), nb::arg("inv_sum_total"), nb::arg("clip"),
-      nb::arg("inv_theta"), nb::arg("n_genes"), nb::arg("n_cells"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_genes"_a, "sums_cells"_a, "residuals"_a,
+      "inv_sum_total"_a, "clip"_a, "inv_theta"_a, "n_genes"_a, "n_cells"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "dense_hvg_res",
@@ -179,7 +176,6 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("data"), nb::arg("sums_genes"), nb::arg("sums_cells"), nb::arg("residuals"),
-      nb::arg("inv_sum_total"), nb::arg("clip"), nb::arg("inv_theta"), nb::arg("n_genes"),
-      nb::arg("n_cells"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "sums_genes"_a, "sums_cells"_a, "residuals"_a, "inv_sum_total"_a, "clip"_a,
+      "inv_theta"_a, "n_genes"_a, "n_cells"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/pv/pv.cu b/src/rapids_singlecell/_cuda/pv/pv.cu
index 436fcc70..61873d8a 100644
--- a/src/rapids_singlecell/_cuda/pv/pv.cu
+++ b/src/rapids_singlecell/_cuda/pv/pv.cu
@@ -5,6 +5,7 @@
 #include "kernels_pv.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 static inline void launch_rev_cummin64(std::uintptr_t x, std::uintptr_t y, int n_rows, int m,
                                        cudaStream_t stream) {
@@ -20,5 +21,5 @@ NB_MODULE(_pv_cuda, m) {
       [](std::uintptr_t x, std::uintptr_t y, int n_rows, int m, std::uintptr_t stream) {
         launch_rev_cummin64(x, y, n_rows, m, (cudaStream_t)stream);
       },
-      nb::arg("x"), nb::arg("y"), nb::arg("n_rows"), nb::arg("m"), nb::arg("stream") = 0);
+      "x"_a, "y"_a, "n_rows"_a, "m"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/qc/qc.cu b/src/rapids_singlecell/_cuda/qc/qc.cu
index a9e9d197..8d685da5 100644
--- a/src/rapids_singlecell/_cuda/qc/qc.cu
+++ b/src/rapids_singlecell/_cuda/qc/qc.cu
@@ -5,6 +5,7 @@
 #include "kernels_qc.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_qc_csc(std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
@@ -97,9 +98,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
-      nb::arg("sums_genes"), nb::arg("cell_ex"), nb::arg("gene_ex"), nb::arg("n_genes"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "cell_ex"_a, "gene_ex"_a,
+      "n_genes"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_csr",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
@@ -114,9 +114,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
-      nb::arg("sums_genes"), nb::arg("cell_ex"), nb::arg("gene_ex"), nb::arg("n_cells"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "cell_ex"_a, "gene_ex"_a,
+      "n_cells"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_dense",
       [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t sums_genes,
@@ -131,9 +130,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("data"), nb::arg("sums_cells"), nb::arg("sums_genes"), nb::arg("cell_ex"),
-      nb::arg("gene_ex"), nb::arg("n_cells"), nb::arg("n_genes"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "data"_a, "sums_cells"_a, "sums_genes"_a, "cell_ex"_a, "gene_ex"_a, "n_cells"_a, "n_genes"_a,
+      "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_csc_sub",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
@@ -148,8 +146,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"), nb::arg("mask"),
-      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "mask"_a, "n_genes"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "sparse_qc_csr_sub",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
@@ -164,8 +162,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"), nb::arg("mask"),
-      nb::arg("n_cells"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "mask"_a, "n_cells"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "sparse_qc_dense_sub",
       [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t mask, int n_cells,
@@ -179,6 +177,5 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("data"), nb::arg("sums_cells"), nb::arg("mask"), nb::arg("n_cells"),
-      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "sums_cells"_a, "mask"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
index be87cab0..2a30b603 100644
--- a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
+++ b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
@@ -5,6 +5,7 @@
 #include "kernels_qcd.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_qc_csr_cells(std::uintptr_t indptr, std::uintptr_t index,
@@ -66,8 +67,8 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("sums_cells"),
-      nb::arg("cell_ex"), nb::arg("n_cells"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "cell_ex"_a, "n_cells"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "sparse_qc_csr_genes",
       [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t sums_genes,
@@ -79,8 +80,7 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("index"), nb::arg("data"), nb::arg("sums_genes"), nb::arg("gene_ex"), nb::arg("nnz"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "index"_a, "data"_a, "sums_genes"_a, "gene_ex"_a, "nnz"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_dense_cells",
       [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells,
@@ -94,8 +94,8 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("data"), nb::arg("sums_cells"), nb::arg("cell_ex"), nb::arg("n_cells"),
-      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "sums_cells"_a, "cell_ex"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "sparse_qc_dense_genes",
       [](std::uintptr_t data, std::uintptr_t sums_genes, std::uintptr_t gene_ex, int n_cells,
@@ -109,6 +109,6 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      nb::arg("data"), nb::arg("sums_genes"), nb::arg("gene_ex"), nb::arg("n_cells"),
-      nb::arg("n_genes"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "sums_genes"_a, "gene_ex"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/scale/scale.cu b/src/rapids_singlecell/_cuda/scale/scale.cu
index 4046aa8d..0cf5c491 100644
--- a/src/rapids_singlecell/_cuda/scale/scale.cu
+++ b/src/rapids_singlecell/_cuda/scale/scale.cu
@@ -5,6 +5,7 @@
 #include "kernels_scale.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_csc_scale_diff(std::uintptr_t indptr, std::uintptr_t data,
@@ -66,8 +67,7 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      nb::arg("indptr"), nb::arg("data"), nb::arg("std"), nb::arg("ncols"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "data"_a, "std"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "csr_scale_diff",
       [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t std,
@@ -81,8 +81,8 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      nb::arg("indptr"), nb::arg("indices"), nb::arg("data"), nb::arg("std"), nb::arg("mask"),
-      nb::arg("clipper"), nb::arg("nrows"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "indices"_a, "data"_a, "std"_a, "mask"_a, "clipper"_a, "nrows"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "dense_scale_center_diff",
       [](std::uintptr_t data, std::uintptr_t mean, std::uintptr_t std, std::uintptr_t mask,
@@ -96,8 +96,8 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      nb::arg("data"), nb::arg("mean"), nb::arg("std"), nb::arg("mask"), nb::arg("clipper"),
-      nb::arg("nrows"), nb::arg("ncols"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "mean"_a, "std"_a, "mask"_a, "clipper"_a, "nrows"_a, "ncols"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "dense_scale_diff",
       [](std::uintptr_t data, std::uintptr_t std, std::uintptr_t mask, double clipper,
@@ -111,6 +111,5 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      nb::arg("data"), nb::arg("std"), nb::arg("mask"), nb::arg("clipper"), nb::arg("nrows"),
-      nb::arg("ncols"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "data"_a, "std"_a, "mask"_a, "clipper"_a, "nrows"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
index b294771b..482c791c 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
+++ b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
@@ -5,6 +5,7 @@
 #include "kernels_s2d.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T, bool C_ORDER>
 static inline void launch_typed(const int* indptr, const int* index, const T* data, T* out,
@@ -55,7 +56,6 @@ NB_MODULE(_sparse2dense_cuda, m) {
           throw nb::value_error("Unsupported itemsize for sparse2dense (expected 4 or 8)");
         }
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("out"), nb::arg("major"),
-      nb::arg("minor"), nb::arg("c_switch"), nb::arg("max_nnz"), nb::arg("itemsize"),
-      nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "out"_a, "major"_a, "minor"_a, "c_switch"_a, "max_nnz"_a,
+      "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/spca/spca.cu b/src/rapids_singlecell/_cuda/spca/spca.cu
index 88a7e6b9..d40c32c5 100644
--- a/src/rapids_singlecell/_cuda/spca/spca.cu
+++ b/src/rapids_singlecell/_cuda/spca/spca.cu
@@ -6,6 +6,7 @@
 #include "kernels_spca.cuh"
 
 namespace nb = nanobind;
+using namespace nb::literals;
 
 template <typename T>
 static inline void launch_gram_csr_upper(std::uintptr_t indptr_ptr, std::uintptr_t index_ptr,
@@ -68,8 +69,7 @@ NB_MODULE(_spca_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("indptr"), nb::arg("index"), nb::arg("data"), nb::arg("nrows"), nb::arg("ncols"),
-      nb::arg("out"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "indptr"_a, "index"_a, "data"_a, "nrows"_a, "ncols"_a, "out"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "copy_upper_to_lower",
@@ -82,7 +82,7 @@ NB_MODULE(_spca_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("out"), nb::arg("ncols"), nb::arg("itemsize"), nb::arg("stream") = 0);
+      "out"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "cov_from_gram",
@@ -96,8 +96,7 @@ NB_MODULE(_spca_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      nb::arg("cov"), nb::arg("gram"), nb::arg("meanx"), nb::arg("meany"), nb::arg("ncols"),
-      nb::arg("itemsize"), nb::arg("stream") = 0);
+      "cov"_a, "gram"_a, "meanx"_a, "meany"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "check_zero_genes",
@@ -105,6 +104,5 @@ NB_MODULE(_spca_cuda, m) {
          std::uintptr_t stream) {
         launch_check_zero_genes(indices, genes, nnz, num_genes, (cudaStream_t)stream);
       },
-      nb::arg("indices"), nb::arg("genes"), nb::arg("nnz"), nb::arg("num_genes"),
-      nb::arg("stream") = 0);
+      "indices"_a, "genes"_a, "nnz"_a, "num_genes"_a, "stream"_a = 0);
 }

From 8abaab0b616088bed4dfab6d945e354d1e66749e Mon Sep 17 00:00:00 2001
From: Phil Schaf <flying-sheep@web.de>
Date: Thu, 18 Sep 2025 10:12:30 +0200
Subject: [PATCH 47/54] kw-only for aggr.cu

---
 src/rapids_singlecell/_cuda/aggr/aggr.cu | 15 ++--
 src/rapids_singlecell/get/_aggregated.py | 88 ++++++++++++------------
 2 files changed, 52 insertions(+), 51 deletions(-)

diff --git a/src/rapids_singlecell/_cuda/aggr/aggr.cu b/src/rapids_singlecell/_cuda/aggr/aggr.cu
index a82595f8..e0822389 100644
--- a/src/rapids_singlecell/_cuda/aggr/aggr.cu
+++ b/src/rapids_singlecell/_cuda/aggr/aggr.cu
@@ -151,13 +151,14 @@ static inline void launch_sparse_var(std::uintptr_t indptr, std::uintptr_t index
 }
 
 NB_MODULE(_aggr_cuda, m) {
-  m.def("sparse_aggr", &sparse_aggr_dispatch, "indptr"_a, "index"_a, "data"_a, "out"_a, "cats"_a,
-        "mask"_a, "n_cells"_a, "n_genes"_a, "n_groups"_a, "is_csc"_a, "dtype_itemsize"_a,
+  m.def("sparse_aggr", &sparse_aggr_dispatch, "indptr"_a, "index"_a, "data"_a, nb::kw_only(),
+        "out"_a, "cats"_a, "mask"_a, "n_cells"_a, "n_genes"_a, "n_groups"_a, "is_csc"_a,
+        "dtype_itemsize"_a, "stream"_a = 0);
+  m.def("dense_aggr", &dense_aggr_dispatch, "data"_a, nb::kw_only(), "out"_a, "cats"_a, "mask"_a,
+        "n_cells"_a, "n_genes"_a, "n_groups"_a, "is_fortran"_a, "dtype_itemsize"_a, "stream"_a = 0);
+  m.def("csr_to_coo", &csr_to_coo_dispatch, "indptr"_a, "index"_a, "data"_a, nb::kw_only(),
+        "out_row"_a, "out_col"_a, "out_data"_a, "cats"_a, "mask"_a, "n_cells"_a, "dtype_itemsize"_a,
         "stream"_a = 0);
-  m.def("dense_aggr", &dense_aggr_dispatch, "data"_a, "out"_a, "cats"_a, "mask"_a, "n_cells"_a,
-        "n_genes"_a, "n_groups"_a, "is_fortran"_a, "dtype_itemsize"_a, "stream"_a = 0);
-  m.def("csr_to_coo", &csr_to_coo_dispatch, "indptr"_a, "index"_a, "data"_a, "row"_a, "col"_a,
-        "ndata"_a, "cats"_a, "mask"_a, "n_cells"_a, "dtype_itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_var",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data, std::uintptr_t mean_data,
@@ -165,6 +166,6 @@ NB_MODULE(_aggr_cuda, m) {
         launch_sparse_var(indptr, index, data, mean_data, n_cells, dof, n_groups,
                           (cudaStream_t)stream);
       },
-      "indptr"_a, "index"_a, "data"_a, "mean_data"_a, "n_cells"_a, "dof"_a, "n_groups"_a,
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "means"_a, "n_cells"_a, "dof"_a, "n_groups"_a,
       "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/get/_aggregated.py b/src/rapids_singlecell/get/_aggregated.py
index 42496e86..61ab168a 100644
--- a/src/rapids_singlecell/get/_aggregated.py
+++ b/src/rapids_singlecell/get/_aggregated.py
@@ -91,26 +91,26 @@ def __aggregate_dask(X_part, mask_part, groupby_part):
                     X_part.indptr.data.ptr,
                     X_part.indices.data.ptr,
                     X_part.data.data.ptr,
-                    out.data.ptr,
-                    gb.data.ptr,
-                    mk.data.ptr,
-                    X_part.shape[0],
-                    X_part.shape[1],
-                    int(n_groups),
-                    bool(0),
-                    int(X_part.data.dtype.itemsize),
+                    out=out.data.ptr,
+                    cats=gb.data.ptr,
+                    mask=mk.data.ptr,
+                    n_cells=X_part.shape[0],
+                    n_genes=X_part.shape[1],
+                    n_groups=n_groups,
+                    is_csc=False,
+                    dtype_itemsize=X_part.data.dtype.itemsize,
                 )
             else:
                 _aggr_cuda.dense_aggr(
-                    int(X_part.data.ptr),
-                    int(out.data.ptr),
-                    int(gb.data.ptr),
-                    int(mk.data.ptr),
-                    int(X_part.shape[0]),
-                    int(X_part.shape[1]),
-                    int(n_groups),
-                    bool(0 if X_part.flags.c_contiguous else 1),
-                    int(X_part.dtype.itemsize),
+                    X_part.data.ptr,
+                    out=out.data.ptr,
+                    cats=gb.data.ptr,
+                    mask=mk.data.ptr,
+                    n_cells=X_part.shape[0],
+                    n_genes=X_part.shape[1],
+                    n_groups=n_groups,
+                    is_fortran=X_part.flags.f_contiguous,
+                    dtype_itemsize=X_part.dtype.itemsize,
                 )
             return out
 
@@ -170,14 +170,14 @@ def count_mean_var_sparse(self, dof: int = 1):
             self.data.indptr.data.ptr,
             self.data.indices.data.ptr,
             self.data.data.data.ptr,
-            out.data.ptr,
-            self.groupby.data.ptr,
-            mask.data.ptr,
-            int(self.data.shape[0]),
-            int(self.data.shape[1]),
-            int(self.n_cells.shape[0]),
-            self.data.format == "csc",
-            int(self.data.data.dtype.itemsize),
+            out=out.data.ptr,
+            cats=self.groupby.data.ptr,
+            mask=mask.data.ptr,
+            n_cells=int(self.data.shape[0]),
+            n_genes=int(self.data.shape[1]),
+            n_groups=int(self.n_cells.shape[0]),
+            is_csc=self.data.format == "csc",
+            dtype_itemsize=int(self.data.data.dtype.itemsize),
         )
         sums, counts, sq_sums = out[0, :], out[1, :], out[2, :]
         sums = sums.reshape(self.n_cells.shape[0], self.data.shape[1])
@@ -211,13 +211,13 @@ def count_mean_var_sparse_sparse(self, funcs, dof: int = 1):
             self.data.indptr.data.ptr,
             self.data.indices.data.ptr,
             self.data.data.data.ptr,
-            src_row.data.ptr,
-            src_col.data.ptr,
-            src_data.data.ptr,
-            self.groupby.data.ptr,
-            mask.data.ptr,
-            int(self.data.shape[0]),
-            int(self.data.data.dtype.itemsize),
+            out_row=src_row.data.ptr,
+            out_col=src_col.data.ptr,
+            out_data=src_data.data.ptr,
+            cats=self.groupby.data.ptr,
+            mask=mask.data.ptr,
+            n_cells=self.data.shape[0],
+            dtype_itemsize=self.data.data.dtype.itemsize,
         )
 
         keys = cp.stack([src_col, src_row])
@@ -309,10 +309,10 @@ def count_mean_var_sparse_sparse(self, funcs, dof: int = 1):
                     var.indptr.data.ptr,
                     var.indices.data.ptr,
                     var.data.data.ptr,
-                    means.data.ptr,
-                    self.n_cells.data.ptr,
-                    int(dof),
-                    int(var.shape[0]),
+                    means=means.data.ptr,
+                    n_cells=self.n_cells.data.ptr,
+                    dof=int(dof),
+                    n_groups=var.shape[0],
                 )
                 results["var"] = var
         if "count_nonzero" in funcs:
@@ -347,14 +347,14 @@ def count_mean_var_dense(self, dof: int = 1):
 
         _aggr_cuda.dense_aggr(
             self.data.data.ptr,
-            out.data.ptr,
-            self.groupby.data.ptr,
-            mask.data.ptr,
-            self.data.shape[0],
-            int(self.data.shape[1]),
-            int(self.n_cells.shape[0]),
-            bool(0 if self.data.flags.c_contiguous else 1),
-            int(self.data.dtype.itemsize),
+            out=out.data.ptr,
+            cats=self.groupby.data.ptr,
+            mask=mask.data.ptr,
+            n_cells=self.data.shape[0],
+            n_genes=self.data.shape[1],
+            n_groups=self.n_cells.shape[0],
+            is_fortran=self.data.flags.f_contiguous,
+            dtype_itemsize=self.data.dtype.itemsize,
         )
         sums, counts, sq_sums = out[0], out[1], out[2]
         sums = sums.reshape(self.n_cells.shape[0], self.data.shape[1])

From 84a34c46f978ed3542b80536e1f28e8534662060 Mon Sep 17 00:00:00 2001
From: Phil Schaf <flying-sheep@web.de>
Date: Thu, 18 Sep 2025 10:27:06 +0200
Subject: [PATCH 48/54] remaining cleanup

---
 src/rapids_singlecell/get/_aggregated.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/src/rapids_singlecell/get/_aggregated.py b/src/rapids_singlecell/get/_aggregated.py
index 61ab168a..a7391cd8 100644
--- a/src/rapids_singlecell/get/_aggregated.py
+++ b/src/rapids_singlecell/get/_aggregated.py
@@ -173,11 +173,11 @@ def count_mean_var_sparse(self, dof: int = 1):
             out=out.data.ptr,
             cats=self.groupby.data.ptr,
             mask=mask.data.ptr,
-            n_cells=int(self.data.shape[0]),
-            n_genes=int(self.data.shape[1]),
-            n_groups=int(self.n_cells.shape[0]),
+            n_cells=self.data.shape[0],
+            n_genes=self.data.shape[1],
+            n_groups=self.n_cells.shape[0],
             is_csc=self.data.format == "csc",
-            dtype_itemsize=int(self.data.data.dtype.itemsize),
+            dtype_itemsize=self.data.data.dtype.itemsize,
         )
         sums, counts, sq_sums = out[0, :], out[1, :], out[2, :]
         sums = sums.reshape(self.n_cells.shape[0], self.data.shape[1])

From e53c87abf94ff506e702b680e30b22d4668caf39 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 18 Sep 2025 16:23:04 +0200
Subject: [PATCH 49/54] add keywords

---
 src/rapids_singlecell/_cuda/aucell/aucell.cu  |   4 +-
 .../_cuda/autocorr/autocorr.cu                |  21 +--
 src/rapids_singlecell/_cuda/bbknn/bbknn.cu    |   4 +-
 src/rapids_singlecell/_cuda/cooc/cooc.cu      |  12 +-
 .../_cuda/harmony/colsum/colsum.cu            |   4 +-
 .../_cuda/harmony/kmeans/kmeans.cu            |   2 +-
 .../_cuda/harmony/normalize/normalize.cu      |   2 +-
 .../_cuda/harmony/outer/outer.cu              |   5 +-
 .../_cuda/harmony/pen/pen.cu                  |   3 +-
 .../_cuda/harmony/scatter/scatter.cu          |  12 +-
 src/rapids_singlecell/_cuda/ligrec/ligrec.cu  |  26 ++--
 .../_cuda/mean_var/mean_var.cu                |   7 +-
 .../_cuda/nanmean/nanmean.cu                  |   7 +-
 .../_cuda/nn_descent/nn_descent.cu            |   9 +-
 src/rapids_singlecell/_cuda/norm/norm.cu      |   6 +-
 src/rapids_singlecell/_cuda/pr/pr.cu          |  14 +-
 src/rapids_singlecell/_cuda/pv/pv.cu          |   6 +-
 src/rapids_singlecell/_cuda/qc/qc.cu          |  23 +--
 .../_cuda/qc_dask/qc_kernels_dask.cu          |  11 +-
 src/rapids_singlecell/_cuda/scale/scale.cu    |  13 +-
 .../_cuda/sparse2dense/sparse2dense.cu        |   4 +-
 src/rapids_singlecell/_cuda/spca/spca.cu      |  16 ++-
 .../decoupler_gpu/_helper/_pv.py              |   2 +-
 .../decoupler_gpu/_method_aucell.py           |  20 +--
 .../preprocessing/_harmony/_helper.py         | 132 ++++++++---------
 src/rapids_singlecell/preprocessing/_hvg.py   |  40 +++---
 .../preprocessing/_neighbors.py               |  50 +++----
 .../preprocessing/_normalize.py               | 112 +++++++--------
 src/rapids_singlecell/preprocessing/_qc.py    | 136 +++++++++---------
 src/rapids_singlecell/preprocessing/_scale.py |  70 ++++-----
 .../preprocessing/_sparse_pca/_helper.py      |  26 ++--
 .../preprocessing/_sparse_pca/_sparse_pca.py  |  20 +--
 src/rapids_singlecell/preprocessing/_utils.py |  60 ++++----
 src/rapids_singlecell/squidpy_gpu/_co_oc.py   |  56 ++++----
 src/rapids_singlecell/squidpy_gpu/_gearysc.py |  82 +++++------
 src/rapids_singlecell/squidpy_gpu/_ligrec.py  | 120 ++++++++--------
 src/rapids_singlecell/squidpy_gpu/_moransi.py |  86 +++++------
 src/rapids_singlecell/tools/_utils.py         |  52 +++----
 38 files changed, 647 insertions(+), 628 deletions(-)

diff --git a/src/rapids_singlecell/_cuda/aucell/aucell.cu b/src/rapids_singlecell/_cuda/aucell/aucell.cu
index 3164b0bc..2e63447c 100644
--- a/src/rapids_singlecell/_cuda/aucell/aucell.cu
+++ b/src/rapids_singlecell/_cuda/aucell/aucell.cu
@@ -51,6 +51,6 @@ NB_MODULE(_aucell_cuda, m) {
         launch_auc(ranks, R, C, cnct, starts, lens, n_sets, n_up, max_aucs, es,
                    (cudaStream_t)stream);
       },
-      "ranks"_a, "R"_a, "C"_a, "cnct"_a, "starts"_a, "lens"_a, "n_sets"_a, "n_up"_a, "max_aucs"_a,
-      "es"_a, "stream"_a = 0);
+      "ranks"_a, nb::kw_only(), "R"_a, "C"_a, "cnct"_a, "starts"_a, "lens"_a, "n_sets"_a, "n_up"_a,
+      "max_aucs"_a, "es"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/autocorr/autocorr.cu b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
index bee89d28..38d99a17 100644
--- a/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
+++ b/src/rapids_singlecell/_cuda/autocorr/autocorr.cu
@@ -80,8 +80,8 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_morans_dense(data_centered, adj_row_ptr, adj_col_ind, adj_data, num, n_samples,
                             n_features, (cudaStream_t)stream);
       },
-      "data_centered"_a, "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "num"_a, "n_samples"_a,
-      "n_features"_a, "stream"_a = 0);
+      "data_centered"_a, nb::kw_only(), "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "num"_a,
+      "n_samples"_a, "n_features"_a, "stream"_a = 0);
   m.def(
       "morans_sparse",
       [](std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
@@ -92,8 +92,9 @@ NB_MODULE(_autocorr_cuda, m) {
                              data_values, n_samples, n_features, mean_array, num,
                              (cudaStream_t)stream);
       },
-      "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "data_row_ptr"_a, "data_col_ind"_a,
-      "data_values"_a, "n_samples"_a, "n_features"_a, "mean_array"_a, "num"_a, "stream"_a = 0);
+      "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, nb::kw_only(), "data_row_ptr"_a,
+      "data_col_ind"_a, "data_values"_a, "n_samples"_a, "n_features"_a, "mean_array"_a, "num"_a,
+      "stream"_a = 0);
   m.def(
       "gearys_dense",
       [](std::uintptr_t data, std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind,
@@ -102,8 +103,8 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_gearys_dense(data, adj_row_ptr, adj_col_ind, adj_data, num, n_samples, n_features,
                             (cudaStream_t)stream);
       },
-      "data"_a, "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "num"_a, "n_samples"_a,
-      "n_features"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "num"_a,
+      "n_samples"_a, "n_features"_a, "stream"_a = 0);
   m.def(
       "gearys_sparse",
       [](std::uintptr_t adj_row_ptr, std::uintptr_t adj_col_ind, std::uintptr_t adj_data,
@@ -112,8 +113,8 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_gearys_sparse(adj_row_ptr, adj_col_ind, adj_data, data_row_ptr, data_col_ind,
                              data_values, n_samples, n_features, num, (cudaStream_t)stream);
       },
-      "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, "data_row_ptr"_a, "data_col_ind"_a,
-      "data_values"_a, "n_samples"_a, "n_features"_a, "num"_a, "stream"_a = 0);
+      "adj_row_ptr"_a, "adj_col_ind"_a, "adj_data"_a, nb::kw_only(), "data_row_ptr"_a,
+      "data_col_ind"_a, "data_values"_a, "n_samples"_a, "n_features"_a, "num"_a, "stream"_a = 0);
   m.def(
       "pre_den_sparse",
       [](std::uintptr_t data_col_ind, std::uintptr_t data_values, int nnz,
@@ -122,6 +123,6 @@ NB_MODULE(_autocorr_cuda, m) {
         launch_pre_den_sparse(data_col_ind, data_values, nnz, mean_array, den, counter,
                               (cudaStream_t)stream);
       },
-      "data_col_ind"_a, "data_values"_a, "nnz"_a, "mean_array"_a, "den"_a, "counter"_a,
-      "stream"_a = 0);
+      "data_col_ind"_a, "data_values"_a, nb::kw_only(), "nnz"_a, "mean_array"_a, "den"_a,
+      "counter"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/bbknn/bbknn.cu b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
index 406a9786..ad751981 100644
--- a/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
+++ b/src/rapids_singlecell/_cuda/bbknn/bbknn.cu
@@ -40,7 +40,7 @@ NB_MODULE(_bbknn_cuda, m) {
          std::uintptr_t stream) {
         launch_find_top_k_per_row(data, indptr, n_rows, trim, vals, (cudaStream_t)stream);
       },
-      "data"_a, "indptr"_a, "n_rows"_a, "trim"_a, "vals"_a, "stream"_a = 0);
+      "data"_a, "indptr"_a, nb::kw_only(), "n_rows"_a, "trim"_a, "vals"_a, "stream"_a = 0);
 
   m.def(
       "cut_smaller",
@@ -48,5 +48,5 @@ NB_MODULE(_bbknn_cuda, m) {
          int n_rows, std::uintptr_t stream) {
         launch_cut_smaller(indptr, index, data, vals, n_rows, (cudaStream_t)stream);
       },
-      "indptr"_a, "index"_a, "data"_a, "vals"_a, "n_rows"_a, "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "vals"_a, "n_rows"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/cooc/cooc.cu b/src/rapids_singlecell/_cuda/cooc/cooc.cu
index 9e93cf8b..660581b6 100644
--- a/src/rapids_singlecell/_cuda/cooc/cooc.cu
+++ b/src/rapids_singlecell/_cuda/cooc/cooc.cu
@@ -91,21 +91,23 @@ NB_MODULE(_cooc_cuda, m) {
         launch_count_pairwise(spatial, thresholds, labels, result, n, k, l_val,
                               (cudaStream_t)stream);
       },
-      "spatial"_a, "thresholds"_a, "labels"_a, "result"_a, "n"_a, "k"_a, "l_val"_a, "stream"_a = 0);
+      "spatial"_a, nb::kw_only(), "thresholds"_a, "labels"_a, "result"_a, "n"_a, "k"_a, "l_val"_a,
+      "stream"_a = 0);
   m.def(
       "reduce_shared",
       [](std::uintptr_t result, std::uintptr_t out, int k, int l_val, int format,
          std::uintptr_t stream) {
         return launch_reduce_shared(result, out, k, l_val, format, (cudaStream_t)stream);
       },
-      "result"_a, "out"_a, "k"_a, "l_val"_a, "format"_a, "stream"_a = 0);
+      "result"_a, nb::kw_only(), "out"_a, "k"_a, "l_val"_a, "format"_a, "stream"_a = 0);
   m.def(
       "reduce_global",
       [](std::uintptr_t result, std::uintptr_t inter_out, std::uintptr_t out, int k, int l_val,
          int format, std::uintptr_t stream) {
         launch_reduce_global(result, inter_out, out, k, l_val, format, (cudaStream_t)stream);
       },
-      "result"_a, "inter_out"_a, "out"_a, "k"_a, "l_val"_a, "format"_a, "stream"_a = 0);
+      "result"_a, nb::kw_only(), "inter_out"_a, "out"_a, "k"_a, "l_val"_a, "format"_a,
+      "stream"_a = 0);
   m.def(
       "count_csr_catpairs_auto",
       [](std::uintptr_t spatial, std::uintptr_t thresholds, std::uintptr_t cat_offsets,
@@ -115,6 +117,6 @@ NB_MODULE(_cooc_cuda, m) {
                                               pair_left, pair_right, counts_delta, num_pairs, k,
                                               l_val, (cudaStream_t)stream);
       },
-      "spatial"_a, "thresholds"_a, "cat_offsets"_a, "cell_indices"_a, "pair_left"_a, "pair_right"_a,
-      "counts_delta"_a, "num_pairs"_a, "k"_a, "l_val"_a, "stream"_a = 0);
+      "spatial"_a, nb::kw_only(), "thresholds"_a, "cat_offsets"_a, "cell_indices"_a, "pair_left"_a,
+      "pair_right"_a, "counts_delta"_a, "num_pairs"_a, "k"_a, "l_val"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
index e8116698..d2bb4d45 100644
--- a/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
+++ b/src/rapids_singlecell/_cuda/harmony/colsum/colsum.cu
@@ -43,7 +43,7 @@ NB_MODULE(_harmony_colsum_cuda, m) {
           throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
         }
       },
-      "A"_a, "out"_a, "rows"_a, "cols"_a, "dtype_code"_a, "stream"_a = 0);
+      "A"_a, nb::kw_only(), "out"_a, "rows"_a, "cols"_a, "dtype_code"_a, "stream"_a = 0);
 
   m.def(
       "colsum_atomic",
@@ -59,5 +59,5 @@ NB_MODULE(_harmony_colsum_cuda, m) {
           throw nb::value_error("Unsupported dtype_code (expected 0/1/2 or 4/8)");
         }
       },
-      "A"_a, "out"_a, "rows"_a, "cols"_a, "dtype_code"_a, "stream"_a = 0);
+      "A"_a, nb::kw_only(), "out"_a, "rows"_a, "cols"_a, "dtype_code"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
index c115282e..c2931d9b 100644
--- a/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
+++ b/src/rapids_singlecell/_cuda/harmony/kmeans/kmeans.cu
@@ -29,5 +29,5 @@ NB_MODULE(_harmony_kmeans_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "r"_a, "dot"_a, "n"_a, "out"_a, "itemsize"_a, "stream"_a = 0);
+      "r"_a, nb::kw_only(), "dot"_a, "n"_a, "out"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
index e6088aa6..c4287933 100644
--- a/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
+++ b/src/rapids_singlecell/_cuda/harmony/normalize/normalize.cu
@@ -27,5 +27,5 @@ NB_MODULE(_harmony_normalize_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "X"_a, "rows"_a, "cols"_a, "itemsize"_a, "stream"_a = 0);
+      "X"_a, nb::kw_only(), "rows"_a, "cols"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/outer/outer.cu b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
index 0c6787ff..c93cfe92 100644
--- a/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
+++ b/src/rapids_singlecell/_cuda/harmony/outer/outer.cu
@@ -44,7 +44,7 @@ NB_MODULE(_harmony_outer_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "E"_a, "Pr_b"_a, "R_sum"_a, "n_cats"_a, "n_pcs"_a, "switcher"_a, "itemsize"_a,
+      "E"_a, nb::kw_only(), "Pr_b"_a, "R_sum"_a, "n_cats"_a, "n_pcs"_a, "switcher"_a, "itemsize"_a,
       "stream"_a = 0);
 
   m.def(
@@ -59,5 +59,6 @@ NB_MODULE(_harmony_outer_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "Z"_a, "W"_a, "cats"_a, "R"_a, "n_cells"_a, "n_pcs"_a, "itemsize"_a, "stream"_a = 0);
+      "Z"_a, nb::kw_only(), "W"_a, "cats"_a, "R"_a, "n_cells"_a, "n_pcs"_a, "itemsize"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/pen/pen.cu b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
index 60f68f54..dc68de4e 100644
--- a/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
+++ b/src/rapids_singlecell/_cuda/harmony/pen/pen.cu
@@ -31,5 +31,6 @@ NB_MODULE(_harmony_pen_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "R"_a, "penalty"_a, "cats"_a, "n_rows"_a, "n_cols"_a, "itemsize"_a, "stream"_a = 0);
+      "R"_a, nb::kw_only(), "penalty"_a, "cats"_a, "n_rows"_a, "n_cols"_a, "itemsize"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
index d4527ab0..70244004 100644
--- a/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
+++ b/src/rapids_singlecell/_cuda/harmony/scatter/scatter.cu
@@ -66,7 +66,8 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "v"_a, "cats"_a, "n_cells"_a, "n_pcs"_a, "switcher"_a, "a"_a, "itemsize"_a, "stream"_a = 0);
+      "v"_a, nb::kw_only(), "cats"_a, "n_cells"_a, "n_pcs"_a, "switcher"_a, "a"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "aggregated_matrix",
@@ -82,7 +83,8 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "aggregated_matrix"_a, "sum"_a, "top_corner"_a, "n_batches"_a, "itemsize"_a, "stream"_a = 0);
+      "aggregated_matrix"_a, nb::kw_only(), "sum"_a, "top_corner"_a, "n_batches"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "scatter_add_cat0",
@@ -96,7 +98,7 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "v"_a, "n_cells"_a, "n_pcs"_a, "a"_a, "bias"_a, "itemsize"_a, "stream"_a = 0);
+      "v"_a, nb::kw_only(), "n_cells"_a, "n_pcs"_a, "a"_a, "bias"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "scatter_add_block",
@@ -113,6 +115,6 @@ NB_MODULE(_harmony_scatter_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "v"_a, "cat_offsets"_a, "cell_indices"_a, "n_cells"_a, "n_pcs"_a, "n_batches"_a, "a"_a,
-      "bias"_a, "itemsize"_a, "stream"_a = 0);
+      "v"_a, nb::kw_only(), "cat_offsets"_a, "cell_indices"_a, "n_cells"_a, "n_pcs"_a,
+      "n_batches"_a, "a"_a, "bias"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
index e64b845a..ede27e32 100644
--- a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
+++ b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
@@ -104,8 +104,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "data"_a, "clusters"_a, "sum"_a, "count"_a, "rows"_a, "cols"_a, "ncls"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "data"_a, nb::kw_only(), "clusters"_a, "sum"_a, "count"_a, "rows"_a, "cols"_a, "ncls"_a,
+      "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "sum_count_sparse",
@@ -122,8 +122,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "indptr"_a, "index"_a, "data"_a, "clusters"_a, "sum"_a, "count"_a, "rows"_a, "ncls"_a,
-      "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "clusters"_a, "sum"_a, "count"_a, "rows"_a,
+      "ncls"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "mean_dense",
@@ -137,7 +137,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "data"_a, "clusters"_a, "g"_a, "rows"_a, "cols"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "clusters"_a, "g"_a, "rows"_a, "cols"_a, "ncls"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "mean_sparse",
@@ -153,8 +154,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "indptr"_a, "index"_a, "data"_a, "clusters"_a, "g"_a, "rows"_a, "ncls"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "clusters"_a, "g"_a, "rows"_a, "ncls"_a,
+      "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "elementwise_diff",
@@ -170,7 +171,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "g"_a, "total_counts"_a, "n_genes"_a, "n_clusters"_a, "itemsize"_a, "stream"_a = 0);
+      "g"_a, nb::kw_only(), "total_counts"_a, "n_genes"_a, "n_clusters"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "interaction",
@@ -187,8 +189,8 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "interactions"_a, "interaction_clusters"_a, "mean"_a, "res"_a, "mask"_a, "g"_a, "n_iter"_a,
-      "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
+      "interactions"_a, "interaction_clusters"_a, "mean"_a, nb::kw_only(), "res"_a, "mask"_a, "g"_a,
+      "n_iter"_a, "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "res_mean",
@@ -205,6 +207,6 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "interactions"_a, "interaction_clusters"_a, "mean"_a, "res_mean"_a, "n_inter"_a,
-      "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
+      "interactions"_a, "interaction_clusters"_a, "mean"_a, nb::kw_only(), "res_mean"_a,
+      "n_inter"_a, "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
index d3ba8670..21b036bc 100644
--- a/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
+++ b/src/rapids_singlecell/_cuda/mean_var/mean_var.cu
@@ -65,8 +65,8 @@ NB_MODULE(_mean_var_cuda, m) {
           throw nb::value_error("Unsupported itemsize for mean_var_major (expected 4 or 8)");
         }
       },
-      "indptr"_a, "indices"_a, "data"_a, "means"_a, "vars"_a, "major"_a, "minor"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "indptr"_a, "indices"_a, "data"_a, nb::kw_only(), "means"_a, "vars"_a, "major"_a, "minor"_a,
+      "itemsize"_a, "stream"_a = 0);
   m.def(
       "mean_var_minor",
       [](std::uintptr_t indices, std::uintptr_t data, std::uintptr_t means, std::uintptr_t vars,
@@ -79,5 +79,6 @@ NB_MODULE(_mean_var_cuda, m) {
           throw nb::value_error("Unsupported itemsize for mean_var_minor (expected 4 or 8)");
         }
       },
-      "indices"_a, "data"_a, "means"_a, "vars"_a, "nnz"_a, "itemsize"_a, "stream"_a = 0);
+      "indices"_a, "data"_a, nb::kw_only(), "means"_a, "vars"_a, "nnz"_a, "itemsize"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/nanmean/nanmean.cu b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
index 5cc1c374..7ed0570e 100644
--- a/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
+++ b/src/rapids_singlecell/_cuda/nanmean/nanmean.cu
@@ -44,7 +44,8 @@ NB_MODULE(_nanmean_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "index"_a, "data"_a, "means"_a, "nans"_a, "mask"_a, "nnz"_a, "itemsize"_a, "stream"_a = 0);
+      "index"_a, "data"_a, nb::kw_only(), "means"_a, "nans"_a, "mask"_a, "nnz"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "nan_mean_major",
@@ -60,6 +61,6 @@ NB_MODULE(_nanmean_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "means"_a, "nans"_a, "mask"_a, "major"_a, "minor"_a,
-      "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "means"_a, "nans"_a, "mask"_a, "major"_a,
+      "minor"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
index 95676776..cbc7cb9d 100644
--- a/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
+++ b/src/rapids_singlecell/_cuda/nn_descent/nn_descent.cu
@@ -45,19 +45,22 @@ NB_MODULE(_nn_descent_cuda, m) {
         launch_sqeuclidean(data, out, pairs, n_samples, n_features, n_neighbors,
                            (cudaStream_t)stream);
       },
-      "data"_a, "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a,
+      "stream"_a = 0);
   m.def(
       "cosine",
       [](std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs, long long n_samples,
          long long n_features, long long n_neighbors, std::uintptr_t stream) {
         launch_cosine(data, out, pairs, n_samples, n_features, n_neighbors, (cudaStream_t)stream);
       },
-      "data"_a, "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a,
+      "stream"_a = 0);
   m.def(
       "inner",
       [](std::uintptr_t data, std::uintptr_t out, std::uintptr_t pairs, long long n_samples,
          long long n_features, long long n_neighbors, std::uintptr_t stream) {
         launch_inner(data, out, pairs, n_samples, n_features, n_neighbors, (cudaStream_t)stream);
       },
-      "data"_a, "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "out"_a, "pairs"_a, "n_samples"_a, "n_features"_a, "n_neighbors"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/norm/norm.cu b/src/rapids_singlecell/_cuda/norm/norm.cu
index 4e72c5c4..57ab8299 100644
--- a/src/rapids_singlecell/_cuda/norm/norm.cu
+++ b/src/rapids_singlecell/_cuda/norm/norm.cu
@@ -52,7 +52,7 @@ NB_MODULE(_norm_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "data"_a, "nrows"_a, "ncols"_a, "target_sum"_a, "itemsize"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "nrows"_a, "ncols"_a, "target_sum"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "mul_csr",
@@ -66,7 +66,7 @@ NB_MODULE(_norm_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "indptr"_a, "data"_a, "nrows"_a, "target_sum"_a, "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "data"_a, nb::kw_only(), "nrows"_a, "target_sum"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "sum_major",
@@ -80,5 +80,5 @@ NB_MODULE(_norm_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "indptr"_a, "data"_a, "sums"_a, "major"_a, "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "data"_a, nb::kw_only(), "sums"_a, "major"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/pr/pr.cu b/src/rapids_singlecell/_cuda/pr/pr.cu
index 8cf53a8d..f7559349 100644
--- a/src/rapids_singlecell/_cuda/pr/pr.cu
+++ b/src/rapids_singlecell/_cuda/pr/pr.cu
@@ -97,7 +97,7 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "residuals"_a,
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_cells"_a, "sums_genes"_a, "residuals"_a,
       "inv_sum_total"_a, "clip"_a, "inv_theta"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
       "stream"_a = 0);
 
@@ -118,7 +118,7 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "residuals"_a,
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_cells"_a, "sums_genes"_a, "residuals"_a,
       "inv_sum_total"_a, "clip"_a, "inv_theta"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
       "stream"_a = 0);
 
@@ -137,8 +137,8 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "X"_a, "residuals"_a, "sums_cells"_a, "sums_genes"_a, "inv_sum_total"_a, "clip"_a,
-      "inv_theta"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a, "stream"_a = 0);
+      "X"_a, nb::kw_only(), "residuals"_a, "sums_cells"_a, "sums_genes"_a, "inv_sum_total"_a,
+      "clip"_a, "inv_theta"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "csc_hvg_res",
@@ -157,7 +157,7 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_genes"_a, "sums_cells"_a, "residuals"_a,
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_genes"_a, "sums_cells"_a, "residuals"_a,
       "inv_sum_total"_a, "clip"_a, "inv_theta"_a, "n_genes"_a, "n_cells"_a, "itemsize"_a,
       "stream"_a = 0);
 
@@ -176,6 +176,6 @@ NB_MODULE(_pr_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "data"_a, "sums_genes"_a, "sums_cells"_a, "residuals"_a, "inv_sum_total"_a, "clip"_a,
-      "inv_theta"_a, "n_genes"_a, "n_cells"_a, "itemsize"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "sums_genes"_a, "sums_cells"_a, "residuals"_a, "inv_sum_total"_a,
+      "clip"_a, "inv_theta"_a, "n_genes"_a, "n_cells"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/pv/pv.cu b/src/rapids_singlecell/_cuda/pv/pv.cu
index 61873d8a..e9618be1 100644
--- a/src/rapids_singlecell/_cuda/pv/pv.cu
+++ b/src/rapids_singlecell/_cuda/pv/pv.cu
@@ -18,8 +18,8 @@ static inline void launch_rev_cummin64(std::uintptr_t x, std::uintptr_t y, int n
 NB_MODULE(_pv_cuda, m) {
   m.def(
       "rev_cummin64",
-      [](std::uintptr_t x, std::uintptr_t y, int n_rows, int m, std::uintptr_t stream) {
-        launch_rev_cummin64(x, y, n_rows, m, (cudaStream_t)stream);
+      [](std::uintptr_t x, std::uintptr_t out, int n_rows, int m, std::uintptr_t stream) {
+        launch_rev_cummin64(x, out, n_rows, m, (cudaStream_t)stream);
       },
-      "x"_a, "y"_a, "n_rows"_a, "m"_a, "stream"_a = 0);
+      "x"_a, nb::kw_only(), "out"_a, "n_rows"_a, "m"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/qc/qc.cu b/src/rapids_singlecell/_cuda/qc/qc.cu
index 8d685da5..2fda9ae3 100644
--- a/src/rapids_singlecell/_cuda/qc/qc.cu
+++ b/src/rapids_singlecell/_cuda/qc/qc.cu
@@ -98,8 +98,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "cell_ex"_a, "gene_ex"_a,
-      "n_genes"_a, "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_cells"_a, "sums_genes"_a, "cell_ex"_a,
+      "gene_ex"_a, "n_genes"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_csr",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
@@ -114,8 +114,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "sums_genes"_a, "cell_ex"_a, "gene_ex"_a,
-      "n_cells"_a, "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_cells"_a, "sums_genes"_a, "cell_ex"_a,
+      "gene_ex"_a, "n_cells"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_dense",
       [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t sums_genes,
@@ -130,8 +130,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "data"_a, "sums_cells"_a, "sums_genes"_a, "cell_ex"_a, "gene_ex"_a, "n_cells"_a, "n_genes"_a,
-      "itemsize"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "sums_cells"_a, "sums_genes"_a, "cell_ex"_a, "gene_ex"_a,
+      "n_cells"_a, "n_genes"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_csc_sub",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
@@ -146,8 +146,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "mask"_a, "n_genes"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_cells"_a, "mask"_a, "n_genes"_a,
+      "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_csr_sub",
       [](std::uintptr_t indptr, std::uintptr_t index, std::uintptr_t data,
@@ -162,8 +162,8 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "mask"_a, "n_cells"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_cells"_a, "mask"_a, "n_cells"_a,
+      "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_dense_sub",
       [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t mask, int n_cells,
@@ -177,5 +177,6 @@ NB_MODULE(_qc_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "data"_a, "sums_cells"_a, "mask"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a, "stream"_a = 0);
+      "data"_a, nb::kw_only(), "sums_cells"_a, "mask"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
index 2a30b603..b5fe05d2 100644
--- a/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
+++ b/src/rapids_singlecell/_cuda/qc_dask/qc_kernels_dask.cu
@@ -67,8 +67,8 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "indptr"_a, "index"_a, "data"_a, "sums_cells"_a, "cell_ex"_a, "n_cells"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "sums_cells"_a, "cell_ex"_a, "n_cells"_a,
+      "itemsize"_a, "stream"_a = 0);
   m.def(
       "sparse_qc_csr_genes",
       [](std::uintptr_t index, std::uintptr_t data, std::uintptr_t sums_genes,
@@ -80,7 +80,8 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "index"_a, "data"_a, "sums_genes"_a, "gene_ex"_a, "nnz"_a, "itemsize"_a, "stream"_a = 0);
+      "index"_a, "data"_a, nb::kw_only(), "sums_genes"_a, "gene_ex"_a, "nnz"_a, "itemsize"_a,
+      "stream"_a = 0);
   m.def(
       "sparse_qc_dense_cells",
       [](std::uintptr_t data, std::uintptr_t sums_cells, std::uintptr_t cell_ex, int n_cells,
@@ -94,7 +95,7 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "data"_a, "sums_cells"_a, "cell_ex"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
+      "data"_a, nb::kw_only(), "sums_cells"_a, "cell_ex"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
       "stream"_a = 0);
   m.def(
       "sparse_qc_dense_genes",
@@ -109,6 +110,6 @@ NB_MODULE(_qc_dask_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize");
       },
-      "data"_a, "sums_genes"_a, "gene_ex"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
+      "data"_a, nb::kw_only(), "sums_genes"_a, "gene_ex"_a, "n_cells"_a, "n_genes"_a, "itemsize"_a,
       "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/scale/scale.cu b/src/rapids_singlecell/_cuda/scale/scale.cu
index 0cf5c491..690b2d7a 100644
--- a/src/rapids_singlecell/_cuda/scale/scale.cu
+++ b/src/rapids_singlecell/_cuda/scale/scale.cu
@@ -67,7 +67,7 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      "indptr"_a, "data"_a, "std"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "data"_a, "std"_a, nb::kw_only(), "ncols"_a, "itemsize"_a, "stream"_a = 0);
   m.def(
       "csr_scale_diff",
       [](std::uintptr_t indptr, std::uintptr_t indices, std::uintptr_t data, std::uintptr_t std,
@@ -81,8 +81,8 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      "indptr"_a, "indices"_a, "data"_a, "std"_a, "mask"_a, "clipper"_a, "nrows"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "indptr"_a, "indices"_a, "data"_a, "std"_a, "mask"_a, nb::kw_only(), "clipper"_a, "nrows"_a,
+      "itemsize"_a, "stream"_a = 0);
   m.def(
       "dense_scale_center_diff",
       [](std::uintptr_t data, std::uintptr_t mean, std::uintptr_t std, std::uintptr_t mask,
@@ -96,8 +96,8 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      "data"_a, "mean"_a, "std"_a, "mask"_a, "clipper"_a, "nrows"_a, "ncols"_a, "itemsize"_a,
-      "stream"_a = 0);
+      "data"_a, "mean"_a, "std"_a, "mask"_a, nb::kw_only(), "clipper"_a, "nrows"_a, "ncols"_a,
+      "itemsize"_a, "stream"_a = 0);
   m.def(
       "dense_scale_diff",
       [](std::uintptr_t data, std::uintptr_t std, std::uintptr_t mask, double clipper,
@@ -111,5 +111,6 @@ NB_MODULE(_scale_cuda, m) {
         else
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
       },
-      "data"_a, "std"_a, "mask"_a, "clipper"_a, "nrows"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
+      "data"_a, "std"_a, "mask"_a, nb::kw_only(), "clipper"_a, "nrows"_a, "ncols"_a, "itemsize"_a,
+      "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
index 482c791c..c19d7ee3 100644
--- a/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
+++ b/src/rapids_singlecell/_cuda/sparse2dense/sparse2dense.cu
@@ -56,6 +56,6 @@ NB_MODULE(_sparse2dense_cuda, m) {
           throw nb::value_error("Unsupported itemsize for sparse2dense (expected 4 or 8)");
         }
       },
-      "indptr"_a, "index"_a, "data"_a, "out"_a, "major"_a, "minor"_a, "c_switch"_a, "max_nnz"_a,
-      "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "out"_a, "major"_a, "minor"_a, "c_switch"_a,
+      "max_nnz"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/_cuda/spca/spca.cu b/src/rapids_singlecell/_cuda/spca/spca.cu
index d40c32c5..c070c1f3 100644
--- a/src/rapids_singlecell/_cuda/spca/spca.cu
+++ b/src/rapids_singlecell/_cuda/spca/spca.cu
@@ -69,7 +69,8 @@ NB_MODULE(_spca_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "indptr"_a, "index"_a, "data"_a, "nrows"_a, "ncols"_a, "out"_a, "itemsize"_a, "stream"_a = 0);
+      "indptr"_a, "index"_a, "data"_a, nb::kw_only(), "nrows"_a, "ncols"_a, "out"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "copy_upper_to_lower",
@@ -82,11 +83,11 @@ NB_MODULE(_spca_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "out"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
+      nb::kw_only(), "out"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
       "cov_from_gram",
-      [](std::uintptr_t cov, std::uintptr_t gram, std::uintptr_t meanx, std::uintptr_t meany,
+      [](std::uintptr_t gram, std::uintptr_t meanx, std::uintptr_t meany, std::uintptr_t cov,
          int ncols, int itemsize, std::uintptr_t stream) {
         if (itemsize == 4) {
           launch_cov_from_gram<float>(cov, gram, meanx, meany, ncols, (cudaStream_t)stream);
@@ -96,13 +97,14 @@ NB_MODULE(_spca_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "cov"_a, "gram"_a, "meanx"_a, "meany"_a, "ncols"_a, "itemsize"_a, "stream"_a = 0);
+      "gram"_a, "meanx"_a, "meany"_a, nb::kw_only(), "cov"_a, "ncols"_a, "itemsize"_a,
+      "stream"_a = 0);
 
   m.def(
       "check_zero_genes",
-      [](std::uintptr_t indices, std::uintptr_t genes, int nnz, int num_genes,
+      [](std::uintptr_t indices, std::uintptr_t out, int nnz, int num_genes,
          std::uintptr_t stream) {
-        launch_check_zero_genes(indices, genes, nnz, num_genes, (cudaStream_t)stream);
+        launch_check_zero_genes(indices, out, nnz, num_genes, (cudaStream_t)stream);
       },
-      "indices"_a, "genes"_a, "nnz"_a, "num_genes"_a, "stream"_a = 0);
+      "indices"_a, nb::kw_only(), "out"_a, "nnz"_a, "num_genes"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py b/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py
index 33c90083..d8147aa3 100644
--- a/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py
+++ b/src/rapids_singlecell/decoupler_gpu/_helper/_pv.py
@@ -12,7 +12,7 @@
 def _rev_cummin64(x, n_rows, m):
     y = cp.empty_like(x)
 
-    _pv.rev_cummin64(x.data.ptr, y.data.ptr, int(n_rows), int(m))
+    _pv.rev_cummin64(x.data.ptr, out=y.data.ptr, n_rows=n_rows, m=m)
     return y
 
 
diff --git a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
index 4a442395..6e16a036 100644
--- a/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
+++ b/src/rapids_singlecell/decoupler_gpu/_method_aucell.py
@@ -34,16 +34,16 @@ def _auc(row, cnct, *, starts, offsets, n_up, n_fsets, max_aucs):
 
     _au.auc(
         ranks.data.ptr,
-        int(R),
-        int(C),
-        cnct.data.ptr,
-        starts.data.ptr,
-        offsets.data.ptr,
-        int(n_fsets),
-        int(n_up),
-        max_aucs.data.ptr,
-        es.data.ptr,
-        int(cp.cuda.get_current_stream().ptr),
+        R=R,
+        C=C,
+        cnct=cnct.data.ptr,
+        starts=starts.data.ptr,
+        lens=offsets.data.ptr,
+        n_sets=n_fsets,
+        n_up=n_up,
+        max_aucs=max_aucs.data.ptr,
+        es=es.data.ptr,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     return es
 
diff --git a/src/rapids_singlecell/preprocessing/_harmony/_helper.py b/src/rapids_singlecell/preprocessing/_harmony/_helper.py
index fe68ad58..5f685439 100644
--- a/src/rapids_singlecell/preprocessing/_harmony/_helper.py
+++ b/src/rapids_singlecell/preprocessing/_harmony/_helper.py
@@ -51,10 +51,10 @@ def _normalize_cp_p1(X: cp.ndarray) -> cp.ndarray:
 
     _hc_norm.normalize(
         X.data.ptr,
-        int(rows),
-        int(cols),
-        int(cp.dtype(X.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        rows=rows,
+        cols=cols,
+        itemsize=cp.dtype(X.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     return X
 
@@ -73,13 +73,13 @@ def _scatter_add_cp(
 
     _hc_sc.scatter_add(
         X.data.ptr,
-        cats.data.ptr,
-        int(n_cells),
-        int(n_pcs),
-        int(switcher),
-        out.data.ptr,
-        int(cp.dtype(X.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        cats=cats.data.ptr,
+        n_cells=n_cells,
+        n_pcs=n_pcs,
+        switcher=switcher,
+        a=out.data.ptr,
+        itemsize=cp.dtype(X.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
 
@@ -97,13 +97,13 @@ def _Z_correction(
 
     _hc_out.harmony_corr(
         Z.data.ptr,
-        W.data.ptr,
-        cats.data.ptr,
-        R.data.ptr,
-        int(n_cells),
-        int(n_pcs),
-        int(cp.dtype(Z.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        W=W.data.ptr,
+        cats=cats.data.ptr,
+        R=R.data.ptr,
+        n_cells=n_cells,
+        n_pcs=n_pcs,
+        itemsize=cp.dtype(Z.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
 
@@ -114,13 +114,13 @@ def _outer_cp(
 
     _hc_out.outer(
         E.data.ptr,
-        Pr_b.data.ptr,
-        R_sum.data.ptr,
-        int(n_cats),
-        int(n_pcs),
-        int(switcher),
-        int(cp.dtype(E.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        Pr_b=Pr_b.data.ptr,
+        R_sum=R_sum.data.ptr,
+        n_cats=n_cats,
+        n_pcs=n_pcs,
+        switcher=switcher,
+        itemsize=cp.dtype(E.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
 
@@ -144,11 +144,11 @@ def _get_aggregated_matrix(
 
     _hc_sc.aggregated_matrix(
         aggregated_matrix.data.ptr,
-        sum.data.ptr,
-        float(sum.sum()),
-        int(n_batches),
-        int(cp.dtype(aggregated_matrix.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        sum=sum.data.ptr,
+        top_corner=float(sum.sum()),
+        n_batches=n_batches,
+        itemsize=cp.dtype(aggregated_matrix.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
 
@@ -220,12 +220,12 @@ def _scatter_add_cp_bias_csr(
     if n_cells < 300_000:
         _hc_sc.scatter_add_cat0(
             X.data.ptr,
-            int(n_cells),
-            int(n_pcs),
-            out.data.ptr,
-            bias.data.ptr,
-            int(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            n_cells=n_cells,
+            n_pcs=n_pcs,
+            a=out.data.ptr,
+            bias=bias.data.ptr,
+            itemsize=cp.dtype(X.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
     else:
@@ -233,15 +233,15 @@ def _scatter_add_cp_bias_csr(
 
     _hc_sc.scatter_add_block(
         X.data.ptr,
-        cat_offsets.data.ptr,
-        cell_indices.data.ptr,
-        int(n_cells),
-        int(n_pcs),
-        int(n_batches),
-        out.data.ptr,
-        bias.data.ptr,
-        int(cp.dtype(X.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        cat_offsets=cat_offsets.data.ptr,
+        cell_indices=cell_indices.data.ptr,
+        n_cells=n_cells,
+        n_pcs=n_pcs,
+        n_batches=n_batches,
+        a=out.data.ptr,
+        bias=bias.data.ptr,
+        itemsize=cp.dtype(X.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
 
@@ -252,11 +252,11 @@ def _kmeans_error(R: cp.ndarray, dot: cp.ndarray) -> float:
     out = cp.zeros(1, dtype=R.dtype)
     _hc_km.kmeans_err(
         R.data.ptr,
-        dot.data.ptr,
-        int(R.size),
-        out.data.ptr,
-        int(cp.dtype(R.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        dot=dot.data.ptr,
+        n=R.size,
+        out=out.data.ptr,
+        itemsize=cp.dtype(R.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     return out[0]
 
@@ -318,11 +318,11 @@ def _column_sum(X: cp.ndarray) -> cp.ndarray:
 
     _hc_cs.colsum(
         X.data.ptr,
-        out.data.ptr,
-        int(rows),
-        int(cols),
-        int(_dtype_code(X.dtype)),
-        int(cp.cuda.get_current_stream().ptr),
+        out=out.data.ptr,
+        rows=rows,
+        cols=cols,
+        dtype_code=_dtype_code(X.dtype),
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     return out
@@ -342,11 +342,11 @@ def _column_sum_atomic(X: cp.ndarray) -> cp.ndarray:
 
     _hc_cs.colsum_atomic(
         X.data.ptr,
-        out.data.ptr,
-        int(rows),
-        int(cols),
-        int(_dtype_code(X.dtype)),
-        int(cp.cuda.get_current_stream().ptr),
+        out=out.data.ptr,
+        rows=rows,
+        cols=cols,
+        dtype_code=_dtype_code(X.dtype),
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     return out
@@ -519,12 +519,12 @@ def _penalty_term(R: cp.ndarray, penalty: cp.ndarray, cats: cp.ndarray) -> cp.nd
 
     _hc_pen.pen(
         R.data.ptr,
-        penalty.data.ptr,
-        cats.data.ptr,
-        int(n_cats),
-        int(n_pcs),
-        int(cp.dtype(R.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        penalty=penalty.data.ptr,
+        cats=cats.data.ptr,
+        n_rows=n_cats,
+        n_cols=n_pcs,
+        itemsize=cp.dtype(R.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     return R
diff --git a/src/rapids_singlecell/preprocessing/_hvg.py b/src/rapids_singlecell/preprocessing/_hvg.py
index 32f9143a..a2e17452 100644
--- a/src/rapids_singlecell/preprocessing/_hvg.py
+++ b/src/rapids_singlecell/preprocessing/_hvg.py
@@ -734,31 +734,31 @@ def _highly_variable_pearson_residuals(
                 X_batch.indptr.data.ptr,
                 X_batch.indices.data.ptr,
                 X_batch.data.data.ptr,
-                sums_genes.data.ptr,
-                sums_cells.data.ptr,
-                residual_gene_var.data.ptr,
-                inv_sum_total,
-                clip,
-                inv_theta,
-                int(X_batch.shape[1]),
-                int(X_batch.shape[0]),
-                int(cp.dtype(X_batch.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_genes=sums_genes.data.ptr,
+                sums_cells=sums_cells.data.ptr,
+                residuals=residual_gene_var.data.ptr,
+                inv_sum_total=float(inv_sum_total),
+                clip=float(clip),
+                inv_theta=float(inv_theta),
+                n_genes=X_batch.shape[1],
+                n_cells=X_batch.shape[0],
+                itemsize=cp.dtype(X_batch.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
         else:
             X_batch = cp.asfortranarray(X_batch)
             _pr.dense_hvg_res(
                 X_batch.data.ptr,
-                sums_genes.data.ptr,
-                sums_cells.data.ptr,
-                residual_gene_var.data.ptr,
-                inv_sum_total,
-                clip,
-                inv_theta,
-                int(X_batch.shape[1]),
-                int(X_batch.shape[0]),
-                int(cp.dtype(X.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_genes=sums_genes.data.ptr,
+                sums_cells=sums_cells.data.ptr,
+                residuals=residual_gene_var.data.ptr,
+                inv_sum_total=float(inv_sum_total),
+                clip=float(clip),
+                inv_theta=float(inv_theta),
+                n_genes=X_batch.shape[1],
+                n_cells=X_batch.shape[0],
+                itemsize=cp.dtype(X.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
 
         unmasked_residual_gene_var = cp.zeros(len(nonzero_genes))
diff --git a/src/rapids_singlecell/preprocessing/_neighbors.py b/src/rapids_singlecell/preprocessing/_neighbors.py
index 745e030c..519a54bf 100644
--- a/src/rapids_singlecell/preprocessing/_neighbors.py
+++ b/src/rapids_singlecell/preprocessing/_neighbors.py
@@ -267,32 +267,32 @@ def _nn_descent_knn(
     if metric == "euclidean" or metric == "sqeuclidean":
         _nd.sqeuclidean(
             X.data.ptr,
-            distances.data.ptr,
-            neighbors.data.ptr,
-            int(X.shape[0]),
-            int(X.shape[1]),
-            int(neighbors.shape[1]),
-            int(cp.cuda.get_current_stream().ptr),
+            out=distances.data.ptr,
+            pairs=neighbors.data.ptr,
+            n_samples=X.shape[0],
+            n_features=X.shape[1],
+            n_neighbors=neighbors.shape[1],
+            stream=cp.cuda.get_current_stream().ptr,
         )
     elif metric == "cosine":
         _nd.cosine(
             X.data.ptr,
-            distances.data.ptr,
-            neighbors.data.ptr,
-            int(X.shape[0]),
-            int(X.shape[1]),
-            int(neighbors.shape[1]),
-            int(cp.cuda.get_current_stream().ptr),
+            out=distances.data.ptr,
+            pairs=neighbors.data.ptr,
+            n_samples=X.shape[0],
+            n_features=X.shape[1],
+            n_neighbors=neighbors.shape[1],
+            stream=cp.cuda.get_current_stream().ptr,
         )
     elif metric == "inner_product":
         _nd.inner(
             X.data.ptr,
-            distances.data.ptr,
-            neighbors.data.ptr,
-            int(X.shape[0]),
-            int(X.shape[1]),
-            int(neighbors.shape[1]),
-            int(cp.cuda.get_current_stream().ptr),
+            out=distances.data.ptr,
+            pairs=neighbors.data.ptr,
+            n_samples=X.shape[0],
+            n_features=X.shape[1],
+            n_neighbors=neighbors.shape[1],
+            stream=cp.cuda.get_current_stream().ptr,
         )
     if metric == "euclidean":
         distances = cp.sqrt(distances)
@@ -426,19 +426,19 @@ def _trimming(cnts: cp_sparse.csr_matrix, trim: int) -> cp_sparse.csr_matrix:
     _bb.find_top_k_per_row(
         cnts.data.data.ptr,
         cnts.indptr.data.ptr,
-        int(cnts.shape[0]),
-        int(trim),
-        vals_gpu.data.ptr,
-        int(cp.cuda.get_current_stream().ptr),
+        n_rows=cnts.shape[0],
+        trim=int(trim),
+        vals=vals_gpu.data.ptr,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     _bb.cut_smaller(
         cnts.indptr.data.ptr,
         cnts.indices.data.ptr,
         cnts.data.data.ptr,
-        vals_gpu.data.ptr,
-        int(cnts.shape[0]),
-        int(cp.cuda.get_current_stream().ptr),
+        vals=vals_gpu.data.ptr,
+        n_rows=cnts.shape[0],
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     cnts.eliminate_zeros()
diff --git a/src/rapids_singlecell/preprocessing/_normalize.py b/src/rapids_singlecell/preprocessing/_normalize.py
index 1e5e4e59..743dd9e8 100644
--- a/src/rapids_singlecell/preprocessing/_normalize.py
+++ b/src/rapids_singlecell/preprocessing/_normalize.py
@@ -96,11 +96,11 @@ def _normalize_total(X: ArrayTypesDask, target_sum: int):
             X = cp.asarray(X, order="C")
         _nc.mul_dense(
             X.data.ptr,
-            int(X.shape[0]),
-            int(X.shape[1]),
-            float(target_sum),
-            int(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            nrows=X.shape[0],
+            ncols=X.shape[1],
+            target_sum=float(target_sum),
+            itemsize=cp.dtype(X.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         return X
     else:
@@ -113,10 +113,10 @@ def _normalize_total_csr(X: sparse.csr_matrix, target_sum: int) -> sparse.csr_ma
     _nc.mul_csr(
         X.indptr.data.ptr,
         X.data.data.ptr,
-        int(X.shape[0]),
-        float(target_sum),
-        int(cp.dtype(X.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        nrows=X.shape[0],
+        target_sum=float(target_sum),
+        itemsize=cp.dtype(X.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     return X
 
@@ -129,10 +129,10 @@ def __mul(X_part):
             _nc.mul_csr(
                 X_part.indptr.data.ptr,
                 X_part.data.data.ptr,
-                int(X_part.shape[0]),
-                float(target_sum),
-                int(cp.dtype(X_part.data.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                nrows=X_part.shape[0],
+                target_sum=float(target_sum),
+                itemsize=cp.dtype(X_part.data.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return X_part
 
@@ -143,11 +143,11 @@ def __mul(X_part):
         def __mul(X_part):
             _nc.mul_dense(
                 X_part.data.ptr,
-                int(X_part.shape[0]),
-                int(X_part.shape[1]),
-                float(target_sum),
-                int(cp.dtype(X_part.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                nrows=X_part.shape[0],
+                ncols=X_part.shape[1],
+                target_sum=float(target_sum),
+                itemsize=cp.dtype(X_part.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return X_part
 
@@ -173,10 +173,10 @@ def _get_target_sum_csr(X: sparse.csr_matrix) -> int:
     _nc.sum_major(
         X.indptr.data.ptr,
         X.data.data.ptr,
-        counts_per_cell.data.ptr,
-        int(X.shape[0]),
-        int(cp.dtype(X.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        sums=counts_per_cell.data.ptr,
+        major=X.shape[0],
+        itemsize=cp.dtype(X.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     counts_per_cell = counts_per_cell[counts_per_cell > 0]
     target_sum = cp.median(counts_per_cell)
@@ -192,10 +192,10 @@ def __sum(X_part):
             _nc.sum_major(
                 X_part.indptr.data.ptr,
                 X_part.data.data.ptr,
-                counts_per_cell.data.ptr,
-                int(X_part.shape[0]),
-                int(cp.dtype(X_part.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums=counts_per_cell.data.ptr,
+                major=X_part.shape[0],
+                itemsize=cp.dtype(X_part.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return counts_per_cell
 
@@ -371,32 +371,32 @@ def normalize_pearson_residuals(
                 X.indptr.data.ptr,
                 X.indices.data.ptr,
                 X.data.data.ptr,
-                sums_cells.data.ptr,
-                sums_genes.data.ptr,
-                residuals.data.ptr,
-                inv_sum_total,
-                clip,
-                inv_theta,
-                int(X.shape[0]),
-                int(X.shape[1]),
-                int(cp.dtype(X.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells.data.ptr,
+                sums_genes=sums_genes.data.ptr,
+                residuals=residuals.data.ptr,
+                inv_sum_total=float(inv_sum_total),
+                clip=float(clip),
+                inv_theta=float(inv_theta),
+                n_cells=X.shape[0],
+                n_genes=X.shape[1],
+                itemsize=cp.dtype(X.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
         elif sparse.isspmatrix_csr(X):
             _pr.sparse_norm_res_csr(
                 X.indptr.data.ptr,
                 X.indices.data.ptr,
                 X.data.data.ptr,
-                sums_cells.data.ptr,
-                sums_genes.data.ptr,
-                residuals.data.ptr,
-                inv_sum_total,
-                clip,
-                inv_theta,
-                int(X.shape[0]),
-                int(X.shape[1]),
-                int(cp.dtype(X.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells.data.ptr,
+                sums_genes=sums_genes.data.ptr,
+                residuals=residuals.data.ptr,
+                inv_sum_total=float(inv_sum_total),
+                clip=float(clip),
+                inv_theta=float(inv_theta),
+                n_cells=X.shape[0],
+                n_genes=X.shape[1],
+                itemsize=cp.dtype(X.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
         else:
             raise ValueError(
@@ -407,16 +407,16 @@ def normalize_pearson_residuals(
 
         _pr.dense_norm_res(
             X.data.ptr,
-            residuals.data.ptr,
-            sums_cells.data.ptr,
-            sums_genes.data.ptr,
-            inv_sum_total,
-            clip,
-            inv_theta,
-            int(residuals.shape[0]),
-            int(residuals.shape[1]),
-            int(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            residuals=residuals.data.ptr,
+            sums_cells=sums_cells.data.ptr,
+            sums_genes=sums_genes.data.ptr,
+            inv_sum_total=float(inv_sum_total),
+            clip=float(clip),
+            inv_theta=float(inv_theta),
+            n_cells=residuals.shape[0],
+            n_genes=residuals.shape[1],
+            itemsize=cp.dtype(X.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
     if inplace is True:
diff --git a/src/rapids_singlecell/preprocessing/_qc.py b/src/rapids_singlecell/preprocessing/_qc.py
index 42ddc9b8..6a6e4a15 100644
--- a/src/rapids_singlecell/preprocessing/_qc.py
+++ b/src/rapids_singlecell/preprocessing/_qc.py
@@ -3,7 +3,8 @@
 from typing import TYPE_CHECKING
 
 import cupy as cp
-from cuml.internals.memory_utils import with_cupy_rmm
+
+# from cuml.internals.memory_utils import with_cupy_rmm
 from cupyx.scipy import sparse
 from scanpy.get import _get_obs_rep
 
@@ -128,10 +129,10 @@ def _basic_qc(
 
         if sparse.isspmatrix_csr(X):
             sparse_qc = _qc.sparse_qc_csr
-            shape = X.shape[0]
+            is_csr = True
         elif sparse.isspmatrix_csc(X):
             sparse_qc = _qc.sparse_qc_csc
-            shape = X.shape[1]
+            is_csr = False
         else:
             raise ValueError("Please use a csr or csc matrix")
 
@@ -139,13 +140,13 @@ def _basic_qc(
             X.indptr.data.ptr,
             X.indices.data.ptr,
             X.data.data.ptr,
-            sums_cells.data.ptr,
-            sums_genes.data.ptr,
-            genes_per_cell.data.ptr,
-            cells_per_gene.data.ptr,
-            int(shape),
-            int(cp.dtype(X.data.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            sums_cells=sums_cells.data.ptr,
+            sums_genes=sums_genes.data.ptr,
+            cell_ex=genes_per_cell.data.ptr,
+            gene_ex=cells_per_gene.data.ptr,
+            **({"n_cells": X.shape[0]} if is_csr else {"n_genes": X.shape[1]}),
+            itemsize=cp.dtype(X.data.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
     else:
         from rapids_singlecell._cuda import _qc_cuda as _qc
@@ -154,14 +155,14 @@ def _basic_qc(
             X = cp.asarray(X, order="C")
         _qc.sparse_qc_dense(
             X.data.ptr,
-            sums_cells.data.ptr,
-            sums_genes.data.ptr,
-            genes_per_cell.data.ptr,
-            cells_per_gene.data.ptr,
-            int(X.shape[0]),
-            int(X.shape[1]),
-            int(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            sums_cells=sums_cells.data.ptr,
+            sums_genes=sums_genes.data.ptr,
+            cell_ex=genes_per_cell.data.ptr,
+            gene_ex=cells_per_gene.data.ptr,
+            n_cells=X.shape[0],
+            n_genes=X.shape[1],
+            itemsize=cp.dtype(X.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
     return sums_cells, sums_genes, genes_per_cell, cells_per_gene
 
@@ -181,11 +182,11 @@ def __qc_calc_1(X_part):
                 X_part.indptr.data.ptr,
                 X_part.indices.data.ptr,
                 X_part.data.data.ptr,
-                sums_cells.data.ptr,
-                genes_per_cell.data.ptr,
-                int(X_part.shape[0]),
-                int(cp.dtype(X_part.data.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells.data.ptr,
+                cell_ex=genes_per_cell.data.ptr,
+                n_cells=X_part.shape[0],
+                itemsize=cp.dtype(X_part.data.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return cp.stack([sums_cells, genes_per_cell.astype(X_part.dtype)], axis=1)
 
@@ -195,11 +196,11 @@ def __qc_calc_2(X_part):
             _qcd.sparse_qc_csr_genes(
                 X_part.indices.data.ptr,
                 X_part.data.data.ptr,
-                sums_genes.data.ptr,
-                cells_per_gene.data.ptr,
-                int(X_part.nnz),
-                int(cp.dtype(X_part.data.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_genes=sums_genes.data.ptr,
+                gene_ex=cells_per_gene.data.ptr,
+                nnz=X_part.nnz,
+                itemsize=cp.dtype(X_part.data.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return cp.vstack([sums_genes, cells_per_gene.astype(X_part.dtype)])[
                 None, ...
@@ -215,12 +216,12 @@ def __qc_calc_1(X_part):
                 X_part = cp.asarray(X_part, order="C")
             _qcd.sparse_qc_dense_cells(
                 X_part.data.ptr,
-                sums_cells.data.ptr,
-                genes_per_cell.data.ptr,
-                int(X_part.shape[0]),
-                int(X_part.shape[1]),
-                int(cp.dtype(X_part.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells.data.ptr,
+                cell_ex=genes_per_cell.data.ptr,
+                n_cells=X_part.shape[0],
+                n_genes=X_part.shape[1],
+                itemsize=cp.dtype(X_part.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return cp.stack([sums_cells, genes_per_cell.astype(X_part.dtype)], axis=1)
 
@@ -231,12 +232,12 @@ def __qc_calc_2(X_part):
                 X_part = cp.asarray(X_part, order="C")
             _qcd.sparse_qc_dense_genes(
                 X_part.data.ptr,
-                sums_genes.data.ptr,
-                cells_per_gene.data.ptr,
-                int(X_part.shape[0]),
-                int(X_part.shape[1]),
-                int(cp.dtype(X_part.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_genes=sums_genes.data.ptr,
+                gene_ex=cells_per_gene.data.ptr,
+                n_cells=X_part.shape[0],
+                n_genes=X_part.shape[1],
+                itemsize=cp.dtype(X_part.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return cp.vstack([sums_genes, cells_per_gene.astype(X_part.dtype)])[
                 None, ...
@@ -288,22 +289,22 @@ def _geneset_qc(X: ArrayTypesDask, mask: cp.ndarray) -> cp.ndarray:
                 X.indptr.data.ptr,
                 X.indices.data.ptr,
                 X.data.data.ptr,
-                sums_cells_sub.data.ptr,
-                mask.data.ptr,
-                int(X.shape[0]),
-                int(cp.dtype(X.data.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells_sub.data.ptr,
+                mask=mask.data.ptr,
+                n_cells=X.shape[0],
+                itemsize=cp.dtype(X.data.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
         elif sparse.isspmatrix_csc(X):
             _qc.sparse_qc_csc_sub(
                 X.indptr.data.ptr,
                 X.indices.data.ptr,
                 X.data.data.ptr,
-                sums_cells_sub.data.ptr,
-                mask.data.ptr,
-                int(X.shape[1]),
-                int(cp.dtype(X.data.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells_sub.data.ptr,
+                mask=mask.data.ptr,
+                n_genes=X.shape[1],
+                itemsize=cp.dtype(X.data.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
         else:
             raise ValueError("Please use a csr or csc matrix")
@@ -312,17 +313,16 @@ def _geneset_qc(X: ArrayTypesDask, mask: cp.ndarray) -> cp.ndarray:
             X = cp.asarray(X, order="C")
         _qc.sparse_qc_dense_sub(
             X.data.ptr,
-            sums_cells_sub.data.ptr,
-            mask.data.ptr,
-            int(X.shape[0]),
-            int(X.shape[1]),
-            int(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            sums_cells=sums_cells_sub.data.ptr,
+            mask=mask.data.ptr,
+            n_cells=X.shape[0],
+            n_genes=X.shape[1],
+            itemsize=cp.dtype(X.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
     return sums_cells_sub
 
 
-@with_cupy_rmm
 def _geneset_qc_dask(X: DaskArray, mask: cp.ndarray) -> cp.ndarray:
     if isinstance(X._meta, sparse.csr_matrix):
         from rapids_singlecell._cuda import _qc_cuda as _qc
@@ -333,11 +333,11 @@ def __qc_calc(X_part):
                 X_part.indptr.data.ptr,
                 X_part.indices.data.ptr,
                 X_part.data.data.ptr,
-                sums_cells_sub.data.ptr,
-                mask.data.ptr,
-                int(X_part.shape[0]),
-                int(cp.dtype(X_part.data.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells_sub.data.ptr,
+                mask=mask.data.ptr,
+                n_cells=X_part.shape[0],
+                itemsize=cp.dtype(X_part.data.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return sums_cells_sub
 
@@ -350,12 +350,12 @@ def __qc_calc(X_part):
                 X_part = cp.asarray(X_part, order="C")
             _qc.sparse_qc_dense_sub(
                 X_part.data.ptr,
-                sums_cells_sub.data.ptr,
-                mask.data.ptr,
-                int(X_part.shape[0]),
-                int(X_part.shape[1]),
-                int(cp.dtype(X_part.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                sums_cells=sums_cells_sub.data.ptr,
+                mask=mask.data.ptr,
+                n_cells=X_part.shape[0],
+                n_genes=X_part.shape[1],
+                itemsize=cp.dtype(X_part.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             return sums_cells_sub
 
diff --git a/src/rapids_singlecell/preprocessing/_scale.py b/src/rapids_singlecell/preprocessing/_scale.py
index 61927c3a..fc8493a3 100644
--- a/src/rapids_singlecell/preprocessing/_scale.py
+++ b/src/rapids_singlecell/preprocessing/_scale.py
@@ -162,12 +162,12 @@ def _scale_array(X, *, mask_obs=None, zero_center=True, inplace=True, max_value=
             X.data.ptr,
             mean.data.ptr,
             std.data.ptr,
-            mask_array.data.ptr,
-            float(max_value),
-            np.int64(X.shape[0]),
-            np.int64(X.shape[1]),
-            np.int32(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            mask=mask_array.data.ptr,
+            clipper=float(max_value),
+            nrows=np.int64(X.shape[0]),
+            ncols=np.int64(X.shape[1]),
+            itemsize=np.int32(cp.dtype(X.dtype).itemsize),
+            stream=cp.cuda.get_current_stream().ptr,
         )
     else:
         from rapids_singlecell._cuda import _scale_cuda as _sc
@@ -175,12 +175,12 @@ def _scale_array(X, *, mask_obs=None, zero_center=True, inplace=True, max_value=
         _sc.dense_scale_diff(
             X.data.ptr,
             std.data.ptr,
-            mask_array.data.ptr,
-            float(max_value),
-            np.int64(X.shape[0]),
-            np.int64(X.shape[1]),
-            np.int32(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            mask=mask_array.data.ptr,
+            clipper=float(max_value),
+            nrows=np.int64(X.shape[0]),
+            ncols=np.int64(X.shape[1]),
+            itemsize=np.int32(cp.dtype(X.dtype).itemsize),
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
     return X, mean, std
@@ -222,9 +222,9 @@ def _scale_sparse_csc(
             X.indptr.data.ptr,
             X.data.data.ptr,
             std.data.ptr,
-            int(X.shape[1]),
-            int(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            ncols=X.shape[1],
+            itemsize=cp.dtype(X.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         if max_value:
             X.data = cp.clip(X.data, a_min=None, a_max=max_value)
@@ -268,10 +268,10 @@ def _scale_sparse_csr(
             X.data.data.ptr,
             std.data.ptr,
             mask_array.data.ptr,
-            float(max_value),
-            int(X.shape[0]),
-            int(cp.dtype(X.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            clipper=float(max_value),
+            nrows=X.shape[0],
+            itemsize=cp.dtype(X.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
         return X, mean, std
@@ -331,12 +331,12 @@ def __scale_kernel_center(X_part, mask_part):
             X_part.data.ptr,
             mean_.data.ptr,
             std_.data.ptr,
-            mask_part.data.ptr,
-            float(max_value),
-            int(X_part.shape[0]),
-            int(X_part.shape[1]),
-            int(cp.dtype(X_part.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            mask=mask_part.data.ptr,
+            clipper=float(max_value),
+            nrows=X_part.shape[0],
+            ncols=X_part.shape[1],
+            itemsize=cp.dtype(X_part.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         return X_part
 
@@ -362,12 +362,12 @@ def __scale_kernel(X_part, mask_part):
         _sc.dense_scale_diff(
             X_part.data.ptr,
             std_.data.ptr,
-            mask_part.data.ptr,
-            float(max_value),
-            X_part.shape[0],
-            X_part.shape[1],
-            int(cp.dtype(X_part.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            mask=mask_part.data.ptr,
+            clipper=float(max_value),
+            nrows=X_part.shape[0],
+            ncols=X_part.shape[1],
+            itemsize=cp.dtype(X_part.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
         return X_part
@@ -397,10 +397,10 @@ def __scale_kernel_csr(X_part, mask_part):
             X_part.data.data.ptr,
             std_.data.ptr,
             mask_part.data.ptr,
-            float(max_value),
-            int(X_part.shape[0]),
-            int(cp.dtype(X_part.data.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            clipper=float(max_value),
+            nrows=X_part.shape[0],
+            itemsize=cp.dtype(X_part.data.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         return X_part
 
diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
index ac6624f1..8c67d0f2 100644
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
+++ b/src/rapids_singlecell/preprocessing/_sparse_pca/_helper.py
@@ -14,10 +14,10 @@
 
 def _copy_gram(gram_matrix: cp.ndarray, n_cols: int) -> cp.ndarray:
     _spca.copy_upper_to_lower(
-        gram_matrix.data.ptr,
-        int(n_cols),
-        int(cp.dtype(gram_matrix.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        out=gram_matrix.data.ptr,
+        ncols=n_cols,
+        itemsize=cp.dtype(gram_matrix.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     return gram_matrix
 
@@ -26,13 +26,13 @@ def _compute_cov(
     cov_result: cp.ndarray, gram_matrix: cp.ndarray, mean_x: cp.ndarray
 ) -> cp.ndarray:
     _spca.cov_from_gram(
-        cov_result.data.ptr,
         gram_matrix.data.ptr,
         mean_x.data.ptr,
         mean_x.data.ptr,
-        int(gram_matrix.shape[0]),
-        int(cp.dtype(gram_matrix.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        cov=cov_result.data.ptr,
+        ncols=gram_matrix.shape[0],
+        itemsize=cp.dtype(gram_matrix.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     return cov_result
 
@@ -41,11 +41,11 @@ def _check_matrix_for_zero_genes(X: spmatrix) -> None:
     gene_ex = cp.zeros(X.shape[1], dtype=cp.int32)
     if X.nnz > 0:
         _spca.check_zero_genes(
-            int(X.indices.data.ptr),
-            int(gene_ex.data.ptr),
-            int(X.nnz),
-            int(X.shape[1]),
-            int(cp.cuda.get_current_stream().ptr),
+            X.indices.data.ptr,
+            out=gene_ex.data.ptr,
+            nnz=X.nnz,
+            num_genes=X.shape[1],
+            stream=cp.cuda.get_current_stream().ptr,
         )
     if cp.any(gene_ex == 0):
         raise ValueError(
diff --git a/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py b/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
index 904929c9..1eae35bd 100644
--- a/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
+++ b/src/rapids_singlecell/preprocessing/_sparse_pca/_sparse_pca.py
@@ -210,11 +210,11 @@ def _create_gram_matrix(x):
             x.indptr.data.ptr,
             x.indices.data.ptr,
             x.data.data.ptr,
-            int(x.shape[0]),
-            int(x.shape[1]),
-            gram_matrix.data.ptr,
-            int(cp.dtype(x.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            nrows=x.shape[0],
+            ncols=x.shape[1],
+            out=gram_matrix.data.ptr,
+            itemsize=cp.dtype(x.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
     elif isinstance(x, DaskArray):
         n_cols = x.shape[1]
@@ -227,11 +227,11 @@ def __gram_block(x_part):
                     x_part.indptr.data.ptr,
                     x_part.indices.data.ptr,
                     x_part.data.data.ptr,
-                    int(x_part.shape[0]),
-                    int(n_cols),
-                    gram_matrix.data.ptr,
-                    int(cp.dtype(x_part.dtype).itemsize),
-                    int(cp.cuda.get_current_stream().ptr),
+                    nrows=x_part.shape[0],
+                    ncols=n_cols,
+                    out=gram_matrix.data.ptr,
+                    itemsize=cp.dtype(x_part.dtype).itemsize,
+                    stream=cp.cuda.get_current_stream().ptr,
                 )
                 return gram_matrix[None, ...]  # need new axis for summing
         else:
diff --git a/src/rapids_singlecell/preprocessing/_utils.py b/src/rapids_singlecell/preprocessing/_utils.py
index fa0e444e..dd0c30bf 100644
--- a/src/rapids_singlecell/preprocessing/_utils.py
+++ b/src/rapids_singlecell/preprocessing/_utils.py
@@ -24,10 +24,10 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
 
     if isspmatrix_csr(X):
         major, minor = X.shape[0], X.shape[1]
-        switcher = True if order == "C" else False
+        switcher = order == "C"
     elif isspmatrix_csc(X):
         major, minor = X.shape[1], X.shape[0]
-        switcher = False if order == "C" else True
+        switcher = order != "C"
     else:
         raise ValueError("Input matrix must be a sparse `csc` or `csr` matrix")
 
@@ -37,12 +37,12 @@ def _sparse_to_dense(X: spmatrix, order: Literal["C", "F"] | None = None) -> cp.
         X.indptr.data.ptr,
         X.indices.data.ptr,
         X.data.data.ptr,
-        dense.data.ptr,
-        int(major),
-        int(minor),
-        switcher,
-        int(max_nnz),
-        int(cp.dtype(X.dtype).itemsize),
+        out=dense.data.ptr,
+        major=major,
+        minor=minor,
+        c_switch=switcher,
+        max_nnz=max_nnz,
+        itemsize=cp.dtype(X.dtype).itemsize,
     )
     return dense
 
@@ -73,12 +73,12 @@ def _mean_var_major(X, major, minor):
         X.indptr.data.ptr,
         X.indices.data.ptr,
         X.data.data.ptr,
-        mean.data.ptr,
-        var.data.ptr,
-        int(major),
-        int(minor),
-        int(cp.dtype(X.data.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        means=mean.data.ptr,
+        vars=var.data.ptr,
+        major=major,
+        minor=minor,
+        itemsize=cp.dtype(X.data.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     mean = mean / minor
     var = var / minor
@@ -95,11 +95,11 @@ def _mean_var_minor(X, major, minor):
     _mv.mean_var_minor(
         X.indices.data.ptr,
         X.data.data.ptr,
-        mean.data.ptr,
-        var.data.ptr,
-        int(X.nnz),
-        int(cp.dtype(X.data.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        means=mean.data.ptr,
+        vars=var.data.ptr,
+        nnz=X.nnz,
+        itemsize=cp.dtype(X.data.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     mean /= major
     var /= major
@@ -121,11 +121,11 @@ def __mean_var(X_part):
         _mv.mean_var_minor(
             X_part.indices.data.ptr,
             X_part.data.data.ptr,
-            mean.data.ptr,
-            var.data.ptr,
-            int(X_part.nnz),
-            int(cp.dtype(X_part.data.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            means=mean.data.ptr,
+            vars=var.data.ptr,
+            nnz=X_part.nnz,
+            itemsize=cp.dtype(X_part.data.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         return cp.vstack([mean, var])[None, ...]  # new axis for summing
 
@@ -158,12 +158,12 @@ def __mean_var(X_part):
             X_part.indptr.data.ptr,
             X_part.indices.data.ptr,
             X_part.data.data.ptr,
-            mean.data.ptr,
-            var.data.ptr,
-            int(X_part.shape[0]),
-            int(minor),
-            int(cp.dtype(X_part.data.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            means=mean.data.ptr,
+            vars=var.data.ptr,
+            major=X_part.shape[0],
+            minor=minor,
+            itemsize=cp.dtype(X_part.data.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         return cp.stack([mean, var], axis=1)
 
diff --git a/src/rapids_singlecell/squidpy_gpu/_co_oc.py b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
index a909600e..ec74a74b 100644
--- a/src/rapids_singlecell/squidpy_gpu/_co_oc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_co_oc.py
@@ -143,16 +143,16 @@ def _co_occurrence_helper(
         reader = 1
         use_fast_kernel = _co.count_csr_catpairs_auto(
             spatial.data.ptr,
-            thresholds.data.ptr,
-            cat_offsets.data.ptr,
-            cell_indices.data.ptr,
-            pair_left.data.ptr,
-            pair_right.data.ptr,
-            counts.data.ptr,
-            int(pair_left.size),
-            int(k),
-            int(l_val),
-            int(cp.cuda.get_current_stream().ptr),
+            thresholds=thresholds.data.ptr,
+            cat_offsets=cat_offsets.data.ptr,
+            cell_indices=cell_indices.data.ptr,
+            pair_left=pair_left.data.ptr,
+            pair_right=pair_right.data.ptr,
+            counts_delta=counts.data.ptr,
+            num_pairs=pair_left.size,
+            k=k,
+            l_val=l_val,
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
     # Fallback to the standard kernel if fast=False or shared memory was insufficient
@@ -160,13 +160,13 @@ def _co_occurrence_helper(
         counts = cp.zeros((k, k, l_val * 2), dtype=cp.int32)
         _co.count_pairwise(
             spatial.data.ptr,
-            thresholds.data.ptr,
-            labs.data.ptr,
-            counts.data.ptr,
-            int(spatial.shape[0]),
-            int(k),
-            int(l_val),
-            int(cp.cuda.get_current_stream().ptr),
+            thresholds=thresholds.data.ptr,
+            labels=labs.data.ptr,
+            result=counts.data.ptr,
+            n=spatial.shape[0],
+            k=k,
+            l_val=l_val,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         reader = 0
 
@@ -175,22 +175,22 @@ def _co_occurrence_helper(
     if fast:
         ok = _co.reduce_shared(
             counts.data.ptr,
-            occ_prob.data.ptr,
-            int(k),
-            int(l_val),
-            int(reader),
-            int(cp.cuda.get_current_stream().ptr),
+            out=occ_prob.data.ptr,
+            k=k,
+            l_val=l_val,
+            format=reader,
+            stream=cp.cuda.get_current_stream().ptr,
         )
     if not ok:
         inter_out = cp.zeros((l_val, k, k), dtype=np.float32)
         _co.reduce_global(
             counts.data.ptr,
-            inter_out.data.ptr,
-            occ_prob.data.ptr,
-            int(k),
-            int(l_val),
-            int(reader),
-            int(cp.cuda.get_current_stream().ptr),
+            inter_out=inter_out.data.ptr,
+            out=occ_prob.data.ptr,
+            k=k,
+            l_val=l_val,
+            format=reader,
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
     return occ_prob
diff --git a/src/rapids_singlecell/squidpy_gpu/_gearysc.py b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
index 7b8e8c31..3703c086 100644
--- a/src/rapids_singlecell/squidpy_gpu/_gearysc.py
+++ b/src/rapids_singlecell/squidpy_gpu/_gearysc.py
@@ -15,13 +15,13 @@ def _gearys_C_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
     num = cp.zeros(n_features, dtype=cp.float32)
     _ac.gearys_dense(
         data.data.ptr,
-        adj_matrix_cupy.indptr.data.ptr,
-        adj_matrix_cupy.indices.data.ptr,
-        adj_matrix_cupy.data.data.ptr,
-        num.data.ptr,
-        int(n_samples),
-        int(n_features),
-        int(cp.cuda.get_current_stream().ptr),
+        adj_row_ptr=adj_matrix_cupy.indptr.data.ptr,
+        adj_col_ind=adj_matrix_cupy.indices.data.ptr,
+        adj_data=adj_matrix_cupy.data.data.ptr,
+        num=num.data.ptr,
+        n_samples=n_samples,
+        n_features=n_features,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     # Calculate the denominator for Geary's C
     gene_mean = data.mean(axis=0).ravel()
@@ -41,13 +41,13 @@ def _gearys_C_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
             _ac.gearys_dense(
                 data.data.ptr,
-                adj_matrix_permuted.indptr.data.ptr,
-                adj_matrix_permuted.indices.data.ptr,
-                adj_matrix_permuted.data.data.ptr,
-                num_permuted.data.ptr,
-                int(n_samples),
-                int(n_features),
-                int(cp.cuda.get_current_stream().ptr),
+                adj_row_ptr=adj_matrix_permuted.indptr.data.ptr,
+                adj_col_ind=adj_matrix_permuted.indices.data.ptr,
+                adj_data=adj_matrix_permuted.data.data.ptr,
+                num=num_permuted.data.ptr,
+                n_samples=n_samples,
+                n_features=n_features,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             gearys_C_permutations[p, :] = (n_samples - 1) * num_permuted / den
             num_permuted[:] = 0
@@ -64,29 +64,29 @@ def _gearys_C_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
 
     n_samples, n_features = data.shape
     _ac.gearys_sparse(
-        adj_matrix_cupy.indptr.data.ptr,
-        adj_matrix_cupy.indices.data.ptr,
-        adj_matrix_cupy.data.data.ptr,
-        data.indptr.data.ptr,
-        data.indices.data.ptr,
-        data.data.data.ptr,
-        int(n_samples),
-        int(n_features),
-        num.data.ptr,
-        int(cp.cuda.get_current_stream().ptr),
+        adj_row_ptr=adj_matrix_cupy.indptr.data.ptr,
+        adj_col_ind=adj_matrix_cupy.indices.data.ptr,
+        adj_data=adj_matrix_cupy.data.data.ptr,
+        data_row_ptr=data.indptr.data.ptr,
+        data_col_ind=data.indices.data.ptr,
+        data_values=data.data.data.ptr,
+        n_samples=n_samples,
+        n_features=n_features,
+        num=num.data.ptr,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     # Calculate the denominator for Geary's C
     means = data.mean(axis=0).ravel()
     den = cp.zeros(n_features, dtype=cp.float32)
     counter = cp.zeros(n_features, dtype=cp.int32)
     _ac.pre_den_sparse(
-        data.indices.data.ptr,
-        data.data.data.ptr,
-        int(data.nnz),
-        means.data.ptr,
-        den.data.ptr,
-        counter.data.ptr,
-        int(cp.cuda.get_current_stream().ptr),
+        data_col_ind=data.indices.data.ptr,
+        data_values=data.data.data.ptr,
+        nnz=data.nnz,
+        mean_array=means.data.ptr,
+        den=den.data.ptr,
+        counter=counter.data.ptr,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     counter = n_samples - counter
     den += counter * means**2
@@ -103,16 +103,16 @@ def _gearys_C_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
             idx_shuffle = cp.random.permutation(adj_matrix_cupy.shape[0])
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
             _ac.gearys_sparse(
-                adj_matrix_permuted.indptr.data.ptr,
-                adj_matrix_permuted.indices.data.ptr,
-                adj_matrix_permuted.data.data.ptr,
-                data.indptr.data.ptr,
-                data.indices.data.ptr,
-                data.data.data.ptr,
-                int(n_samples),
-                int(n_features),
-                num_permuted.data.ptr,
-                int(cp.cuda.get_current_stream().ptr),
+                adj_row_ptr=adj_matrix_permuted.indptr.data.ptr,
+                adj_col_ind=adj_matrix_permuted.indices.data.ptr,
+                adj_data=adj_matrix_permuted.data.data.ptr,
+                data_row_ptr=data.indptr.data.ptr,
+                data_col_ind=data.indices.data.ptr,
+                data_values=data.data.data.ptr,
+                n_samples=n_samples,
+                n_features=n_features,
+                num=num_permuted.data.ptr,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             gearys_C_permutations[p, :] = (n_samples - 1) * num_permuted / den
             num_permuted[:] = 0
diff --git a/src/rapids_singlecell/squidpy_gpu/_ligrec.py b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
index e6938ac0..ce66d26a 100644
--- a/src/rapids_singlecell/squidpy_gpu/_ligrec.py
+++ b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
@@ -466,14 +466,14 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
 
         _lc.sum_count_dense(
             data_cp.data.ptr,
-            clusters.data.ptr,
-            sum_gt0.data.ptr,
-            count_gt0.data.ptr,
-            int(data_cp.shape[0]),
-            int(data_cp.shape[1]),
-            int(n_clusters),
-            int(cp.dtype(data_cp.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            clusters=clusters.data.ptr,
+            sum=sum_gt0.data.ptr,
+            count=count_gt0.data.ptr,
+            rows=data_cp.shape[0],
+            cols=data_cp.shape[1],
+            ncls=n_clusters,
+            itemsize=cp.dtype(data_cp.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
 
         mean_cp = sum_gt0 / total_counts
@@ -486,13 +486,13 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
             data_cp.indptr.data.ptr,
             data_cp.indices.data.ptr,
             data_cp.data.data.ptr,
-            clusters.data.ptr,
-            sum_gt0.data.ptr,
-            count_gt0.data.ptr,
-            int(data_cp.shape[0]),
-            int(n_clusters),
-            int(cp.dtype(data_cp.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            clusters=clusters.data.ptr,
+            sum=sum_gt0.data.ptr,
+            count=count_gt0.data.ptr,
+            rows=data_cp.shape[0],
+            ncls=n_clusters,
+            itemsize=cp.dtype(data_cp.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         mean_cp = sum_gt0 / total_counts
         mask_cp = count_gt0 / total_counts >= threshold
@@ -518,34 +518,34 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
                 data_cp.indptr.data.ptr,
                 data_cp.indices.data.ptr,
                 data_cp.data.data.ptr,
-                clustering_use.data.ptr,
-                g.data.ptr,
-                int(data_cp.shape[0]),
-                int(n_clusters),
-                int(cp.dtype(data_cp.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                clusters=clustering_use.data.ptr,
+                g=g.data.ptr,
+                rows=data_cp.shape[0],
+                ncls=n_clusters,
+                itemsize=cp.dtype(data_cp.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
 
             _lc.elementwise_diff(
                 g.data.ptr,
-                total_counts.data.ptr,
-                int(data_cp.shape[1]),
-                int(n_cls),
-                int(cp.dtype(g.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                total_counts=total_counts.data.ptr,
+                n_genes=data_cp.shape[1],
+                n_clusters=n_cls,
+                itemsize=cp.dtype(g.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             _lc.interaction(
                 interactions_.data.ptr,
                 interaction_clusters.data.ptr,
                 mean_cp.data.ptr,
-                res.data.ptr,
-                mask_cp.data.ptr,
-                g.data.ptr,
-                int(len(interactions_)),
-                int(len(interaction_clusters)),
-                int(n_cls),
-                int(cp.dtype(mean_cp.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                res=res.data.ptr,
+                mask=mask_cp.data.ptr,
+                g=g.data.ptr,
+                n_iter=len(interactions_),
+                n_inter_clust=len(interaction_clusters),
+                ncls=n_cls,
+                itemsize=cp.dtype(mean_cp.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
     else:
         for _i in range(n_perms):
@@ -553,34 +553,34 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
             g = cp.zeros((data_cp.shape[1], n_cls), dtype=cp.float32, order="C")
             _lc.mean_dense(
                 data_cp.data.ptr,
-                clustering_use.data.ptr,
-                g.data.ptr,
-                int(data_cp.shape[0]),
-                int(data_cp.shape[1]),
-                int(n_cls),
-                int(cp.dtype(data_cp.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                clusters=clustering_use.data.ptr,
+                g=g.data.ptr,
+                rows=data_cp.shape[0],
+                cols=data_cp.shape[1],
+                ncls=n_cls,
+                itemsize=cp.dtype(data_cp.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             _lc.elementwise_diff(
                 g.data.ptr,
-                total_counts.data.ptr,
-                int(data_cp.shape[1]),
-                int(n_cls),
-                int(cp.dtype(g.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                total_counts=total_counts.data.ptr,
+                n_genes=data_cp.shape[1],
+                n_clusters=n_cls,
+                itemsize=cp.dtype(g.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             _lc.interaction(
                 interactions_.data.ptr,
                 interaction_clusters.data.ptr,
                 mean_cp.data.ptr,
-                res.data.ptr,
-                mask_cp.data.ptr,
-                g.data.ptr,
-                int(len(interactions_)),
-                int(len(interaction_clusters)),
-                int(n_cls),
-                int(cp.dtype(mean_cp.dtype).itemsize),
-                int(cp.cuda.get_current_stream().ptr),
+                res=res.data.ptr,
+                mask=mask_cp.data.ptr,
+                g=g.data.ptr,
+                n_iter=len(interactions_),
+                n_inter_clust=len(interaction_clusters),
+                ncls=n_cls,
+                itemsize=cp.dtype(mean_cp.dtype).itemsize,
+                stream=cp.cuda.get_current_stream().ptr,
             )
 
     res_mean = cp.zeros(
@@ -591,12 +591,12 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
         interactions_.data.ptr,
         interaction_clusters.data.ptr,
         mean_cp.data.ptr,
-        res_mean.data.ptr,
-        int(len(interactions_)),
-        int(len(interaction_clusters)),
-        int(n_cls),
-        int(cp.dtype(mean_cp.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        res_mean=res_mean.data.ptr,
+        n_inter=len(interactions_),
+        n_inter_clust=len(interaction_clusters),
+        ncls=n_cls,
+        itemsize=cp.dtype(mean_cp.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     res_mean = res_mean.get()
diff --git a/src/rapids_singlecell/squidpy_gpu/_moransi.py b/src/rapids_singlecell/squidpy_gpu/_moransi.py
index 07340809..679c824a 100644
--- a/src/rapids_singlecell/squidpy_gpu/_moransi.py
+++ b/src/rapids_singlecell/squidpy_gpu/_moransi.py
@@ -18,13 +18,13 @@ def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
 
     _ac.morans_dense(
         data_centered_cupy.data.ptr,
-        adj_matrix_cupy.indptr.data.ptr,
-        adj_matrix_cupy.indices.data.ptr,
-        adj_matrix_cupy.data.data.ptr,
-        num.data.ptr,
-        int(n_samples),
-        int(n_features),
-        int(cp.cuda.get_current_stream().ptr),
+        adj_row_ptr=adj_matrix_cupy.indptr.data.ptr,
+        adj_col_ind=adj_matrix_cupy.indices.data.ptr,
+        adj_data=adj_matrix_cupy.data.data.ptr,
+        num=num.data.ptr,
+        n_samples=n_samples,
+        n_features=n_features,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     # Calculate the denominator for Moarn's I
@@ -41,13 +41,13 @@ def _morans_I_cupy_dense(data, adj_matrix_cupy, n_permutations=100):
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
             _ac.morans_dense(
                 data_centered_cupy.data.ptr,
-                adj_matrix_permuted.indptr.data.ptr,
-                adj_matrix_permuted.indices.data.ptr,
-                adj_matrix_permuted.data.data.ptr,
-                num_permuted.data.ptr,
-                int(n_samples),
-                int(n_features),
-                int(cp.cuda.get_current_stream().ptr),
+                adj_row_ptr=adj_matrix_permuted.indptr.data.ptr,
+                adj_col_ind=adj_matrix_permuted.indices.data.ptr,
+                adj_data=adj_matrix_permuted.data.data.ptr,
+                num=num_permuted.data.ptr,
+                n_samples=n_samples,
+                n_features=n_features,
+                stream=cp.cuda.get_current_stream().ptr,
             )
             morans_I_permutations[p, :] = num_permuted / den
             num_permuted[:] = 0
@@ -66,30 +66,30 @@ def _morans_I_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
     n_samples, n_features = data.shape
     # Launch the kernel
     _ac.morans_sparse(
-        adj_matrix_cupy.indptr.data.ptr,
-        adj_matrix_cupy.indices.data.ptr,
-        adj_matrix_cupy.data.data.ptr,
-        data.indptr.data.ptr,
-        data.indices.data.ptr,
-        data.data.data.ptr,
-        int(n_samples),
-        int(n_features),
-        means.data.ptr,
-        num.data.ptr,
-        int(cp.cuda.get_current_stream().ptr),
+        adj_row_ptr=adj_matrix_cupy.indptr.data.ptr,
+        adj_col_ind=adj_matrix_cupy.indices.data.ptr,
+        adj_data=adj_matrix_cupy.data.data.ptr,
+        data_row_ptr=data.indptr.data.ptr,
+        data_col_ind=data.indices.data.ptr,
+        data_values=data.data.data.ptr,
+        n_samples=n_samples,
+        n_features=n_features,
+        mean_array=means.data.ptr,
+        num=num.data.ptr,
+        stream=cp.cuda.get_current_stream().ptr,
     )
 
     # Calculate the denominator for Moarn's I
     den = cp.zeros(n_features, dtype=cp.float32)
     counter = cp.zeros(n_features, dtype=cp.int32)
     _ac.pre_den_sparse(
-        data.indices.data.ptr,
-        data.data.data.ptr,
-        int(data.nnz),
-        means.data.ptr,
-        den.data.ptr,
-        counter.data.ptr,
-        int(cp.cuda.get_current_stream().ptr),
+        data_col_ind=data.indices.data.ptr,
+        data_values=data.data.data.ptr,
+        nnz=data.nnz,
+        mean_array=means.data.ptr,
+        den=den.data.ptr,
+        counter=counter.data.ptr,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     counter = n_samples - counter
     den += counter * means**2
@@ -106,17 +106,17 @@ def _morans_I_cupy_sparse(data, adj_matrix_cupy, n_permutations=100):
             adj_matrix_permuted = adj_matrix_cupy[idx_shuffle, :]
             num_permuted = cp.zeros(n_features, dtype=data.dtype)
             _ac.morans_sparse(
-                adj_matrix_permuted.indptr.data.ptr,
-                adj_matrix_permuted.indices.data.ptr,
-                adj_matrix_permuted.data.data.ptr,
-                data.indptr.data.ptr,
-                data.indices.data.ptr,
-                data.data.data.ptr,
-                int(n_samples),
-                int(n_features),
-                means.data.ptr,
-                num_permuted.data.ptr,
-                int(cp.cuda.get_current_stream().ptr),
+                adj_row_ptr=adj_matrix_permuted.indptr.data.ptr,
+                adj_col_ind=adj_matrix_permuted.indices.data.ptr,
+                adj_data=adj_matrix_permuted.data.data.ptr,
+                data_row_ptr=data.indptr.data.ptr,
+                data_col_ind=data.indices.data.ptr,
+                data_values=data.data.data.ptr,
+                n_samples=n_samples,
+                n_features=n_features,
+                mean_array=means.data.ptr,
+                num=num_permuted.data.ptr,
+                stream=cp.cuda.get_current_stream().ptr,
             )
 
             morans_I_permutations[p, :] = num_permuted / den
diff --git a/src/rapids_singlecell/tools/_utils.py b/src/rapids_singlecell/tools/_utils.py
index 2cab9849..b385231b 100644
--- a/src/rapids_singlecell/tools/_utils.py
+++ b/src/rapids_singlecell/tools/_utils.py
@@ -58,12 +58,12 @@ def __nan_mean_minor(X_part):
         _nm.nan_mean_minor(
             X_part.indices.data.ptr,
             X_part.data.data.ptr,
-            mean.data.ptr,
-            nans.data.ptr,
-            mask.data.ptr,
-            int(X_part.nnz),
-            int(cp.dtype(X_part.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            means=mean.data.ptr,
+            nans=nans.data.ptr,
+            mask=mask.data.ptr,
+            nnz=X_part.nnz,
+            itemsize=cp.dtype(X_part.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         return cp.vstack([mean, nans.astype(cp.float64)])[None, ...]
 
@@ -90,13 +90,13 @@ def __nan_mean_major(X_part):
             X_part.indptr.data.ptr,
             X_part.indices.data.ptr,
             X_part.data.data.ptr,
-            mean.data.ptr,
-            nans.data.ptr,
-            mask.data.ptr,
-            int(major_part),
-            int(minor),
-            int(cp.dtype(X_part.dtype).itemsize),
-            int(cp.cuda.get_current_stream().ptr),
+            means=mean.data.ptr,
+            nans=nans.data.ptr,
+            mask=mask.data.ptr,
+            major=major_part,
+            minor=minor,
+            itemsize=cp.dtype(X_part.dtype).itemsize,
+            stream=cp.cuda.get_current_stream().ptr,
         )
         return cp.stack([mean, nans.astype(cp.float64)], axis=1)
 
@@ -147,12 +147,12 @@ def _nan_mean_minor(X, major, minor, *, mask=None, n_features=None):
     _nm.nan_mean_minor(
         X.indices.data.ptr,
         X.data.data.ptr,
-        mean.data.ptr,
-        nans.data.ptr,
-        mask.data.ptr,
-        int(X.nnz),
-        int(cp.dtype(X.data.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        means=mean.data.ptr,
+        nans=nans.data.ptr,
+        mask=mask.data.ptr,
+        nnz=X.nnz,
+        itemsize=cp.dtype(X.data.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     mean /= n_features - nans
     return mean
@@ -167,13 +167,13 @@ def _nan_mean_major(X, major, minor, *, mask=None, n_features=None):
         X.indptr.data.ptr,
         X.indices.data.ptr,
         X.data.data.ptr,
-        mean.data.ptr,
-        nans.data.ptr,
-        mask.data.ptr,
-        int(major),
-        int(minor),
-        int(cp.dtype(X.data.dtype).itemsize),
-        int(cp.cuda.get_current_stream().ptr),
+        means=mean.data.ptr,
+        nans=nans.data.ptr,
+        mask=mask.data.ptr,
+        major=major,
+        minor=minor,
+        itemsize=cp.dtype(X.data.dtype).itemsize,
+        stream=cp.cuda.get_current_stream().ptr,
     )
     mean /= n_features - nans
 

From ad7ed530b55f2c8cd7b84c79c7b7ca71ea435b6a Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 18 Sep 2025 16:40:06 +0200
Subject: [PATCH 50/54] fix keywords ligrec

---
 src/rapids_singlecell/_cuda/ligrec/ligrec.cu |  4 ++--
 src/rapids_singlecell/squidpy_gpu/_ligrec.py | 12 ++++++------
 2 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
index ede27e32..e928a6ac 100644
--- a/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
+++ b/src/rapids_singlecell/_cuda/ligrec/ligrec.cu
@@ -189,7 +189,7 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "interactions"_a, "interaction_clusters"_a, "mean"_a, nb::kw_only(), "res"_a, "mask"_a, "g"_a,
+      "interactions"_a, nb::kw_only(), "interaction_clusters"_a, "mean"_a, "res"_a, "mask"_a, "g"_a,
       "n_iter"_a, "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
 
   m.def(
@@ -207,6 +207,6 @@ NB_MODULE(_ligrec_cuda, m) {
           throw nb::value_error("Unsupported itemsize (expected 4 or 8)");
         }
       },
-      "interactions"_a, "interaction_clusters"_a, "mean"_a, nb::kw_only(), "res_mean"_a,
+      "interactions"_a, nb::kw_only(), "interaction_clusters"_a, "mean"_a, "res_mean"_a,
       "n_inter"_a, "n_inter_clust"_a, "ncls"_a, "itemsize"_a, "stream"_a = 0);
 }
diff --git a/src/rapids_singlecell/squidpy_gpu/_ligrec.py b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
index ce66d26a..384ef7c4 100644
--- a/src/rapids_singlecell/squidpy_gpu/_ligrec.py
+++ b/src/rapids_singlecell/squidpy_gpu/_ligrec.py
@@ -536,8 +536,8 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
             )
             _lc.interaction(
                 interactions_.data.ptr,
-                interaction_clusters.data.ptr,
-                mean_cp.data.ptr,
+                interaction_clusters=interaction_clusters.data.ptr,
+                mean=mean_cp.data.ptr,
                 res=res.data.ptr,
                 mask=mask_cp.data.ptr,
                 g=g.data.ptr,
@@ -571,8 +571,8 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
             )
             _lc.interaction(
                 interactions_.data.ptr,
-                interaction_clusters.data.ptr,
-                mean_cp.data.ptr,
+                interaction_clusters=interaction_clusters.data.ptr,
+                mean=mean_cp.data.ptr,
                 res=res.data.ptr,
                 mask=mask_cp.data.ptr,
                 g=g.data.ptr,
@@ -589,8 +589,8 @@ def find_min_gene_in_complex(_complex: str | None) -> str | None:
 
     _lc.res_mean(
         interactions_.data.ptr,
-        interaction_clusters.data.ptr,
-        mean_cp.data.ptr,
+        interaction_clusters=interaction_clusters.data.ptr,
+        mean=mean_cp.data.ptr,
         res_mean=res_mean.data.ptr,
         n_inter=len(interactions_),
         n_inter_clust=len(interaction_clusters),

From a62a5966d49750755dd1239e88827a9efd5df5de Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Mon, 22 Sep 2025 10:31:51 +0200
Subject: [PATCH 51/54] add 120

---
 pyproject.toml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyproject.toml b/pyproject.toml
index ccd1a024..903cf97c 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -126,7 +126,7 @@ cmake.version = ">=3.24"
 cmake.build-type = "Release"
 ninja.version = ">=1.10"
 experimental = false
-cmake.args = [ "-DCMAKE_CUDA_ARCHITECTURES=75;80;86;89;90;100" ]
+cmake.args = [ "-DCMAKE_CUDA_ARCHITECTURES=75;80;86;89;90;100;120" ]
 build-dir = "build"
 metadata.version.provider = "scikit_build_core.metadata.setuptools_scm"
 sdist.include = [ "src/rapids_singlecell/_version.py" ]

From de42537f5a7a751fd2e32b550d925f20d31113dc Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 18 Dec 2025 12:24:35 +0100
Subject: [PATCH 52/54] use cudabackend

---
 .../_neighbors/_algorithms/_nn_descent.py     | 24 +++++++++----
 .../_neighbors/_helper/__init__.py            | 34 ++++++++++---------
 2 files changed, 35 insertions(+), 23 deletions(-)

diff --git a/src/rapids_singlecell/preprocessing/_neighbors/_algorithms/_nn_descent.py b/src/rapids_singlecell/preprocessing/_neighbors/_algorithms/_nn_descent.py
index 01db75c5..247f68d3 100644
--- a/src/rapids_singlecell/preprocessing/_neighbors/_algorithms/_nn_descent.py
+++ b/src/rapids_singlecell/preprocessing/_neighbors/_algorithms/_nn_descent.py
@@ -45,18 +45,28 @@ def _nn_descent_knn(
     )
     neighbors = cp.array(idx.graph).astype(cp.uint32)
     if metric == "euclidean" or metric == "sqeuclidean":
-        from ._kernels._nn_descent import calc_distance_kernel as dist_func
+        from rapids_singlecell._cuda._nn_descent_cuda import (
+            sqeuclidean as dist_func,
+        )
     elif metric == "cosine":
-        from ._kernels._nn_descent import calc_distance_kernel_cos as dist_func
+        from rapids_singlecell._cuda._nn_descent_cuda import (
+            cosine as dist_func,
+        )
     elif metric == "inner_product":
-        from ._kernels._nn_descent import calc_distance_kernel_inner as dist_func
-    grid_size = (X.shape[0] + 32 - 1) // 32
+        from rapids_singlecell._cuda._nn_descent_cuda import (
+            inner as dist_func,
+        )
+    # grid_size = (X.shape[0] + 32 - 1) // 32
     distances = cp.zeros((X.shape[0], neighbors.shape[1]), dtype=cp.float32)
 
     dist_func(
-        (grid_size,),
-        (32,),
-        (X, distances, neighbors, X.shape[0], X.shape[1], neighbors.shape[1]),
+        X.data.ptr,
+        out=distances.data.ptr,
+        pairs=neighbors.data.ptr,
+        n_samples=X.shape[0],
+        n_features=X.shape[1],
+        n_neighbors=neighbors.shape[1],
+        stream=cp.cuda.get_current_stream().ptr,
     )
     if metric == "euclidean":
         distances = cp.sqrt(distances)
diff --git a/src/rapids_singlecell/preprocessing/_neighbors/_helper/__init__.py b/src/rapids_singlecell/preprocessing/_neighbors/_helper/__init__.py
index 309cfad9..4234c47b 100644
--- a/src/rapids_singlecell/preprocessing/_neighbors/_helper/__init__.py
+++ b/src/rapids_singlecell/preprocessing/_neighbors/_helper/__init__.py
@@ -163,27 +163,29 @@ def _get_connectivities(
 
 
 def _trimming(cnts: cp_sparse.csr_matrix, trim: int) -> cp_sparse.csr_matrix:
-    from ._kernels._bbknn import cut_smaller_func, find_top_k_per_row_kernel
+    from rapids_singlecell._cuda._bbknn_cuda import (
+        cut_smaller,
+        find_top_k_per_row,
+    )
 
     n_rows = cnts.shape[0]
     vals_gpu = cp.zeros(n_rows, dtype=cp.float32)
 
-    threads_per_block = 64
-    blocks_per_grid = (n_rows + threads_per_block - 1) // threads_per_block
-
-    shared_mem_per_thread = trim * cp.dtype(cp.float32).itemsize
-    shared_mem_size = threads_per_block * shared_mem_per_thread
-
-    find_top_k_per_row_kernel(
-        (blocks_per_grid,),
-        (threads_per_block,),
-        (cnts.data, cnts.indptr, cnts.shape[0], trim, vals_gpu),
-        shared_mem=shared_mem_size,
+    find_top_k_per_row(
+        cnts.data.data.ptr,
+        cnts.indptr.data.ptr,
+        n_rows=cnts.shape[0],
+        trim=trim,
+        vals=vals_gpu.data.ptr,
+        stream=cp.cuda.get_current_stream().ptr,
     )
-    cut_smaller_func(
-        (cnts.shape[0],),
-        (64,),
-        (cnts.indptr, cnts.indices, cnts.data, vals_gpu, cnts.shape[0]),
+    cut_smaller(
+        cnts.indptr.data.ptr,
+        cnts.indices.data.ptr,
+        cnts.data.data.ptr,
+        vals=vals_gpu.data.ptr,
+        n_rows=cnts.shape[0],
+        stream=cp.cuda.get_current_stream().ptr,
     )
     cnts.eliminate_zeros()
     return cnts

From 6898db762c9b14f68635741ac05b25f486c8d731 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 18 Dec 2025 12:45:23 +0100
Subject: [PATCH 53/54] add test  nvcc

---
 .github/workflows/test-gpu.yml | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/.github/workflows/test-gpu.yml b/.github/workflows/test-gpu.yml
index 83e52e92..9a91b451 100644
--- a/.github/workflows/test-gpu.yml
+++ b/.github/workflows/test-gpu.yml
@@ -67,6 +67,12 @@ jobs:
         with:
           python-version: ${{ matrix.env.python }}
 
+      - name: Check CUDA version
+        run: nvcc --version
+
+      - name: Check NVIDIA SMI
+        run: nvidia-smi
+
       - name: Install dependencies
         run: uvx hatch -v env create ${{ matrix.env.name }}
 

From b5f92bd86355907e6409bd0518333e9b527ecfd5 Mon Sep 17 00:00:00 2001
From: Intron7 <severin.dicks@icloud.com>
Date: Thu, 18 Dec 2025 12:57:00 +0100
Subject: [PATCH 54/54] add cuda export

---
 .github/workflows/test-gpu.yml | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/.github/workflows/test-gpu.yml b/.github/workflows/test-gpu.yml
index 9a91b451..b5fe7e77 100644
--- a/.github/workflows/test-gpu.yml
+++ b/.github/workflows/test-gpu.yml
@@ -67,6 +67,11 @@ jobs:
         with:
           python-version: ${{ matrix.env.python }}
 
+      - name: Add CUDA to PATH
+        run: |
+          echo "/usr/local/cuda/bin" >> $GITHUB_PATH
+          echo "LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}" >> $GITHUB_ENV
+
       - name: Check CUDA version
         run: nvcc --version