tiling Articles | Abhik Sarkar

CUDA Matrix Multiplication Optimization: From Naive to Near-cuBLAS

April 7, 2026

Step-by-step CUDA matrix multiplication optimization with 9 interactive visualizations. From naive kernels through shared memory tiling to near-cuBLAS speeds.

cuda gpu-computing matrix-multiplication optimization shared-memory memory-coalescing tiling performance deep-learning hpc

April 7, 2026

tiling

Articles Related to tiling

CUDA Matrix Multiplication Optimization: From Naive to Near-cuBLAS