CUTLASS 中的 CuTe Layout
# 前言
CUTLASS(CUDA Templates for Linear Algebra Subroutines and Solvers)是 NVIDIA 的一个用于高性能矩阵计算的 CUDA 库,类似于 cuBLAS 和 cuDNN。它将数据移动等操作封装成了 C++ 模板,帮助开发者在 NVIDIA GPU 上实现高效的线性代数操作。支持 Tensor Core 矩阵运算,FP32/TF32/FP16/BF16/FP64/Int4/Int8/Int1 等多种类型的数据格式。目前大模型中的 Flash Attentio
more...