cuda : disable BF16 FA

ggml-ci
2025-01-07 17:21:46 +00:00 · 2024-11-08 10:27:43 +02:00 · 2024-11-08 10:27:43 +02:00 · bc143ecf81
commit bc143ecf81
parent 5d1a10d275
1 changed files with 3 additions and 0 deletions
--- a/ggml/src/ggml-cuda.cu
+++ b/ggml/src/ggml-cuda.cu
@ -3159,6 +3159,9 @@ static bool ggml_backend_cuda_device_supports_op(ggml_backend_dev_t dev, const g
 #ifndef FLASH_ATTN_AVAILABLE
            return false;
 #endif
+            if (op->src[1]->type == GGML_TYPE_BF16 || op->src[2]->type == GGML_TYPE_BF16) {
+                return false;
+            }
            if (op->src[0]->ne[0] ==  64 && op->src[1]->type == GGML_TYPE_F16) {
                return true;
            }