llama.cpp/square.comp at 8ebe8ddebd68526757c631cd019de009697c63c2 - llama.cpp - Gitea: Git with a cup of tea

root/llama.cpp

mirror of https://github.com/ggerganov/llama.cpp.git synced 2024-11-15 07:19:53 +00:00

0cc4m a3738b2fa7 vulkan : implement Stable Diffusion operators (ggml/904)

* Fix Vulkan repeat op

* Implement Vulkan concat op

* Delete old Vulkan shader generator

* Implement Vulkan im2col op

* Implement Vulkan unary gelu_quick op

* Implement Vulkan group_norm op

* Implement Vulkan timestep_embedding op

* Implement Vulkan upscale op

* Fix Vulkan vk_context tensor extra index issue

* Fix Vulkan matmul shader parameter bug

* Properly fix Vulkan matmul shader parameter bug

* Add Vulkan ADD f16 + f32 -> f16 operator support

* Implement Vulkan tanh op

* Fix Vulkan group count too large Validation error on non-Nvidia GPUs

* Throw error when too much memory is requested

* Fix another Vulkan group count too large Validation error on non-Nvidia GPUs

* Fix matmul MMQ condition

* Implement Vulkan pad op

* Fix Vulkan crash when tensor is used multiple times in a compute graph

* Add Vulkan CONCAT f16 + f16 -> f16 op

* Add Vulkan LEAKY_RELU op

2024-08-05 08:50:57 +03:00

16 lines

288 B

Plaintext

Raw Blame History

 #version 450
 #include "types.comp"
 #include "generic_unary_head.comp"
 void main() {
     const uint idx = get_idx();
     if (idx >= p.ne) {
         return;
     }
     const FLOAT_TYPE val = FLOAT_TYPE(data_a[src0_idx(idx)]);
     data_d[p.d_offset + dst_idx(idx)] = D_TYPE(val * val);
 }