llama.cpp/vulkan-shaders/generic_binary_head.comp

#extension GL_EXT_shader_16bit_storage : require

layout (push_constant) uniform parameter
{
    uint ne;
    uint ne00; uint ne01; uint ne02; uint ne03; uint nb00; uint nb01; uint nb02; uint nb03;
    uint ne10; uint ne11; uint ne12; uint ne13; uint nb10; uint nb11; uint nb12; uint nb13;
    uint ne20; uint ne21; uint ne22; uint ne23; uint nb20; uint nb21; uint nb22; uint nb23;
    uint d_offset;
    float param1; float param2;
} p;

layout(local_size_x = 512, local_size_y = 1, local_size_z = 1) in;

layout (binding = 0) readonly buffer A {A_TYPE data_a[];};
layout (binding = 1) readonly buffer B {B_TYPE data_b[];};
layout (binding = 2) writeonly buffer D {D_TYPE data_d[];};

uint src0_idx(uint idx) {
    const uint i03 = idx / (p.ne02*p.ne01*p.ne00);
    const uint i03_offset = i03 * p.ne02*p.ne01*p.ne00;
    const uint i02 = (idx - i03_offset) / (p.ne01*p.ne00);
    const uint i02_offset = i02*p.ne01*p.ne00;
    const uint i01 = (idx - i03_offset - i02_offset) / p.ne00;
    const uint i00 = idx - i03_offset - i02_offset - i01*p.ne00;
    return i03*p.nb03 + i02*p.nb02 + i01*p.nb01 + i00*p.nb00;
}

uint src1_idx(uint idx) {
    const uint i03 = idx / (p.ne02*p.ne01*p.ne00);
    const uint i03_offset = i03 * p.ne02*p.ne01*p.ne00;
    const uint i02 = (idx - i03_offset) / (p.ne01*p.ne00);
    const uint i02_offset = i02*p.ne01*p.ne00;
    const uint i01 = (idx - i03_offset - i02_offset) / p.ne00;
    const uint i00 = idx - i03_offset - i02_offset - i01*p.ne00;

    return (i03 % p.ne13)*p.nb13 + (i02 % p.ne12)*p.nb12 + (i01 % p.ne11)*p.nb11 + (i00 % p.ne10)*p.nb10;
}

uint dst_idx(uint idx) {
    const uint i23 = idx / (p.ne22*p.ne21*p.ne20);
    const uint i23_offset = i23 * p.ne22*p.ne21*p.ne20;
    const uint i22 = (idx - i23_offset) / (p.ne21*p.ne20);
    const uint i22_offset = i22*p.ne21*p.ne20;
    const uint i21 = (idx - i23_offset - i22_offset) / p.ne20;
    const uint i20 = idx - i23_offset - i22_offset - i21*p.ne20;
    return i23*p.nb23 + i22*p.nb22 + i21*p.nb21 + i20*p.nb20;
}
Vulkan Shader Refactor, Memory Debugging Option (#7947) * Refactor shaders, extract GLSL code from ggml_vk_generate_shaders.py into vulkan-shaders directory * Improve debug log code * Add memory debug output option * Fix flake8 * Fix unnecessary high llama-3 VRAM use 2024-06-16 05:17:31 +00:00			`#extension GL_EXT_shader_16bit_storage : require`

			`layout (push_constant) uniform parameter`
			`{`
			`uint ne;`
			`uint ne00; uint ne01; uint ne02; uint ne03; uint nb00; uint nb01; uint nb02; uint nb03;`
			`uint ne10; uint ne11; uint ne12; uint ne13; uint nb10; uint nb11; uint nb12; uint nb13;`
			`uint ne20; uint ne21; uint ne22; uint ne23; uint nb20; uint nb21; uint nb22; uint nb23;`
			`uint d_offset;`
			`float param1; float param2;`
			`} p;`

			`layout(local_size_x = 512, local_size_y = 1, local_size_z = 1) in;`

			`layout (binding = 0) readonly buffer A {A_TYPE data_a[];};`
			`layout (binding = 1) readonly buffer B {B_TYPE data_b[];};`
			`layout (binding = 2) writeonly buffer D {D_TYPE data_d[];};`

			`uint src0_idx(uint idx) {`
			`const uint i03 = idx / (p.ne02p.ne01p.ne00);`
			`const uint i03_offset = i03 * p.ne02p.ne01p.ne00;`
			`const uint i02 = (idx - i03_offset) / (p.ne01*p.ne00);`
			`const uint i02_offset = i02p.ne01p.ne00;`
			`const uint i01 = (idx - i03_offset - i02_offset) / p.ne00;`
			`const uint i00 = idx - i03_offset - i02_offset - i01*p.ne00;`
			`return i03p.nb03 + i02p.nb02 + i01p.nb01 + i00p.nb00;`
			`}`

			`uint src1_idx(uint idx) {`
			`const uint i03 = idx / (p.ne02p.ne01p.ne00);`
			`const uint i03_offset = i03 * p.ne02p.ne01p.ne00;`
			`const uint i02 = (idx - i03_offset) / (p.ne01*p.ne00);`
			`const uint i02_offset = i02p.ne01p.ne00;`
			`const uint i01 = (idx - i03_offset - i02_offset) / p.ne00;`
			`const uint i00 = idx - i03_offset - i02_offset - i01*p.ne00;`

			`return (i03 % p.ne13)p.nb13 + (i02 % p.ne12)p.nb12 + (i01 % p.ne11)p.nb11 + (i00 % p.ne10)p.nb10;`
			`}`

			`uint dst_idx(uint idx) {`
			`const uint i23 = idx / (p.ne22p.ne21p.ne20);`
			`const uint i23_offset = i23 * p.ne22p.ne21p.ne20;`
			`const uint i22 = (idx - i23_offset) / (p.ne21*p.ne20);`
			`const uint i22_offset = i22p.ne21p.ne20;`
			`const uint i21 = (idx - i23_offset - i22_offset) / p.ne20;`
			`const uint i20 = idx - i23_offset - i22_offset - i21*p.ne20;`
			`return i23p.nb23 + i22p.nb22 + i21p.nb21 + i20p.nb20;`
			`}`