llama.cpp

mirror of https://github.com/ggerganov/llama.cpp.git synced 2024-12-27 03:44:35 +00:00

History

Molly Sophia 8f1d81a0b6 llama : support RWKV v6 models (#8980 ) * convert_hf_to_gguf: Add support for RWKV v6 Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Add RWKV tokenization * Fix build Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Do not use special tokens when matching in RWKV tokenizer * Fix model loading * Add (broken) placeholder graph builder for RWKV * Add workaround for kv cache * Add logits conversion to rwkv5 * Add rwkv5 layer norms * Add time mix KVRG & correct merge mistake * Add remaining time mix parameters * Add time mix output loading * Add placeholder llm_build_time_mix * Fix build Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Load more tensors for rwkv v6 Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Fix rwkv tokenizer Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * ggml: Add unary operator Exp Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * RWKV v6 graph building Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Add ``rescale_every_n_layers`` parameter Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Add ``wkv.head_size`` key for RWKV so it doesn't reuse Mamba ssm parameters Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Fix offloading layers to CUDA Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Fix parallel inferencing for RWKV Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Remove trailing whitespaces Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * build_rwkv: Avoid using inplace operations Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * convert_hf_to_gguf: rwkv: Avoid using ``eval`` Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * convert_hf_to_gguf: rwkv tokenizer: Don't escape sequences manually Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Update convert_hf_to_gguf.py Co-authored-by: compilade <git@compilade.net> * ggml: Add backward computation for unary op ``exp`` Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Update convert_hf_to_gguf.py Co-authored-by: compilade <git@compilade.net> * Update convert_hf_to_gguf.py Co-authored-by: compilade <git@compilade.net> * Use MODEL_ARCH.RWKV6 instead of MODEL_ARCH.RWKV Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * build_rwkv6: Simplify graph Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Detect model.type Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Fix tensor loading for 7B/14B models Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Fix group_norm assertion failure with Metal Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Clean up Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Add quantization tensor exclusion Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Use the new advanced batch splits Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Update src/llama.cpp Co-authored-by: compilade <git@compilade.net> * llama: rwkv6: Use ``ggml_norm`` instead of ``ggml_group_norm`` Co-authored-by: compilade <git@compilade.net> * llama: rwkv6: Apply code style and misc changes Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * converter: Use class name ``Rwkv6Model`` Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Make use of key ``feed_forward_length`` Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Add kv ``time_mix_extra_dim`` and ``time_decay_extra_dim`` Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * converter: Match ``new_name`` instead of ``name`` for float32 explicit tensors Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Keep ``time_mix_w1/w2`` as F32 Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Remove unused nodes Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Apply code format changes Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * llama: rwkv6: Add lora for some supported tensors Currently att.key/receptance/value/gate/output, ffn.receptance/key/value, as well as head.weight Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * rwkv : speed-up tokenization using trie * minor : style + indentation * llama: rwkv6: Avoid division by zero Co-authored-by: compilade <git@compilade.net> * ggml: rwkv_wkv: Avoid copying the state Signed-off-by: Molly Sophia <mollysophia379@gmail.com> --------- Signed-off-by: Molly Sophia <mollysophia379@gmail.com> Co-authored-by: Layl Bongers <3094382+LaylBongers@users.noreply.github.com> Co-authored-by: compilade <git@compilade.net> Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>		2024-09-01 17:38:17 +03:00
..
ggml-cann	ggml : move rope type enum to ggml.h (#8949 )	2024-08-13 21:13:15 +02:00
ggml-cuda	sync : ggml	2024-08-27 22:41:27 +03:00
ggml-sycl	[SYCL] Add oneDNN primitive support (#9091 )	2024-08-22 12:50:10 +08:00
kompute@4565194ed7	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
kompute-shaders	ggml : move rope type enum to ggml.h (#8949 )	2024-08-13 21:13:15 +02:00
llamafile	sgemm : improved Q4_0 and Q8_0 performance via 4xN and Mx4 gemm (#8908 )	2024-08-31 11:20:35 +03:00
vulkan-shaders	vulkan : fix build (#0 )	2024-08-27 22:41:27 +03:00
CMakeLists.txt	Threadpool: take 2 (#8672 )	2024-08-30 01:20:53 +02:00
ggml-aarch64.c	ggml : do not crash when quantizing q4_x_x with an imatrix (#9192 )	2024-08-26 19:44:43 +02:00
ggml-aarch64.h	ggml : minor naming changes (#8433 )	2024-07-12 10:46:02 +03:00
ggml-alloc.c	ggml : reduce hash table reset cost (#8698 )	2024-07-27 04:41:55 +02:00
ggml-backend-impl.h	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
ggml-backend.c	Threadpool: take 2 (#8672 )	2024-08-30 01:20:53 +02:00
ggml-blas.cpp	ggml : reduce hash table reset cost (#8698 )	2024-07-27 04:41:55 +02:00
ggml-cann.cpp	[CANN]: Fix ggml_backend_cann_buffer_get_tensor (#8871 )	2024-08-06 12:42:42 +08:00
ggml-common.h	feat: Support Moore Threads GPU (#8383 )	2024-07-28 01:41:25 +02:00
ggml-cuda.cu	sync : ggml	2024-08-27 22:41:27 +03:00
ggml-impl.h	ggml : reading the runtime sve config of the cpu (#8709 )	2024-08-03 18:34:41 +02:00
ggml-kompute.cpp	ggml : reduce hash table reset cost (#8698 )	2024-07-27 04:41:55 +02:00
ggml-metal.m	sync : ggml	2024-08-27 22:41:27 +03:00
ggml-metal.metal	sync : ggml	2024-08-27 22:41:27 +03:00
ggml-quants.c	sync : ggml	2024-08-27 22:41:27 +03:00
ggml-quants.h	ggml : reading the runtime sve config of the cpu (#8709 )	2024-08-03 18:34:41 +02:00
ggml-rpc.cpp	rpc : print error message when failed to connect endpoint (#9042 )	2024-08-19 10:11:45 +03:00
ggml-sycl.cpp	[SYCL] Add oneDNN primitive support (#9091 )	2024-08-22 12:50:10 +08:00
ggml-vulkan.cpp	sync : ggml	2024-08-27 22:41:27 +03:00
ggml.c	llama : support RWKV v6 models (#8980 )	2024-09-01 17:38:17 +03:00