speculative : limit batch size to llama_n_batch

2025-01-07 09:11:46 +00:00 · 2024-10-20 20:15:59 +03:00 · 2024-10-20 20:15:59 +03:00 · 90ab8a10d5
commit 90ab8a10d5
parent 67d18498d3
1 changed files with 2 additions and 2 deletions
--- a/examples/speculative/speculative.cpp
+++ b/examples/speculative/speculative.cpp
@ -195,8 +195,8 @@ int main(int argc, char ** argv) {
        drafts[s].smpl = common_sampler_init(model_dft, params.sparams);
    }

-    llama_batch batch_dft = llama_batch_init(llama_n_ctx(ctx_dft), 0, 1);
-    llama_batch batch_tgt = llama_batch_init(llama_n_ctx(ctx_tgt), 0, n_seq_dft);
+    llama_batch batch_dft = llama_batch_init(llama_n_batch(ctx_dft), 0, 1);
+    llama_batch batch_tgt = llama_batch_init(llama_n_batch(ctx_tgt), 0, n_seq_dft);

    const auto t_dec_start = ggml_time_us();