mirror of
https://github.com/ggerganov/llama.cpp.git
synced 2025-01-09 02:01:44 +00:00
speculative : limit batch size to llama_n_batch
This commit is contained in:
parent
67d18498d3
commit
90ab8a10d5
@ -195,8 +195,8 @@ int main(int argc, char ** argv) {
|
|||||||
drafts[s].smpl = common_sampler_init(model_dft, params.sparams);
|
drafts[s].smpl = common_sampler_init(model_dft, params.sparams);
|
||||||
}
|
}
|
||||||
|
|
||||||
llama_batch batch_dft = llama_batch_init(llama_n_ctx(ctx_dft), 0, 1);
|
llama_batch batch_dft = llama_batch_init(llama_n_batch(ctx_dft), 0, 1);
|
||||||
llama_batch batch_tgt = llama_batch_init(llama_n_ctx(ctx_tgt), 0, n_seq_dft);
|
llama_batch batch_tgt = llama_batch_init(llama_n_batch(ctx_tgt), 0, n_seq_dft);
|
||||||
|
|
||||||
const auto t_dec_start = ggml_time_us();
|
const auto t_dec_start = ggml_time_us();
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user