common : Changed tuple to struct (TODO fix) (#8823)

* common : Changed tuple to struct (TODO fix) Use struct `llama_init_result` to replace the previous std::tuple<struct llama_model *, struct llama_context *> * delete llama_init_default_params() * delete the extra whitespace
2024-12-25 02:44:36 +00:00 · 2024-08-06 00:14:10 +08:00 · 2024-08-06 00:14:10 +08:00 · 0a4ce78681
commit 0a4ce78681
parent bc0f887e15
18 changed files with 82 additions and 59 deletions
--- a/common/common.cpp
+++ b/common/common.cpp
@ -2039,8 +2039,8 @@ std::string fs_get_cache_file(const std::string & filename) {
 //
 // Model utils
 //
-
+struct llama_init_result llama_init_from_gpt_params(gpt_params & params) {
-std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_params(gpt_params & params) {
+    llama_init_result iparams;
    auto mparams = llama_model_params_from_gpt_params(params);
    llama_model * model = nullptr;
@ -2055,7 +2055,7 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
    if (model == NULL) {
        fprintf(stderr, "%s: error: failed to load model '%s'\n", __func__, params.model.c_str());
-        return std::make_tuple(nullptr, nullptr);
+        return iparams;
    }
    auto cparams = llama_context_params_from_gpt_params(params);
@ -2064,7 +2064,7 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
    if (lctx == NULL) {
        fprintf(stderr, "%s: error: failed to create context with model '%s'\n", __func__, params.model.c_str());
        llama_free_model(model);
-        return std::make_tuple(nullptr, nullptr);
+        return iparams;
    }
    if (!params.control_vectors.empty()) {
@ -2075,7 +2075,7 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
        if (cvec.n_embd == -1) {
            llama_free(lctx);
            llama_free_model(model);
-            return std::make_tuple(nullptr, nullptr);
+            return iparams;
        }
        int err = llama_control_vector_apply(lctx,
@ -2087,7 +2087,7 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
        if (err) {
            llama_free(lctx);
            llama_free_model(model);
-            return std::make_tuple(nullptr, nullptr);
+            return iparams;
        }
    }
@ -2099,7 +2099,7 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
            fprintf(stderr, "%s: error: failed to apply lora adapter\n", __func__);
            llama_free(lctx);
            llama_free_model(model);
-            return std::make_tuple(nullptr, nullptr);
+            return iparams;
        }
        llama_lora_adapter_set(lctx, adapter, lora_scale);
    }
@ -2135,7 +2135,9 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
        llama_reset_timings(lctx);
    }
-    return std::make_tuple(model, lctx);
+    iparams.model   = model;
    iparams.context = lctx;
    return iparams;
 }
 struct llama_model_params llama_model_params_from_gpt_params(const gpt_params & params) {
--- a/common/common.h
+++ b/common/common.h
@ -308,8 +308,12 @@ std::string fs_get_cache_file(const std::string & filename);
 // Model utils
 //
-// TODO: avoid tuplue, use struct
+struct llama_init_result {
-std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_params(gpt_params & params);
+    struct llama_model * model = nullptr;
    struct llama_context * context = nullptr;
 };
 struct llama_init_result    llama_init_from_gpt_params(gpt_params & params);
 struct llama_model_params   llama_model_params_from_gpt_params  (const gpt_params & params);
 struct llama_context_params llama_context_params_from_gpt_params(const gpt_params & params);
--- a/examples/cvector-generator/cvector-generator.cpp
+++ b/examples/cvector-generator/cvector-generator.cpp
@ -414,9 +414,10 @@ int main(int argc, char ** argv) {
    llama_numa_init(params.numa);
    // load the model to get hparams
-    llama_model * model;
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
-    llama_context * ctx;
+
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    // int n_ctx = llama_n_ctx(ctx);
    int n_layers = llama_n_layer(model);
--- a/examples/embedding/embedding.cpp
+++ b/examples/embedding/embedding.cpp
@ -79,11 +79,11 @@ int main(int argc, char ** argv) {
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model;
    llama_context * ctx;
    // load the model
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    if (model == NULL) {
        fprintf(stderr, "%s: error: unable to load model\n", __func__);
        return 1;
--- a/examples/eval-callback/eval-callback.cpp
+++ b/examples/eval-callback/eval-callback.cpp
@ -163,9 +163,10 @@ int main(int argc, char ** argv) {
    params.warmup = false;
    // init
-    llama_model * model;
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
-    llama_context * ctx;
+
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    if (model == nullptr || ctx == nullptr) {
        fprintf(stderr, "%s : failed to init\n", __func__);
        return 1;
--- a/examples/imatrix/imatrix.cpp
+++ b/examples/imatrix/imatrix.cpp
@ -611,10 +611,10 @@ int main(int argc, char ** argv) {
    params.warmup = false;
    // init
-    llama_model * model;
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_context * ctx;
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    if (model == nullptr || ctx == nullptr) {
        fprintf(stderr, "%s : failed to init\n", __func__);
        return 1;
--- a/examples/infill/infill.cpp
+++ b/examples/infill/infill.cpp
@ -179,7 +179,10 @@ int main(int argc, char ** argv) {
    // load the model and apply lora adapter, if any
    LOG("%s: load the model and apply lora adapter, if any\n", __func__);
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    model = llama_init.model;
    ctx = llama_init.context;
    if (model == NULL) {
        LOG_TEE("%s: error: unable to load model\n", __func__);
--- a/examples/lookahead/lookahead.cpp
+++ b/examples/lookahead/lookahead.cpp
@ -58,11 +58,11 @@ int main(int argc, char ** argv) {
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model = NULL;
    llama_context * ctx = NULL;
    // load the target model
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    // Tokenize the prompt
    std::vector<llama_token> inp;
--- a/examples/lookup/lookup-create.cpp
+++ b/examples/lookup/lookup-create.cpp
@ -22,11 +22,11 @@ int main(int argc, char ** argv){
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model = NULL;
    llama_context * ctx = NULL;
    // load the model
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    GGML_ASSERT(model != nullptr);
    // tokenize the prompt
--- a/examples/lookup/lookup-stats.cpp
+++ b/examples/lookup/lookup-stats.cpp
@ -26,11 +26,11 @@ int main(int argc, char ** argv){
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model = NULL;
    llama_context * ctx = NULL;
    // load the model
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    // tokenize the prompt
    std::vector<llama_token> inp;
--- a/examples/lookup/lookup.cpp
+++ b/examples/lookup/lookup.cpp
@ -34,11 +34,11 @@ int main(int argc, char ** argv){
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model = NULL;
    llama_context * ctx = NULL;
    // load the model
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    // tokenize the prompt
    std::vector<llama_token> inp;
--- a/examples/main/main.cpp
+++ b/examples/main/main.cpp
@ -207,7 +207,10 @@ int main(int argc, char ** argv) {
    // load the model and apply lora adapter, if any
    LOG("%s: load the model and apply lora adapter, if any\n", __func__);
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    model = llama_init.model;
    ctx = llama_init.context;
    if (sparams.cfg_scale > 1.f) {
        struct llama_context_params lparams = llama_context_params_from_gpt_params(params);
        ctx_guidance = llama_new_context_with_model(model, lparams);
--- a/examples/parallel/parallel.cpp
+++ b/examples/parallel/parallel.cpp
@ -129,11 +129,11 @@ int main(int argc, char ** argv) {
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model = NULL;
    llama_context * ctx = NULL;
    // load the target model
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    // load the prompts from an external file if there are any
    if (params.prompt.empty()) {
--- a/examples/perplexity/perplexity.cpp
+++ b/examples/perplexity/perplexity.cpp
@ -2018,11 +2018,11 @@ int main(int argc, char ** argv) {
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model;
    llama_context * ctx;
    // load the model and apply lora adapter, if any
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    if (model == NULL) {
        fprintf(stderr, "%s: error: unable to load model\n", __func__);
        return 1;
--- a/examples/retrieval/retrieval.cpp
+++ b/examples/retrieval/retrieval.cpp
@ -148,11 +148,12 @@ int main(int argc, char ** argv) {
    llama_backend_init();
    llama_numa_init(params.numa);
    llama_model * model;
    llama_context * ctx;
    // load the model
-    std::tie(model, ctx) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    if (model == NULL) {
        fprintf(stderr, "%s: error: unable to load model\n", __func__);
        return 1;
--- a/examples/save-load-state/save-load-state.cpp
+++ b/examples/save-load-state/save-load-state.cpp
@ -28,10 +28,11 @@ int main(int argc, char ** argv) {
    std::string result2;
    // init
-    llama_model * model;
+    llama_init_result llama_init = llama_init_from_gpt_params(params);
-    llama_context * ctx;
+
    llama_model * model = llama_init.model;
    llama_context * ctx = llama_init.context;
    std::tie(model, ctx) = llama_init_from_gpt_params(params);
    if (model == nullptr || ctx == nullptr) {
        fprintf(stderr, "%s : failed to init\n", __func__);
        return 1;
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@ -677,7 +677,10 @@ struct server_context {
        // dedicate one sequence to the system prompt
        params.n_parallel += 1;
-        std::tie(model, ctx) = llama_init_from_gpt_params(params);
+        llama_init_result llama_init = llama_init_from_gpt_params(params);
        model = llama_init.model;
        ctx = llama_init.context;
        params.n_parallel -= 1; // but be sneaky about it
        if (model == nullptr) {
            LOG_ERROR("unable to load model", {{"model", params.model}});
--- a/examples/speculative/speculative.cpp
+++ b/examples/speculative/speculative.cpp
@ -66,7 +66,9 @@ int main(int argc, char ** argv) {
    llama_context * ctx_dft = NULL;
    // load the target model
-    std::tie(model_tgt, ctx_tgt) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init_tgt = llama_init_from_gpt_params(params);
    model_tgt = llama_init_tgt.model;
    ctx_tgt = llama_init_tgt.context;
    // load the draft model
    params.model = params.model_draft;
@ -75,7 +77,9 @@ int main(int argc, char ** argv) {
        params.n_threads = params.n_threads_draft;
    }
    params.n_threads_batch = params.n_threads_batch_draft;
-    std::tie(model_dft, ctx_dft) = llama_init_from_gpt_params(params);
+    llama_init_result llama_init_dft = llama_init_from_gpt_params(params);
    model_dft = llama_init_dft.model;
    ctx_dft = llama_init_dft.context;
    const bool vocab_type_tgt = llama_vocab_type(model_tgt);
    LOG("vocab_type tgt: %d\n", vocab_type_tgt);