diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py index 9d0e7489f..2de856520 100644 --- a/gguf-py/gguf/constants.py +++ b/gguf-py/gguf/constants.py @@ -183,7 +183,6 @@ class Keys: UNK_ID = "tokenizer.ggml.unknown_token_id" SEP_ID = "tokenizer.ggml.seperator_token_id" PAD_ID = "tokenizer.ggml.padding_token_id" - CLS_ID = "tokenizer.ggml.cls_token_id" MASK_ID = "tokenizer.ggml.mask_token_id" ADD_BOS = "tokenizer.ggml.add_bos_token" ADD_EOS = "tokenizer.ggml.add_eos_token" @@ -1782,7 +1781,6 @@ KEY_TOKENIZER_EOM_ID = Keys.Tokenizer.EOM_ID KEY_TOKENIZER_UNK_ID = Keys.Tokenizer.UNK_ID KEY_TOKENIZER_SEP_ID = Keys.Tokenizer.SEP_ID KEY_TOKENIZER_PAD_ID = Keys.Tokenizer.PAD_ID -KEY_TOKENIZER_CLS_ID = Keys.Tokenizer.CLS_ID KEY_TOKENIZER_MASK_ID = Keys.Tokenizer.MASK_ID KEY_TOKENIZER_HF_JSON = Keys.Tokenizer.HF_JSON KEY_TOKENIZER_RWKV = Keys.Tokenizer.RWKV diff --git a/gguf-py/gguf/gguf_writer.py b/gguf-py/gguf/gguf_writer.py index 4a0a65e3c..9ac57e1b4 100644 --- a/gguf-py/gguf/gguf_writer.py +++ b/gguf-py/gguf/gguf_writer.py @@ -854,9 +854,6 @@ class GGUFWriter: def add_pad_token_id(self, id: int) -> None: self.add_uint32(Keys.Tokenizer.PAD_ID, id) - def add_cls_token_id(self, id: int) -> None: - self.add_uint32(Keys.Tokenizer.CLS_ID, id) - def add_mask_token_id(self, id: int) -> None: self.add_uint32(Keys.Tokenizer.MASK_ID, id) diff --git a/include/llama.h b/include/llama.h index 0295a51fb..55caab3dd 100644 --- a/include/llama.h +++ b/include/llama.h @@ -924,11 +924,14 @@ extern "C" { LLAMA_API llama_token llama_token_bos(const struct llama_model * model); // beginning-of-sentence LLAMA_API llama_token llama_token_eos(const struct llama_model * model); // end-of-sentence LLAMA_API llama_token llama_token_eot(const struct llama_model * model); // end-of-turn - LLAMA_API llama_token llama_token_cls(const struct llama_model * model); // classification LLAMA_API llama_token llama_token_sep(const struct llama_model * model); // sentence separator LLAMA_API llama_token llama_token_nl (const struct llama_model * model); // next-line LLAMA_API llama_token llama_token_pad(const struct llama_model * model); // padding + // CLS is equivalent to BOS + DEPRECATED(LLAMA_API llama_token llama_token_cls(const struct llama_model * model), // classification + "use llama_token_bos instead"); + LLAMA_API bool llama_add_bos_token(const struct llama_model * model); LLAMA_API bool llama_add_eos_token(const struct llama_model * model); diff --git a/src/llama-model.cpp b/src/llama-model.cpp index 7deb3683b..50e14cfe9 100644 --- a/src/llama-model.cpp +++ b/src/llama-model.cpp @@ -1134,7 +1134,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) { vocab.special_unk_id = LLAMA_TOKEN_NULL; vocab.special_sep_id = LLAMA_TOKEN_NULL; vocab.special_pad_id = LLAMA_TOKEN_NULL; - vocab.special_cls_id = LLAMA_TOKEN_NULL; vocab.special_mask_id = LLAMA_TOKEN_NULL; vocab.linefeed_id = LLAMA_TOKEN_NULL; @@ -1155,18 +1154,16 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) { vocab.special_unk_id = 0; vocab.special_sep_id = LLAMA_TOKEN_NULL; vocab.special_pad_id = LLAMA_TOKEN_NULL; - vocab.special_cls_id = LLAMA_TOKEN_NULL; vocab.special_mask_id = LLAMA_TOKEN_NULL; } else if (tokenizer_model == "bert") { vocab.type = LLAMA_VOCAB_TYPE_WPM; // default special tokens - vocab.special_bos_id = LLAMA_TOKEN_NULL; + vocab.special_bos_id = 101; vocab.special_eos_id = LLAMA_TOKEN_NULL; vocab.special_unk_id = 100; vocab.special_sep_id = 102; vocab.special_pad_id = 0; - vocab.special_cls_id = 101; vocab.special_mask_id = 103; } else if (tokenizer_model == "gpt2") { vocab.type = LLAMA_VOCAB_TYPE_BPE; @@ -1201,7 +1198,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) { vocab.special_unk_id = LLAMA_TOKEN_NULL; vocab.special_sep_id = LLAMA_TOKEN_NULL; vocab.special_pad_id = LLAMA_TOKEN_NULL; - vocab.special_cls_id = LLAMA_TOKEN_NULL; vocab.special_mask_id = LLAMA_TOKEN_NULL; } else if (tokenizer_model == "t5") { vocab.type = LLAMA_VOCAB_TYPE_UGM; @@ -1212,7 +1208,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) { vocab.special_unk_id = 2; vocab.special_sep_id = LLAMA_TOKEN_NULL; vocab.special_pad_id = 0; - vocab.special_cls_id = LLAMA_TOKEN_NULL; vocab.special_mask_id = LLAMA_TOKEN_NULL; const int precompiled_charsmap_keyidx = gguf_find_key(ctx, kv(LLM_KV_TOKENIZER_PRECOMPILED_CHARSMAP).c_str()); @@ -1495,7 +1490,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) { { LLM_KV_TOKENIZER_UNK_ID, vocab.special_unk_id }, { LLM_KV_TOKENIZER_SEP_ID, vocab.special_sep_id }, { LLM_KV_TOKENIZER_PAD_ID, vocab.special_pad_id }, - { LLM_KV_TOKENIZER_CLS_ID, vocab.special_cls_id }, { LLM_KV_TOKENIZER_MASK_ID, vocab.special_mask_id }, { LLM_KV_TOKENIZER_FIM_PRE_ID, vocab.special_fim_pre_id }, { LLM_KV_TOKENIZER_FIM_SUF_ID, vocab.special_fim_suf_id }, @@ -1930,7 +1924,6 @@ void llm_load_print_meta(llama_model_loader & ml, llama_model & model) { if (vocab.special_unk_id != LLAMA_TOKEN_NULL) { LLAMA_LOG_INFO( "%s: UNK token = %d '%s'\n", __func__, vocab.special_unk_id, vocab.id_to_token[vocab.special_unk_id].text.c_str() ); } if (vocab.special_sep_id != LLAMA_TOKEN_NULL) { LLAMA_LOG_INFO( "%s: SEP token = %d '%s'\n", __func__, vocab.special_sep_id, vocab.id_to_token[vocab.special_sep_id].text.c_str() ); } if (vocab.special_pad_id != LLAMA_TOKEN_NULL) { LLAMA_LOG_INFO( "%s: PAD token = %d '%s'\n", __func__, vocab.special_pad_id, vocab.id_to_token[vocab.special_pad_id].text.c_str() ); } - if (vocab.special_cls_id != LLAMA_TOKEN_NULL) { LLAMA_LOG_INFO( "%s: CLS token = %d '%s'\n", __func__, vocab.special_cls_id, vocab.id_to_token[vocab.special_cls_id].text.c_str() ); } if (vocab.special_mask_id != LLAMA_TOKEN_NULL) { LLAMA_LOG_INFO( "%s: MASK token = %d '%s'\n", __func__, vocab.special_mask_id, vocab.id_to_token[vocab.special_mask_id].text.c_str() ); } if (vocab.linefeed_id != LLAMA_TOKEN_NULL) { LLAMA_LOG_INFO( "%s: LF token = %d '%s'\n", __func__, vocab.linefeed_id, vocab.id_to_token[vocab.linefeed_id].text.c_str() ); } diff --git a/src/llama-vocab.cpp b/src/llama-vocab.cpp index a4c015484..9c9feb283 100644 --- a/src/llama-vocab.cpp +++ b/src/llama-vocab.cpp @@ -1522,8 +1522,8 @@ std::vector llama_tokenize_internal( case LLAMA_VOCAB_TYPE_WPM: { if (add_special) { - GGML_ASSERT(vocab.special_cls_id != LLAMA_TOKEN_NULL); - output.push_back(vocab.special_cls_id); + GGML_ASSERT(vocab.special_bos_id != LLAMA_TOKEN_NULL); + output.push_back(vocab.special_bos_id); } llm_tokenizer_wpm_session session(vocab); @@ -1650,7 +1650,7 @@ bool llama_token_is_control_impl(const struct llama_vocab & vocab, llama_token t } llama_token llama_token_bos_impl(const struct llama_vocab & vocab) { - return vocab.type != LLAMA_VOCAB_TYPE_WPM ? vocab.special_bos_id : vocab.special_cls_id; + return vocab.special_bos_id; } llama_token llama_token_eos_impl(const struct llama_vocab & vocab) { @@ -1665,10 +1665,6 @@ llama_token llama_token_eom_impl(const struct llama_vocab & vocab) { return vocab.special_eom_id; } -llama_token llama_token_cls_impl(const struct llama_vocab & vocab) { - return vocab.special_cls_id; -} - llama_token llama_token_sep_impl(const struct llama_vocab & vocab) { return vocab.special_sep_id; } diff --git a/src/llama-vocab.h b/src/llama-vocab.h index 0d00086da..df2e33587 100644 --- a/src/llama-vocab.h +++ b/src/llama-vocab.h @@ -57,7 +57,6 @@ struct llama_vocab { id special_unk_id = 0; id special_sep_id = LLAMA_TOKEN_NULL; id special_pad_id = LLAMA_TOKEN_NULL; - id special_cls_id = LLAMA_TOKEN_NULL; // TODO: revisit if this is really needed https://github.com/ggerganov/llama.cpp/pull/10930 id special_mask_id = LLAMA_TOKEN_NULL; id linefeed_id = 13; @@ -124,7 +123,6 @@ llama_token llama_token_bos_impl(const struct llama_vocab & vocab); llama_token llama_token_eos_impl(const struct llama_vocab & vocab); llama_token llama_token_eot_impl(const struct llama_vocab & vocab); llama_token llama_token_eom_impl(const struct llama_vocab & vocab); -llama_token llama_token_cls_impl(const struct llama_vocab & vocab); llama_token llama_token_sep_impl(const struct llama_vocab & vocab); llama_token llama_token_nl_impl (const struct llama_vocab & vocab); llama_token llama_token_pad_impl(const struct llama_vocab & vocab); diff --git a/src/llama.cpp b/src/llama.cpp index 7337c34ce..a6f03158f 100644 --- a/src/llama.cpp +++ b/src/llama.cpp @@ -12267,7 +12267,7 @@ llama_token llama_token_eot(const struct llama_model * model) { } llama_token llama_token_cls(const struct llama_model * model) { - return llama_token_cls_impl(model->vocab); + return llama_token_bos_impl(model->vocab); } llama_token llama_token_sep(const struct llama_model * model) {