Fix #35447 Tokenizer does not split text according to newly added input tokens #35455

jiongjiongli · 2024-12-29T21:51:52Z

Fix Bug

#35447 : Tokenizer does not split text according to newly added input tokens

Resolution

Method Trie.split: Add steps to ignore partial match that should be removed

@ArthurZucker and @itazap

ArthurZucker

Hey ! Sorry but I cannot seem to reproduce!

jiongjiongli · 2025-01-12T22:18:06Z

Hey ! Sorry but I cannot seem to reproduce!

Hello @ArthurZucker , this issue repos using tokenizer.add_tokens(["red", "e"]) rather than tokenizer.add_tokens(["e"]) .

Below is repro code and actual result:

# Code:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-cased", use_fast=False)
tokenizer.add_tokens(["red", "e"])
output_tokens = tokenizer.tokenize("read")
print(f"Output tokens: {output_tokens}")

# Actual Output:
Output tokens: ['read']

…newly added input tokens The root reason is Trie.split method didn't ignore partial match that should be removed Add test case to token split

ArthurZucker

Right, sorry!
Could you add another test with another model for example? 🤗
Seems to not work for ? for example or for emojis

jiongjiongli force-pushed the fix-tokenizer-text-split branch 2 times, most recently from cf128ad to fbd9036 Compare January 1, 2025 00:19

ArthurZucker reviewed Jan 8, 2025

View reviewed changes

jiongjiongli force-pushed the fix-tokenizer-text-split branch from 12b6aa8 to 70d51bf Compare January 12, 2025 22:19

jiongjiongli requested a review from Rocketknight1 as a code owner January 12, 2025 22:19

ArthurZucker removed the request for review from Rocketknight1 January 13, 2025 10:28

Fix bug huggingface#35447 Tokenizer does not split text according to …

56c52db

…newly added input tokens The root reason is Trie.split method didn't ignore partial match that should be removed Add test case to token split

jiongjiongli force-pushed the fix-tokenizer-text-split branch from 70d51bf to 56c52db Compare January 20, 2025 04:37

ArthurZucker reviewed Jan 20, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix #35447 Tokenizer does not split text according to newly added input tokens #35455

Fix #35447 Tokenizer does not split text according to newly added input tokens #35455

jiongjiongli commented Dec 29, 2024

ArthurZucker left a comment •

edited

Loading

jiongjiongli commented Jan 12, 2025

ArthurZucker left a comment

Fix #35447 Tokenizer does not split text according to newly added input tokens #35455

Are you sure you want to change the base?

Fix #35447 Tokenizer does not split text according to newly added input tokens #35455

Conversation

jiongjiongli commented Dec 29, 2024

Fix Bug

Resolution

ArthurZucker left a comment • edited Loading

Choose a reason for hiding this comment

jiongjiongli commented Jan 12, 2025

ArthurZucker left a comment

Choose a reason for hiding this comment

ArthurZucker left a comment •

edited

Loading