-
Notifications
You must be signed in to change notification settings - Fork 3.1k
Closed as not planned
Labels
Description
ERNIE/BERT 中文Tokenizer会将日文、韩文连续字符识别为UNK。
如,天空の城ラピュタ
中的ラピュタ
被识别为UNK
>>> import paddlenlp
>>> t=paddlenlp.transformers.ErnieTokenizer.from_pretrained("ernie-3.0-base-zh")
>>> t._tokenize("《天空之城》日语是:天空の城ラピュタ。天空之城讲述的是主人公少女希达和少年巴鲁以及海盗、军队、穆斯卡等
寻找天空之城拉普达(Laputa)的历险记")
['《', '天', '空', '之', '城', '》', '日', '语', '是', ':', '天', '空', 'の', '城', '[UNK]', '。',
'天', '空', '之', '城', '讲', '述', '的', '是', '主', '人', '公', '少', '女', '希', '达', '和', '少', '年', '巴', '鲁', '以', '
及', '海', '盗', '、', '军', '队', '、', '穆', '斯', '卡', '等', '寻', '找', '天', '空', '之', '城', '拉', '普', '达', '(', 'lap', '##uta', '
)', '的', '历', '险', '记']
>>> t.basic_tokenizer.tokenize("《天空之城》日语是:天空の城ラピュタ。天空之城讲述的是主人公少女希达和少年巴鲁以及海盗、
军队、穆斯卡等寻找天空之城拉普达(Laputa)的历险记")
['《', '天', '空', '之', '城', '》', '日', '语', '是', ':', '天', '空', 'の', '城', 'ラヒュタ', '。',
'天', '空', '之', '城', '讲', '述', '的', '是', '主', '人', '公', '少', '女', '希', '达', '和', '少', '年', '巴', '鲁', '以',
'及', '海', '盗', '、', '军', '队', '、', '穆', '斯', '卡', '等', '寻', '找', '天', '空', '之', '城', '拉', '普', '达', '(', 'laputa', ')', '的', '历', '险', '记']
>>> t.wordpiece_tokenizer.tokenize('ラヒュタ')
['[UNK]']
>>> [x in t.vocab for x in 'ラヒュタ']
[True, True, True, True]
实际上,这些字符都在ernie-3.0-base-zh
词表中出现过。