[Tokenizer]  ERNIE/BERT 中文Tokenizer会将日文、韩文连续字符识别为UNK

ERNIE/BERT 中文Tokenizer会将日文、韩文连续字符识别为UNK。
如，`天空の城ラピュタ`中的`ラピュタ`被识别为UNK
```python
>>> import paddlenlp
>>> t=paddlenlp.transformers.ErnieTokenizer.from_pretrained("ernie-3.0-base-zh")
>>> t._tokenize("《天空之城》日语是：天空の城ラピュタ。天空之城讲述的是主人公少女希达和少年巴鲁以及海盗、军队、穆斯卡等
寻找天空之城拉普达（Laputa）的历险记")
['《', '天', '空', '之', '城', '》', '日', '语', '是', '：', '天', '空', 'の', '城', '[UNK]', '。', 
'天', '空', '之', '城', '讲', '述', '的', '是', '主', '人', '公', '少', '女', '希', '达', '和', '少', '年', '巴', '鲁', '以', '
及', '海', '盗', '、', '军', '队', '、', '穆', '斯', '卡', '等', '寻', '找', '天', '空', '之', '城', '拉', '普', '达', '（', 'lap', '##uta', '
）', '的', '历', '险', '记']
>>> t.basic_tokenizer.tokenize("《天空之城》日语是：天空の城ラピュタ。天空之城讲述的是主人公少女希达和少年巴鲁以及海盗、
军队、穆斯卡等寻找天空之城拉普达（Laputa）的历险记")
['《', '天', '空', '之', '城', '》', '日', '语', '是', '：', '天', '空', 'の', '城', 'ラヒュタ', '。', 
'天', '空', '之', '城', '讲', '述', '的', '是', '主', '人', '公', '少', '女', '希', '达', '和', '少', '年', '巴', '鲁', '以', 
'及', '海', '盗', '、', '军', '队', '、', '穆', '斯', '卡', '等', '寻', '找', '天', '空', '之', '城', '拉', '普', '达', '（', 'laputa', '）', '的', '历', '险', '记']
>>> t.wordpiece_tokenizer.tokenize('ラヒュタ')
['[UNK]']
>>> [x in t.vocab for x in 'ラヒュタ']
[True, True, True, True]
```
实际上，这些字符都在`ernie-3.0-base-zh`词表中出现过。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Tokenizer] ERNIE/BERT 中文Tokenizer会将日文、韩文连续字符识别为UNK #2585

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Tokenizer] ERNIE/BERT 中文Tokenizer会将日文、韩文连续字符识别为UNK #2585

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions