huggingface简单入门(二)分词和字典工具

分词

加载 tokenizer 准备预料

pretrained_model_name_or_path可以从https://huggingface.co/models上进行选择,也可以下载到本地填写本地路径。

简单编码

增强的编码函数

批量编码句子

批量编码成对的句子

字典

获取字典

添加新词和新符号

编码新添加的词