tokenizer 怎么理解token,tokenize,tokenizer

编程之家2023-11-02122次浏览

大家好，关于tokenizer很多朋友都还不太明白，今天小编就来为大家分享关于怎么理解token,tokenize,tokenizer的知识，希望对各位有所帮助！

Java中StringTokenizer分隔符可以是正则表达式

1.13.6 Compile菜单

按Alt+C可进入Compile菜单,该菜单有以下几个内容，如图所示：

1. Compile to OBJ：将一个C源文件编译生成.OBJ目标文件,同时显示生成的文件名。其热键为 Alt+F9。

2. Make EXE file：此命令生成一个.EXE的文件,并显示生成的.EXE文件名。其中.EXE文件名是下面几项之一：

1)由Project/Project name说明的项目文件名。

2)若没有项目文件名,则由Primary C file说明的源文件。

3)若以上两项都没有文件名,则为当前窗口的文件名。

3. Link EXE file：把当前.OBJ文件及库文件连接在一起生成.EXE文件。

4. Build all：重新编译项目里的所有文件,并进行装配生成.EXE文件。该命令不作过时检查(上面的几条命令要作过时检查,即如果目前项目里源文件的日期和时间与目标文件相同或更早,则拒绝对源文件进行编译)。

5. Primary C file：当在该项中指定了主文件后,在以后的编译中,如没有项目文件名则编译此项中规定的主C文件,如果编译中有错误,则将此文件调入编辑窗口,不管目前窗口中是不是主C文件。

6. Get info：获得有关当前路径、源文件名、源文件字节大小、编译中的错误数目、可用空间等信息，如图：

1.13.7 Project菜单

1、一种解释

token：令牌

tokenize：令牌化

tokenizer：令牌解析器

2、另一种翻译是：token可以翻译为“标记”，tokenize可以翻译为“标记解析”或“解析标记”，tokenizer可以翻译为“标记解析器”。

在编写词法分析器(Lexer)或语法分析器(Parser)的时候，除了Lexer和Parser这两个词会经常使用外，tokenize和tokenizer也会经常出现，基本上所有涉及到词法解析的源码都会用到tokenize。

在邱仲潘译的《Mastering Java 2》有这儿一段：

StreamTokenizer类根据用户定义的规则，从输入流中提取可识别的子串和标记符号，这个过程称为令牌化（[i]tokenizing[/i]），因为流简化为了令牌符号。令牌（[i]token[/i]）通常代表关键字、变量名、字符串、直接量和大括号等语法标点。

有 BertTokenizerFast和 BertTokenizer， BertTokenizerFast更快，因为使用了 tokenizer库。

因为 tokenizer库基于 RUST所以多线程更好。而 BertTokenizer基于 python的。

所以，我们使用 BertTokenizerFast

from transformers import BertTokenizerFast

如果是做分类等问题，那么，tokenizer并不会带来什么问题。但是如果做 ner这种 span抽取，会带来问题，就是

WordPiceTokenizer对句子的切分并非是一一对应的。那么，如果对应这个位置会是很繁琐的一个问题。

文章分享到这里，希望我们关于tokenizer和怎么理解token,tokenize,tokenizer的内容能够给您带来一些新的认识和思考。如果您还有其他问题，欢迎继续探索我们的网站或者与我们交流，我们将尽力为您提供满意的答案。