keras-tokenizer是否执行词形还原和词干提取的任务?

6

keras分词器提供了像词干和词形还原这样的功能吗?如果确实有,那么是如何实现的?需要直观的理解。此外,text_to_sequence在其中的作用是什么?

1个回答

4
可能有些人会对tokenizer的作用以及tokenization的含义感到困惑。Tokenization将字符串分割成较小的实体,例如单词或单个字符。因此,这些也被称为tokens维基百科提供了一个很好的例子:

The quick brown fox jumps over the lazy dog变成:

<sentence>
  <word>The</word>
  <word>quick</word>
  ...
  <word>dog</word>
</sentence>

Lemmatization(将词的各种屈折形式归为一类 -> 链接)或词干提取(将屈折词(或有时是派生词)缩减为其词干的过程 -> 链接)是预处理期间执行的操作。在词性还原和词干提取之前或之后(或两者都可以),分词可以成为预处理过程的一部分。
无论如何,Keras不是用于完全成熟的文本预处理的框架。因此,您应该将已经清理过,进行了词形还原等处理的数据馈送到Keras中。关于您的第一个问题:不,Keras没有提供词性还原或词干提取这样的功能。 Keras中的文本预处理指的是如文档所述的功能,即准备数据以供Keras模型(如Sequential模型)使用。这就是为什么Keras-Tokenizer能够实现这一点的原因:
该类允许将文本语料库向量化,将每个文本转换为整数序列(每个整数都是字典中标记的索引),或者将其转换为向量,其中每个标记的系数可以是二进制的、基于单词计数的或基于tf-idf的等。
例如,通过将输入字符串向量化并将其转换为数字数据,您可以将其作为输入馈送给Keras中的神经网络。
text_to_sequence中可以提取出其含义:[...]sequence of integers (each integer being the index of a token in a dictionary)[...]。这意味着你之前的字符串之后可以成为一个数字整数序列(如数组),而不是实际的单词。
关于这一点,您还应该查看Keras Sequential模型是什么(例如这里),因为它们将序列作为输入。
此外,text_to_word_sequence()文档)也提供了这种标记化,但不会将数据向量化为数值向量,并返回您的标记化字符串数组。
将文本转换为单词(或标记)序列。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接