keras-tokenizer是否执行词形还原和词干提取的任务？

Question

keras-tokenizer是否执行词形还原和词干提取的任务？

kerasnlptokenizestemminglemmatization

6

keras分词器提供了像词干和词形还原这样的功能吗？如果确实有，那么是如何实现的？需要直观的理解。此外，text_to_sequence在其中的作用是什么？

- ASingh

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Markus · Accepted Answer

可能有些人会对tokenizer的作用以及tokenization的含义感到困惑。Tokenization将字符串分割成较小的实体，例如单词或单个字符。因此，这些也被称为tokens。维基百科提供了一个很好的例子：

The quick brown fox jumps over the lazy dog变成：

<sentence>
  <word>The</word>
  <word>quick</word>
  ...
  <word>dog</word>
</sentence>

Lemmatization（将词的各种屈折形式归为一类 -> 链接）或词干提取（将屈折词（或有时是派生词）缩减为其词干的过程 -> 链接）是预处理期间执行的操作。在词性还原和词干提取之前或之后（或两者都可以），分词可以成为预处理过程的一部分。

无论如何，Keras不是用于完全成熟的文本预处理的框架。因此，您应该将已经清理过，进行了词形还原等处理的数据馈送到Keras中。关于您的第一个问题：不，Keras没有提供词性还原或词干提取这样的功能。 Keras中的文本预处理指的是如文档所述的功能，即准备数据以供Keras模型（如Sequential模型）使用。这就是为什么Keras-Tokenizer能够实现这一点的原因：

该类允许将文本语料库向量化，将每个文本转换为整数序列（每个整数都是字典中标记的索引），或者将其转换为向量，其中每个标记的系数可以是二进制的、基于单词计数的或基于tf-idf的等。

例如，通过将输入字符串向量化并将其转换为数字数据，您可以将其作为输入馈送给Keras中的神经网络。

从text_to_sequence中可以提取出其含义：[...]sequence of integers (each integer being the index of a token in a dictionary)[...]。这意味着你之前的字符串之后可以成为一个数字整数序列（如数组），而不是实际的单词。

关于这一点，您还应该查看Keras Sequential模型是什么（例如这里），因为它们将序列作为输入。

此外，text_to_word_sequence()（文档）也提供了这种标记化，但不会将数据向量化为数值向量，并返回您的标记化字符串数组。

将文本转换为单词（或标记）序列。