术语处理器功能

Question

术语处理器功能

8

我正在研究如何为卷积神经网络嵌入输入，并且我了解Word2vec。但是，在CNN文本分类中，dennybritz使用了函数learn.preprocessing.VocabularyProcessor。在文件中，他们说它将文档映射到单词ID序列。我不太确定这个函数是如何工作的。它是否创建一个ID列表，然后将ID与单词映射，还是它具有单词及其ID的字典，运行函数时仅提供IDs？

- ngoduyvu

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Kashyap · Accepted Answer

假设你有两个文档：I like pizza 和 I like Pasta。你的整个词汇表由这些单词组成：(I, like, pizza, pasta)。对于词汇表中的每个单词，都有一个关联的索引（1、2、3、4）。现在给定一个文档如I like pasta，它可以转换为向量[1, 2, 4]。这就是learn.preprocessing.VocabularyProcessor所做的事情。参数max_document_length确保所有文档都由长度为max_document_length的向量表示，如果其长度小于max_document_length则填充数字，如果长度大于max_document_length则将其裁剪。希望这能帮到您。