术语处理器功能

8
我正在研究如何为卷积神经网络嵌入输入,并且我了解Word2vec。但是,在CNN文本分类中,dennybritz使用了函数learn.preprocessing.VocabularyProcessor。在文件中,他们说它将文档映射到单词ID序列。我不太确定这个函数是如何工作的。它是否创建一个ID列表,然后将ID与单词映射,还是它具有单词及其ID的字典,运行函数时仅提供IDs?
1个回答

20
假设你有两个文档:I like pizzaI like Pasta。你的整个词汇表由这些单词组成:(I, like, pizza, pasta)。对于词汇表中的每个单词,都有一个关联的索引(1、2、3、4)。现在给定一个文档如I like pasta,它可以转换为向量[1, 2, 4]。这就是learn.preprocessing.VocabularyProcessor所做的事情。参数max_document_length确保所有文档都由长度为max_document_length的向量表示,如果其长度小于max_document_length则填充数字,如果长度大于max_document_length则将其裁剪。希望这能帮到您。

谢谢Kashyap,所以它只是将文档编码为向量空间。这在自然语言处理中有一个名字吗? - ngoduyvu
据我所知,目前还没有...这是大多数自然语言处理系统中进行的预处理步骤之一。 - Kashyap
max_document_length 应该是不同单词的数量。 - zs2020

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接