I like pizza
和 I like Pasta
。你的整个词汇表由这些单词组成:(I, like, pizza, pasta)
。对于词汇表中的每个单词,都有一个关联的索引(1、2、3、4)。现在给定一个文档如I like pasta
,它可以转换为向量[1, 2, 4]。这就是learn.preprocessing.VocabularyProcessor
所做的事情。参数max_document_length
确保所有文档都由长度为max_document_length
的向量表示,如果其长度小于max_document_length
则填充数字,如果长度大于max_document_length
则将其裁剪。希望这能帮到您。