我面临的是二元预测任务,并且拥有一系列特征,这些特征都是分类数据。一个关键的挑战就是将这些分类特征编码成数字,因此我正在寻找智能的方法来实现这一点。我偶然发现了word2vec,它主要用于自然语言处理,但我在想是否可以利用它来对我的变量进行编码,即将神经网络的权重作为编码特征。
但是,我不确定这是否是一个好主意,因为在word2vec中用作输入特征的上下文单词在我的情况下多少是随机的,与原本为之制作的真实句子形成对比。
你们有什么建议、想法或推荐吗?
但是,我不确定这是否是一个好主意,因为在word2vec中用作输入特征的上下文单词在我的情况下多少是随机的,与原本为之制作的真实句子形成对比。
你们有什么建议、想法或推荐吗?
window
(因此在单个“text”中的所有单词都处于彼此的上下文中)可能值得考虑。gensim
Word2Vec
的最新版本允许更改一个名为ns_exponent
的参数 - 在许多早期实现中固定为0.75
,但至少一篇论文建议可以针对某些语料库数据和类似推荐的应用程序远离该值。