8得票1回答
在测试期间重新加载Keras Tokenizer

我会很乐意帮您进行翻译。以下是关于IT技术的内容: 我按照这里的教程(https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html)进行操作。 但是,我修改了代码以便通过h5py保存生成的模型。因...

8得票1回答
朴素贝叶斯概率始终为1

我开始使用 sklearn.naive_bayes.GaussianNB 进行文本分类,并获得了良好的初始结果。我希望使用分类器返回的概率作为置信度的衡量标准,但是 predict_proba() 方法总是返回所选类别的"1.0",而其余所有类别的值均为"0.0"。 我知道(来自此处)".....

8得票1回答
术语处理器功能

我正在研究如何为卷积神经网络嵌入输入,并且我了解Word2vec。但是,在CNN文本分类中,dennybritz使用了函数learn.preprocessing.VocabularyProcessor。在文件中,他们说它将文档映射到单词ID序列。我不太确定这个函数是如何工作的。它是否创建一个I...

8得票5回答
考虑QWERTY键盘布局的随机键盘击键检测

最近一次维基百科破坏检测比赛的获胜者建议,可以通过“考虑QWERTY键盘布局检测随机键盘敲击”来提高检测效果。 例如:woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh 是否有已经实现这个功能的软件(最好是免费且开源)? 如果没有,是否...

8得票2回答
TensorFlow - 使用神经网络进行文本分类

有没有使用神经网络进行文本分类的TensorFlow示例?

8得票1回答
gensim中LabeledSentence和TaggedDocument有什么区别?

请帮助我理解gensim中的TaggedDocument和LabeledSentence之间的区别。我的最终目标是使用Doc2Vec模型和任何分类器进行文本分类。我正在遵循这篇博客! class MyLabeledSentences(object): def __init__(sel...

8得票2回答
GridSearchCV:如何指定测试集?

我有一个关于GridSearchCV的问题: 通过使用以下代码: gs_clf = GridSearchCV(pipeline, parameters, n_jobs=-1, cv=6, scoring="f1") 我指定要使用6折交叉验证,对吗? 这意味着我的语料库会被分成训练集和...

8得票1回答
如何避免Keras的pad_sequences()将浮点数舍入为零?

我有一个使用Keras构建的文本分类模型。我一直在尝试为不同长度的序列进行填充,但是Keras函数pad_sequences()返回的只是零。 我已经发现,如果您拥有像下面这样的numpy数组,它可以正常工作。但是,一旦元素变成浮点数或小数,如第二个数组,它就会变成零。 x = [[1, ...

8得票1回答
使用NLTK生成字典将推文分类到预定义的类别中

我有一份Twitter用户(screen_names)列表,我需要根据他们的兴趣领域将他们分类为7个预定义的类别:教育、艺术、体育、商业、政治、汽车、技术。 我已经使用Python提取了用户的最后100条推文,并在清理推文后为每个用户创建了一个语料库。 如此提到的 Tweet classif...

7得票1回答
预训练模型用于文本分类。

我有一些没有标签的词语,需要将它们分类成4-5个类别。虽然我没有训练数据,但我可以使用预训练模型对这些单词进行分类。哪个模型适用于这种情况,并且已经在哪个数据集上进行了训练? 谢谢。