351得票7回答
"熵和信息增益"是什么?

我正在阅读这本书(NLTK),但有些晦涩难懂。在该书中,Entropy被定义为: 熵是每个标签的概率乘以该标签对数概率之和 我如何在文本挖掘领域应用熵(entropy)和最大熵(maximum entropy)?能否给出一个简单易懂的示例(可视化)?

87得票1回答
使用多个核心时,tm_map转换函数的行为不一致

这篇文章的另一个潜在标题可能是“当使用R进行并行处理时,核心数量、循环块大小和对象大小的比例是否重要?" 我正在使用tm包对一个语料库进行一些转换。由于语料库很大,我正在使用doparallel包进行并行处理。 有时候转换可以完成任务,但有时候却不能。例如,tm::removeNumber...

68得票2回答
如何使用Python结合正则表达式和字符串/文件操作在文本文件中搜索模式并存储模式的实例?

所以本质上我正在寻找一个文本文件中两个尖括号内的4位代码。我知道我需要打开文本文件然后逐行解析,但是我不确定在检查“for line in file”之后如何构建我的代码结构。 我认为我可以通过某种方式进行拆分、剥离或者划分,但是我还编写了一个正则表达式,我使用compile对其进行了编译,...

67得票2回答
CoNLL数据格式是什么?

我正在使用一个开源的jar包(Mate Parser),它在依存分析后以CoNLL 2009格式输出。我想要利用这些依存分析结果进行信息提取,但是我只理解CoNLL数据格式中的一部分内容。 有人可以解释一下CoNLL数据格式吗?

43得票7回答
在R中检测文本语言

我有一份推文列表,我想只保留英语的那些。 我该怎么做?

37得票1回答
使用Sklearn的TfidfVectorizer进行转换

我试图使用Sklearn的TfidfVectorizer对象获取单个文档的tf-idf向量。我基于一些训练文档创建了一个词汇表,并使用fit_transform来训练TfidfVectorizer。然后,我想要找到任何给定测试文档的tf-idf向量。from sklearn.feature_e...

36得票14回答
R tm软件包中“utf8towcs”输入无效。

我正在尝试使用R中的tm包进行一些文本分析。我尝试了以下内容: require(tm) dataSet <- Corpus(DirSource('tmp/')) dataSet <- tm_map(dataSet, tolower) Error in FUN(X[[6L]], ....

32得票4回答
R-Project中没有适用于“meta”的方法,该方法应用于类“character”的对象。

我正在尝试运行这段代码(Ubuntu 12.04,R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single ...

30得票3回答
如何使用word2vec找到最接近向量的单词

我刚开始使用Word2vec,想知道如何找到最接近一个向量的单词。 我有一个向量,它是一组向量的平均向量:array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32) 有没有一种简单直接的方法来找到与这个向量在我训练数据中最...

28得票8回答
大规模机器学习

我需要在一个非常大的数据集(10-100亿条记录)上运行多种机器学习技术,主要问题围绕文本挖掘/信息提取展开,包括各种核技术,但不仅限于此(我们使用了一些贝叶斯方法、自助法、梯度提升、回归树——许多不同的问题和解决方法)。 哪种是最好的实现方式呢?我在机器学习方面有经验,但对如何处理巨大数据...