得票数最多 'text-mining' 问题

关联标签

351得票7回答

"熵和信息增益"是什么？

我正在阅读这本书(NLTK)，但有些晦涩难懂。在该书中，Entropy被定义为: 熵是每个标签的概率乘以该标签对数概率之和我如何在文本挖掘领域应用熵(entropy)和最大熵(maximum entropy)？能否给出一个简单易懂的示例（可视化）？

mathtextcomputer-sciencenltktext-mining

87得票1回答

使用多个核心时，tm_map转换函数的行为不一致

这篇文章的另一个潜在标题可能是“当使用R进行并行处理时，核心数量、循环块大小和对象大小的比例是否重要？" 我正在使用tm包对一个语料库进行一些转换。由于语料库很大，我正在使用doparallel包进行并行处理。有时候转换可以完成任务，但有时候却不能。例如，tm::removeNumber...

rparallel-processingtext-miningtmdoparallel

68得票2回答

如何使用Python结合正则表达式和字符串/文件操作在文本文件中搜索模式并存储模式的实例？

所以本质上我正在寻找一个文本文件中两个尖括号内的4位代码。我知道我需要打开文本文件然后逐行解析，但是我不确定在检查“for line in file”之后如何构建我的代码结构。我认为我可以通过某种方式进行拆分、剥离或者划分，但是我还编写了一个正则表达式，我使用compile对其进行了编译，...

pythonregexfile-iotext-miningstring-parsing

67得票2回答

CoNLL数据格式是什么？

我正在使用一个开源的jar包（Mate Parser），它在依存分析后以CoNLL 2009格式输出。我想要利用这些依存分析结果进行信息提取，但是我只理解CoNLL数据格式中的一部分内容。有人可以解释一下CoNLL数据格式吗？

nlptext-parsingtext-mininginformation-extraction

43得票7回答

在R中检测文本语言

我有一份推文列表，我想只保留英语的那些。我该怎么做？

rtext-mining

37得票1回答

使用Sklearn的TfidfVectorizer进行转换

我试图使用Sklearn的TfidfVectorizer对象获取单个文档的tf-idf向量。我基于一些训练文档创建了一个词汇表，并使用fit_transform来训练TfidfVectorizer。然后，我想要找到任何给定测试文档的tf-idf向量。from sklearn.feature_e...

pythondocumenttext-miningtf-idf

36得票14回答

R tm软件包中“utf8towcs”输入无效。

我正在尝试使用R中的tm包进行一些文本分析。我尝试了以下内容： require(tm) dataSet <- Corpus(DirSource('tmp/')) dataSet <- tm_map(dataSet, tolower) Error in FUN(X[[6L]], ....

rutf-8iconvtext-mining

32得票4回答

R-Project中没有适用于“meta”的方法，该方法应用于类“character”的对象。

我正在尝试运行这段代码（Ubuntu 12.04，R 3.1.1） # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single ...

rtext-miningtm

30得票3回答

如何使用word2vec找到最接近向量的单词

我刚开始使用Word2vec，想知道如何找到最接近一个向量的单词。我有一个向量，它是一组向量的平均向量：array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32) 有没有一种简单直接的方法来找到与这个向量在我训练数据中最...

pythontext-miningdata-analysisword2vec

28得票8回答

大规模机器学习

我需要在一个非常大的数据集（10-100亿条记录）上运行多种机器学习技术，主要问题围绕文本挖掘/信息提取展开，包括各种核技术，但不仅限于此（我们使用了一些贝叶斯方法、自助法、梯度提升、回归树——许多不同的问题和解决方法）。哪种是最好的实现方式呢？我在机器学习方面有经验，但对如何处理巨大数据...

javac++machine-learningmapreducetext-mining