得票数最多 'text-mining' 问题 - 第6页 - Dev59

关联标签

12得票2回答

如何使用OpenNLP和stringi检测句子边界？

我想将下一个字符串分成句子：library(NLP) # NLP_0.1-7 string <- as.String("Mr. Brown comes. He says hello. i give him coffee.") 我想演示两种不同的方法。其中一种来自openNLP软件包：...

regexrtext-miningopennlpstringi

11得票1回答

一种用于在一组消息中识别“关键词”的算法（或C#库）？

我想为消息论坛中的每个消息建立一个包含大约6个关键词（或更好的是：几个单词的关键短语）的列表。关键词的主要用途是在某些情况下替换主题行。例如：来自Terry的消息，发送于12月5日，关键词：挪威蓝色、羽毛、未死亡在理想的情况下，关键词将识别出唯一的短语和聚类讨论的“主题”短语，即与所讨...

c#algorithmsearchnlptext-mining

11得票3回答

逗号分隔的字符串中元素的数量统计

我正在处理如下文本字符串： LN1 2DW, DN21 5BJ, DN21 5BL, ... 在Python中，我该如何计算逗号之间的元素数？每个元素可以由6、7或8个字符组成，在我的示例中显示了3个元素。分隔符始终为逗号。我以前从未做过任何与文本挖掘相关的事情，所以这将是我入门的开始。

pythontexttext-mining

11得票3回答

从德语文本中使用nltk提取单词

我正在尝试从一份德语文件中提取单词，当我按照nltk教程中描述的以下方法时，无法获取具有特定语言特殊字符的单词。ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*'); words = nltk.Text(ptcr.words(Docume...

pythonnlpnltktext-mining

11得票2回答

使用tm包进行文本挖掘-词根提取

我在使用R中的tm包做一些文本挖掘工作。一切都很顺利。但是，在提取词干后，出现了一个问题（http://en.wikipedia.org/wiki/Stemming）。显然，有一些单词具有相同的词干，但重要的是它们不应该被“合并”（因为这些单词有不同的含义）。例如，看下面的4个文本。在这里...

11得票5回答

tm：读取数据框，保留文本ID，构建DTM并与其他数据集连接。

我正在使用tm包。假设我有一个由2列组成、500行的数据帧。第一列是ID，其中包含随机生成的字符和数字："txF87uyK" 第二列是实际文本："今天的天气很好。约翰去慢跑。啥啥啥，..." 现在我想从这个数据帧中创建一个文档-词项矩阵。我的问题是我想保留ID信息，以便在得到文档-...

11得票7回答

可视化文本之间的距离

我正在为学校的一个研究项目工作。我编写了一些文本挖掘软件，用于分析一组法律文本，并生成一个指示它们相似程度的分数。我运行程序以将每个文本与其他所有文本进行比较，并获得了类似以下数据（尽管还有更多数据点）:codeofhammurabi.txt crete.txt 0.570737 c...

rmatlabgraphdistancetext-mining

11得票2回答

信息抽取和文本挖掘有什么区别？

这可能看起来很简单，但我感到困惑。文本挖掘和信息抽取有什么区别？

nlpinformation-retrievaltext-mininginformation-extraction

11得票3回答

如何从R访问维基百科？

有没有适用于R的软件包，可以使用Mediawiki API查询维基百科，以获取与查询相关的可用文章列表，并导入选定的文章进行文本挖掘呢？

rwikipediatext-miningwikipedia-apimediawiki-api

11得票2回答

如何使用Gensim获取LDA模型的最佳主题数？

我正在尝试在Gensim中获取LDA模型的最佳主题数量。我发现的一种方法是计算每个模型的对数似然，并将其与其他模型进行比较，例如在使用潜在狄利克雷分配的输入参数上。因此，我研究了如何使用Gensim计算LDA模型的对数似然，并找到了以下帖子：如何估计潜在狄利克雷分配模型的α参数？它基...

pythontext-miningldagensimtopic-modeling