12得票2回答
如何使用OpenNLP和stringi检测句子边界?

我想将下一个字符串分成句子:library(NLP) # NLP_0.1-7 string <- as.String("Mr. Brown comes. He says hello. i give him coffee.") 我想演示两种不同的方法。其中一种来自openNLP软件包:...

11得票1回答
一种用于在一组消息中识别“关键词”的算法(或C#库)?

我想为消息论坛中的每个消息建立一个包含大约6个关键词(或更好的是:几个单词的关键短语)的列表。 关键词的主要用途是在某些情况下替换主题行。例如:来自Terry的消息,发送于12月5日,关键词:挪威蓝色、羽毛、未死亡 在理想的情况下,关键词将识别出唯一的短语和聚类讨论的“主题”短语,即与所讨...

11得票3回答
逗号分隔的字符串中元素的数量统计

我正在处理如下文本字符串: LN1 2DW, DN21 5BJ, DN21 5BL, ... 在Python中,我该如何计算逗号之间的元素数?每个元素可以由6、7或8个字符组成,在我的示例中显示了3个元素。分隔符始终为逗号。 我以前从未做过任何与文本挖掘相关的事情,所以这将是我入门的开始。

11得票3回答
从德语文本中使用nltk提取单词

我正在尝试从一份德语文件中提取单词,当我按照nltk教程中描述的以下方法时,无法获取具有特定语言特殊字符的单词。ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*'); words = nltk.Text(ptcr.words(Docume...

11得票2回答
使用tm包进行文本挖掘-词根提取

我在使用R中的tm包做一些文本挖掘工作。一切都很顺利。但是,在提取词干后,出现了一个问题(http://en.wikipedia.org/wiki/Stemming)。显然,有一些单词具有相同的词干,但重要的是它们不应该被“合并”(因为这些单词有不同的含义)。 例如,看下面的4个文本。在这里...

11得票5回答
tm:读取数据框,保留文本ID,构建DTM并与其他数据集连接。

我正在使用tm包。 假设我有一个由2列组成、500行的数据帧。 第一列是ID,其中包含随机生成的字符和数字:"txF87uyK" 第二列是实际文本:"今天的天气很好。约翰去慢跑。啥啥啥,..." 现在我想从这个数据帧中创建一个文档-词项矩阵。 我的问题是我想保留ID信息,以便在得到文档-...

11得票7回答
可视化文本之间的距离

我正在为学校的一个研究项目工作。我编写了一些文本挖掘软件,用于分析一组法律文本,并生成一个指示它们相似程度的分数。我运行程序以将每个文本与其他所有文本进行比较,并获得了类似以下数据(尽管还有更多数据点):codeofhammurabi.txt crete.txt 0.570737 c...

11得票2回答
信息抽取和文本挖掘有什么区别?

这可能看起来很简单,但我感到困惑。 文本挖掘和信息抽取有什么区别?

11得票3回答
如何从R访问维基百科?

有没有适用于R的软件包,可以使用Mediawiki API查询维基百科,以获取与查询相关的可用文章列表,并导入选定的文章进行文本挖掘呢?

11得票2回答
如何使用Gensim获取LDA模型的最佳主题数?

我正在尝试在Gensim中获取LDA模型的最佳主题数量。 我发现的一种方法是计算每个模型的对数似然,并将其与其他模型进行比较,例如在使用潜在狄利克雷分配的输入参数上。 因此,我研究了如何使用Gensim计算LDA模型的对数似然,并找到了以下帖子:如何估计潜在狄利克雷分配模型的α参数? 它基...