我正在做一个项目,需要从文本文件(.doc)中提取名词、形容词、名词短语和动词。我有大约75个这样的文件。我在网络上查找相关信息时发现了使用Python中的nltk进行POS标记。由于我的项目是使用Visual Studio 2008中的C#编写的,因此我需要一段代码来完成这项任务。我尝试过使用WordNet API和SharpNLP,但由于我是新手,所以发现它们很难与我的项目集成。请问是否有更简单的代码可以使用类似词汇表等方式来实现?谢谢。
我曾在一家行业领先的公司从事自然语言处理(NLP)工作,你想做的并不是一项简单的任务。我认识nltk
的其中一位创建者,并且我自己也使用过它;这是一个高质量的开源工具,我建议你使用它(你有特别引人注目的原因要使用C#吗?)
通常通过对手动注释的数据进行语言模型的训练来实现POS标记,然后将该模型应用于新文本,预测词性并给出置信度。 nltk
有些工具可以做到这一点,他们还有一些模型(如果我没记错的话)。
你会发现大多数工具都是用C++、Java和Python编写的。如果你不懂这些语言,那么看这个作为一个学习的好机会!
有关更多信息和其他可用于此类标记的软件,请参见Wikipedia,特别是底部的链接。
请仔细阅读本文。
将SharpNLP与C# Visual Studio项目轻松集成的方法
在本文中,我提供了一种逐步将SharpNLP与C#项目集成的方式,并提供了样例代码片段来特别解决您遇到的问题,如句子拆分、标记化和POSTagging。
试试这个方法,如果您遇到任何问题,我将能够帮助您。