NLP: 使用lemmaGen c++进行词形归并

4
我正在改进一个聊天机器人,希望能找到输入句子中单词的词干。这个聊天机器人是用C++编写的,我找到了一个免费的开源词干生成工具LemmaGen。我已经下载了2.2版本的C++版,但它没有文档说明如何引用或使用它。
过去有没有人使用过LemmaGen来进行C++编程?任何信息都将非常有帮助。 非常感谢。

词形还原是一项具有挑战性的任务。 - alvas
你成功地使用过C++的lemmaGen吗?我目前也遇到了同样的问题。我可以邀请你来回答吗?在这里:http://stackoverflow.com/questions/37151476/how-to-use-lemmatisation-lemmagen-in-c?noredirect=1#comment61841682_37151476 - HappyCoding
1个回答

2

我没有使用c++版本,但是我使用了C#版本。在C#中使用LemmaGen很简单且非常直观。首先,你需要使用模型文件的参数初始化类型为Lemmatizer的对象,然后可以调用其公共方法来将表示为字符串的单词进行词形还原。因此,你只需将文本标记化,然后逐个对每个标记进行词形还原。该方法返回代表输入单词词元的字符串。

我猜C++版本的使用方式也类似。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接