WordNet中的名词同义词

4

我想在Elasticsearch索引中使用同义词token过滤器。我下载了WordNet 3.0的Prolog版本,并找到了Elasticsearch可以理解的wn_s.pl文件。然而,该文件似乎包含各种单词和短语的同义词,而我真正感兴趣的只是支持名词的同义词。有没有办法提取这些类型的条目?


你是在问是否有一台计算机可以判断一个单词是否为名词吗?能否提供一些例子... - ramseykhalaf
不,我的问题是是否有一种方法可以减小文件的大小,使得只有名词保留下来。例如,如果我搜索“宇宙”(名词),与“宇宙”相关的结果将成为命中的一部分,但如果我搜索“学习”(动词),仅包含单词“学习”的结果将不会成为命中的一部分。 - flamecto
一个你正在使用的代码示例会很有帮助! - arturomp
1个回答

9

考虑到wn_s.pl的格式是

s(112947045,1,'usance',n,1,0).
s(200001742,1,'breathe',v,1,25).

一个非常原始的方法是在终端中执行以下内容,以仅获取包含',n,'字符串的文件行。

grep ",n," wn_s.pl > wn_s_nouns_only.pl

文件wn_s_nouns_only.pl仅包含标记为名词的条目。


2
哦,是啊!我怎么没想到这个。谢谢!你还可以用grep ",n," wn_s.pl > wn_s_nounsOnly.pl,这是一个稍微更短的版本。 - flamecto

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接