WordNet是一个超级酷的词库数据库。我一直在研究它。我将列出我的发现-希望能帮助您更好地理解表格。
同义词集表
同义词集表是数据库中最重要的表之一。它负责存储WordNet内所有定义。同义词集表中的每一行都有一个synsetid,一个definition,一个pos(词性字段)和一个lexdomainid(它链接到lexdomain表)
WordNet数据库中有117373个同义词集。
单词表
WordNet还有一个“单词”表,只有两个字段:wordid和“lemma”。该单词表负责存储Wordnet数据库中所有基本词元(lemmas)。
该表中有146625个条目。
那么...这两个表如何关联?答案是sense表!
sense表
sense表负责将单词表中的单词与同义词集表中的定义链接在一起。
sense表中的条目被称为“单词意义对”-因为每个wordid与synset的配对都是一个单词的完整含义-一个“单词的意义”。
WordNet数据库中共有206354个单词意义。
词汇域表
词汇域表由sense表引用,用于定义单词意义对所属的词汇域。lexdomain表中有45个词汇域。
因此,lexdomain表是WordNet“标记”单词意义对的方法。但是,它相当有限,因为一个单词意义对只能属于一个词汇域。
这45个词汇域包括:
形容词:
全部、相关
副词
全部
名词
名词
tops,act,动物,人造物品,属性,身体,认知,沟通,事件,感觉,食物,群体,位置,动机,物体,人物,现象,植物,所有权,过程,数量,链接定义,形状,状态,物质,时间,
动词
身体,变化,认知,沟通,竞争,消费,接触,创造,情感,运动,感知,拥有,社交,静态,天气,人类
大小写单词表
单词表中的某些单词自然具有首字母大写,例如“A-team”。由于单词表将所有单词存储为小写,WordNet使用此表来指定单词的大写版本。
该表中有40313个条目。
WordNet数据库中还有许多其他表格,研究完后我会再次发布。
查找同义词
要查找同义词-您需要执行以下操作。
假设您想查找单词“Carry”的同义词。为了这样做,您首先要在单词表中搜索与单词“carry”匹配的引理。这将产生wordid 21253。然后,您需要搜索感官表,以查找所有单词感官对,以查找“carry”一词的同义词。这产生了41个结果-每个结果列出了wordid 21253和senseid(它是单词感官对的索引)和synsetid。
现在,您需要查询每个返回的synsetid的synset表,以便可以访问synset表中的相关定义字段。
最后,要查找所列出的每个synset的同义词,您只需搜索感官表,以查找共享相同synset的其他单词感官对即可。
例如:
单词“carry”的41个单词感官对之一如下所示:
如果我们查找此synsetid 202083512的定义,您将找到“传输或作为传输介质服务”
要找到该定义的所有同义词,您可以搜索与synsetid 202083512相同的sense表。这将得出以下同义词:channel、conduct、convey、impart和transmit(注意:您需要左连接words表才能获取实际的引理)。
我希望这能为您解密WordNet...我发现它非常酷...