我正在开发一个项目,需要扫描英语自然文本段落并检测它们是哪种类型的单词。该应用程序使用AJAX、PHP和MySQL。
我的应用程序不需要100%准确,只需尝试找到与文本输入最匹配的内容。为此,我使用了WordNet数据库的SQL版本,可以使用“dict”视图搜索单词及其类型。
上面是数据库看到的一个示例,但我的PHP实际上基于来自AJAX调用的文本创建动态绑定参数,并且实际上将包含许多关键字。
这将返回一个记录数组,其中包含每个搜索的单词及其类型。
然而,我的问题是大多数单词可以是多种类型,例如,在"fool"的例子中,它将三个作为名词和四个作为动词返回。对我来说,微小的差异并不需要,但我想知道这个单词在使用中是名词还是动词。
这个问题存在于大多数单词中,这意味着我无法准确检测不同类型的单词,因为它可能是任何一种用法。
我想知道是否有人能指引我一个算法或者我能够做些什么来至少最好猜测出单词类型。
最重要的是要正确获取形容词和名词。
我的应用程序不需要100%准确,只需尝试找到与文本输入最匹配的内容。为此,我使用了WordNet数据库的SQL版本,可以使用“dict”视图搜索单词及其类型。
SELECT lemma, pos FROM dict WHERE lemma = 'fool' ORDER BY lemma;
上面是数据库看到的一个示例,但我的PHP实际上基于来自AJAX调用的文本创建动态绑定参数,并且实际上将包含许多关键字。
这将返回一个记录数组,其中包含每个搜索的单词及其类型。
然而,我的问题是大多数单词可以是多种类型,例如,在"fool"的例子中,它将三个作为名词和四个作为动词返回。对我来说,微小的差异并不需要,但我想知道这个单词在使用中是名词还是动词。
这个问题存在于大多数单词中,这意味着我无法准确检测不同类型的单词,因为它可能是任何一种用法。
我想知道是否有人能指引我一个算法或者我能够做些什么来至少最好猜测出单词类型。
最重要的是要正确获取形容词和名词。