自然英语语言单词

22
我需要最全面的英文单词列表,以进行多种语言处理操作,但我在互联网上找不到足够高质量的资源。
英语语言包括外来词和/或技术术语,共有100万个单词。
请问您能否推荐这样的来源(或接近50万个单词),可以从互联网下载,并且可能有一定分类?您用于语言处理应用程序的输入是什么?

1
如果你的字典有一百万个单词,那么常见单词的拼写错误很可能会被误认为是某个罕见的单词。这可能会影响这样一个大型字典的实用性。 - Adam Bellaire
@Germstorm:你从哪里得到这个一百万的数字?你有具体的参考资料吗,还是只是谣言? - S.Lott
我只是在某个地方听到过,我无法验证。 - Germstorm
6个回答

28

Kevin的单词列表是我知道的最好的单词列表,适用于列举单词。

WordNet更适合了解事物是名词、动词等,同义词等方面的内容。


我以前用过Kevin的列表。我将它们合并在一起,得到一个巨大的列表,这样我就可以从给定的字符集生成所有可能的单词。 - dotjoe
@dotjoe,现在他们有一个不错的网页界面,可以为您完成这项工作(: - drevicko

8

4
我曾为普渡大学进行过控制/自然英语和语言领域知识处理的研究。
你可以看一下Attempto项目:http://attempto.ifi.uzh.ch/site/description/,这是一个帮助构建控制自然英语的项目。
你可以下载他们的整个单词词典:http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip,其中包含约10万个自然英语单词。
你还可以提供自己领域特定单词的词典,这是我们在研究中所做的。他们提供Web服务来解析和格式化自然英语文本。

3

谁告诉你英语有一百万个单词?根据维基百科,牛津英语词典只收录了60万个单词。而且牛津英语词典试图包括所有使用的技术术语和俚语。


1
朋友之间的二次幂是什么? - zaratustra
英语是一种合成语言。我也听说过1M的数字,通常作为你可以即兴创造的单词数量的下限。 - rmeador

2

0

编程相关内容:基础单词不是很多(根据牛津的数据,只有171k个)。这也是我在大学计算机科学专业听到的。但如果包括所有单词形式,数量就会大大增加。

既然如此,为什么不自己制作一个呢?获取维基百科的转储文件并解析它,创建遇到的所有标记的集合。

不过要注意拼写错误,因为众包的事物总会存在错误。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接