我正在开发一个单词游戏。我的单词数据库包含大约10,000个英文单词(按字母顺序排序)。我计划在游戏中有5个难度级别。第1级显示最简单的单词,第5级则相对较难。
我需要将这个长达10,000个单词的列表分成5个级别,从最简单的单词到最困难的单词。我正在寻找一个程序来帮助我完成此任务。
有人能告诉我是否有一种算法或方法可以定量衡量英语单词的难度吗?
我考虑使用“单词长度”和“单词频率”作为因素,并想出一个公式或类似的东西来完成此任务。
我正在开发一个单词游戏。我的单词数据库包含大约10,000个英文单词(按字母顺序排序)。我计划在游戏中有5个难度级别。第1级显示最简单的单词,第5级则相对较难。
我需要将这个长达10,000个单词的列表分成5个级别,从最简单的单词到最困难的单词。我正在寻找一个程序来帮助我完成此任务。
有人能告诉我是否有一种算法或方法可以定量衡量英语单词的难度吗?
我考虑使用“单词长度”和“单词频率”作为因素,并想出一个公式或类似的东西来完成此任务。
获取大量文本语料(例如从古腾堡档案馆),进行直接频率分析并检查结果。如果结果不令人满意,则使用其Flesch-Kincaid得分对每个文本进行加权处理,然后再次运行分析 - 在“困难”的文本中频繁出现的单词将获得得分提升,这正是所需的。
但是,如果您只有10000个词,那么只进行频率排序作为第一步通常会更快,并且可以手动调整结果。
我不理解频率是如何被使用的...如果你浏览一份报纸,我确定你会看到单词"thoroughly"比单词"bop"或者"moo"出现的频率要高得多,但这并不意味着它更容易;相反,“thoroughly”是最令小学生感到噩梦的拼写异常之一...
试着向一个学习英语作为第二语言的正常人解释slaughter和laughter之间微妙的区别。
众包答案。
甚至可能很有趣,您可以在最后得到一份语言熟练度评分。
我认为使用频率是最可能的度量标准;有研究支持单词频率和难度(测试的正确回答等)之间存在高度相关性。请查看英语词汇项目,其中包含约70k个频率评级的单词:http://elexicon.wustl.edu/
有几个因素与单词难度相关,包括习得年龄、形象性、具体性、抽象性、音节、频率(口语和书面语)。还有一些心理语言学数据库可以根据这些因素中的至少一些搜索单词。(只需搜索“心理语言学数据库”即可。)
词频是一个明显的选择(当然不是完美的)。您可以在这里下载谷歌n-grams V2 链接, 这是根据创作共用署名3.0未本地化许可证授权。
格式: ngram TAB 年份 TAB 匹配次数 TAB 页面数量 TAB 体积数量 NEWLINE
示例:
使用的语料库(来自Lin, Yuri等人。 "谷歌图书ngram语料库的句法注释。" ACL 2012系统演示会议论文集。计算语言学协会,2012年。):
难度是一个相当模糊的概念。如果你不清楚自己想要什么,也许可以看一下Porter Stemming Algorithm(例如参考原始论文)。该算法通过将单词定义为形式为[C](VC){m}[V]
的形式来包含更高级别的“长度”概念;其中C表示辅音块,V表示元音块,该定义表明一个单词是可选的C后跟m个VC块,最后是可选的V。这里的m值就是这种高级“长度”。
根据游戏类型,“难度”的定义会有所不同。如果你的游戏需要快速打字(类似ztype),那么“难度”将与需要定义单词含义的游戏中的意思不同。
话虽如此,Scrabble有一种衡量单词“难度”的方法,这也很容易进行算法处理。
此外,您可以考虑根据您的游戏来定义“难度”。您可以对游戏进行测试,并根据玩家在您自己的游戏环境中发现的单词“难度”分类。