.dic 行格式定义

8
我目前正在调查在我正在构建的应用程序中使用的最合适的字典。 检查Sublime Text 2捆绑的词典时,文件格式像您所期望的那样是按字母顺序排列的单词列表。然而,许多单词附加有其他信息。以此片段为例:
abaft
abbreviation/M
abdicate/DNGSn
Abelard/M
abider/M
Abidjan
ablaze
abloom
aboveground
abrader/M
Abram/M
abreaction/MS
abrogator/MS
abscond/DRSG
absinthe/MS
absoluteness/S
absorbency/SM
abstract/ShTVDPiGY
absurdness/S

在无果的谷歌搜索中,没有任何线索表明斜杠后面的字母(/)代表了什么意思。

也许它们暗示该词的性别,但这只是一个猜测,我更喜欢阅读官方解释。

有人遇到过这些吗?

2个回答

7
斜杠后面的字母被称为词缀。这些编码可以是前缀或后缀,可应用于词根。
请参见此博客文章,了解这些词缀的用途及示例。
另一个查看的地方是aspell手册,请点击这里

6
TLDR:在 .aff 文件中,斜杠后面的每个字母都是一个规则的名称,对应于 .dic 文件中的每个单词。

https://superuser.com/a/633869/367530


每种语言的规则都在对应的 .aff 文件中。规则分为两种类型:后缀 SFX 和前缀 PFX。每行以 PFX/SFX 开头,然后是规则字母标识符(在字典文件中跟随单词的那些字母):
PFX [规则字母标识符] [可组合标志] [后面跟随的规则行数]
通常可以忽略可组合标志,它是 Y 或 N,取决于它是否可以与其他规则组合。然后有一些行(由括号表示),列出了不同情况下此规则适用的不同可能性。它看起来像这样:
PFX [规则字母标识符] [要删除的字母数] [要添加的内容] [何时添加]
例如:
SFX B Y 3 SFX B 0 able [^aeiou] SFX B 0 able ee SFX B e able [^aeiou]e 如果 B 是单词后面的一个字母,即 someword/B,则这是可以应用的规则之一。有三种可能发生(因为有三行)。只会应用其中一种:
当单词结尾不是集合中的一个字母(由 [ ] 表示)a、e、i、o 和 u(由 ^ 表示)时,在结尾处添加 able。例如,question → questionable。
当单词结尾是 ee 时,在结尾处添加 able。例如,agree → agreeable。
当单词结尾不是元音字母([^aeiou])后跟一个 e 时,在结尾处添加 able。字母 e 被删除(在 able 前的列)。例如,excite → excitable。
PFX 规则相同,但适用于单词前缀。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接