我正在寻找词典源文件格式以及相关工具。

3
我正在寻找一个字典源文件格式,方便在通用文本编辑器(我使用Emacs)中进行编辑,并可以存储在版本控制下(并允许轻松合并)。
这样我就可以与其他人分享我的字典工作了。
如果没有支持将dict源转换为索引形式以供使用字典软件文件格式的工具,则该文件格式无法使用。
作为客户端字典软件,我使用GoldenDict:http://goldendict.org/dictionaries.php,它了解许多索引字典文件格式,但如果您建议,我会切换到另一个软件。
以前我使用TAB格式(StarDict的原始文件格式,转换为.dict.dz/.idx/.ifo)。它很丑陋!每个单词定义必须保持在单独的一行,并且单词与定义之间由TAB分隔。看:
be be [] (inf.)\n was/were [] (past ind.)\n been [] (past part.)\n (infinitive) быть, нести, родить
接下来,我尝试使用Dictd文件格式。它好多了: $ cat my.txt ... adj. adjective [ˈæʤɪktɪv] adj. adjective прилагательное $ dictfmt -f \ --utf8 --allchars --case-sensitive \ -s 'Usual dictionary abbreviations.' \ my <my.txt
我还知道http://xdxf.sourceforge.net/。但是深入研究表明这是一个死项目。并有两个显着的遗漏:
- 很难用带噪声的XML排版写文章 - 没有工具将源转换为可用的字典(您只能将其转换为其他源格式,然后生成可用的字典...)
我正在寻找更好的解决方案...
为什么?我正在学习外语,想创建一个已学单词的字典以便复习和进一步使用。
此外,我参与了开源软件项目手册和自由书籍的翻译,并希望维护术语列表,以便创建的字典可以在翻译人员之间共享,以保持一致的翻译。
1个回答

2

我认为stardict的TAB文件很蠢。

目前,我使用字典中的-c5格式(我给http://sourceforge.net/projects/dict/开发者发了邮件,他说这是更合适、推荐的格式):

  $ dictfmt -c5 --headword-separator '; ' --break-headwords \
  --utf8 --allchars --case-sensitive \
  --mime-header 'Content-Type: text/html' \
  -s 'Usual dictionary abbreviations.' -u http://gavenkoa.users.sourceforge.net/ \
  ${prefix_for_output} <${input}

用于文章:

_____
adj.; 形容词
[ˈæʤɪktɪv] adj. adjective прилагательное
_____
adv.; 副词
[] adv. adverb наречие

GoldenDict的作者推荐使用Abby Lingvo DSL富文本格式,它允许进行加粗/斜体、颜色等格式设置。要获取描述,请使用Lingvo分发的Lingvo0.chm。例如:

chat
  [m1][p][i][c][com]m[/com][/c][/i][/p][/m]
  [m1][trn]猫,母猫;[/trn][/m]
  [m2][*][ex][lang id=4]Chat botté[/lang] — 穿靴子的猫;[/ex][/*][/m]
  [m2][*][ex][lang id=4]jouer à chat perché[/lang] — 玩捉迷藏[/ex][/*][/m]

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接