从日语源推算英语翻译单词数量的算法

4
我正在尝试想出一种方法来估算从日语翻译成英语后的单词数。日语有三种主要的书写方式——汉字平假名片假名,每种书写方式都有不同的平均字符对单词比率(汉字最低,片假名最高)。 示例:
  • computer: コンピュータ (片假名 - 6个字符); 計算機 (汉字:3个字符)
  • whale: くじら (平假名 - 3个字符); 鯨 (汉字:1个字符)
作为数据,我有一个包含大量日语单词及其英语翻译的词汇表,以及相当数量的匹配日语源文件及其英语翻译。我想找到一个公式,用于计算源文本中汉字、平假名和片假名字符的数量,并估计这可能转化为多少英语单词。
7个回答

3
以下是关于英语到非英语的Borland(现在是Embarcadero)的看法:
长度以字符为单位的英语字符串。 (链接)
Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

我认为你可以将这种方法(稍作修改)应用于非日本人的日语学习中。

另一个需要考虑的因素是语言的语气。在英语中,指令是用祈使句构成的,例如“按OK键”。但在日语中,祈使句被认为是粗鲁的,你必须使用尊敬语(或敬语),例如“请按下OK按钮”。

注意三个汉字组合。许多大型词语都由三个或四个汉字组成,例如“国际化”(20个字符), “高可用性”(17个字符)。


我并不是吹毛求疵,但我认为你会想知道“押してください”并不是敬语,只是礼貌用语。 - Mike Sickler
@mikemacman,我在广义上使用尊称一词,包括敬语的三种形式,包括尊敬语、谦虚语和丁寧语:http://ja.wikipedia.org/wiki/敬語 - Eugene Yokota
根据软件而定;在iTunes和Safari等应用程序中,我看到很多的“すること”或者直接使用“して”。当然,这通常会与大量的“〜させていただきます”结合使用。 - Don Werve
“OKボタンを押してください。”的大致字面翻译是什么?它是谄媚的,比如“绅士应该考虑按下OK按钮”,还是只是冗长的,“为了获得所需的结果,重要的是用户能够按下标签包含OK的按钮”? - Ed Griebel
@Ed Griebel,字面翻译是“请按下确定按钮。”就像我在答案中写的那样,在英语中,你应该用简洁明了的方式表达指示。而在日本文化中,你必须礼貌地询问用户。这种语气上的差异可能会显著影响比例。 - Eugene Yokota

1
作为一名翻译和本地化专家,我的经验是,一个好的经验法则是每个英文单词2个日语字符。

1

嗯,这比名词中字符数与英语相比要复杂一些,例如日语与英语相比也有不同的语法结构,因此某些句子在日语中会使用更多单词,而其他句子则会使用较少单词。我不太懂日语,请原谅我用韩语作为例子。

在韩语中,一个句子通常比英语句子短,主要是通过使用上下文来省略掉一些词语。例如,“我爱你”可以简化为“사랑해”(仅仅是动词“爱”),或者是完整的句子“저는 당신을 살앙해요”(我[主题] 你[宾语] 爱[动词+礼貌修饰词])。在一段文本中,如何书写取决于上下文,通常由段落前面的句子设置。

总之,实际上了解这种情况的算法非常困难,所以您最好使用统计数据。您应该使用已知的日语和英语文本具有相同含义的随机样本。样本越大(且越随机),就越好...尽管如果它们是真正随机的,那么过几百个后数量对结果影响不大。

现在,另一件事是这个比率会完全根据被翻译的文本类型而改变。例如,高度技术性的文件很可能具有比肉麻小说更高的日语/英语长度比。

至于仅使用您的单词翻译字典-那可能不太好用(并且可能是错误的)。同一个单词在不同语言中并不总是翻译成相同的单词(尽管在技术讨论中更有可能发生)。例如,美丽这个词。我可以在韩语中为它分配不止一个单词(即有选择),但有时我失去了选择,比如在句子“那食物很美味”中,我不是指食物看起来好看,而是指它的味道好,我的翻译选项就会改变。这是非常普遍的情况。

另一个大问题是最佳翻译。这是人类真正擅长的事情,也是计算机远远不如人类的事情。每当我校对从其他语言翻译成英语的文件时,我总能看到各种方法来缩短它。

因此,尽管通过统计数据,您将能够计算出翻译之间长度的相当不错的平均比率,但这将远远不同于如果所有翻译都是最佳的情况。


1
我会从线性逼近开始:approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3,其中系数a1、a2、a3通过使用线性最小二乘法从您的数据中拟合得出。
如果这个逼近不太好,那么就看看最差的情况,找出原因(专业术语等)。

我认为只有针对特定的翻译者才可能做到这一点,因为他们的语言/写作模式可能更加可预测。 - Elijah

1
作为一名有经验的日英翻译,我可以说这是极其难以量化的。但通常根据我的经验,在将日语翻译成英语时,英文字符数几乎是源文本的200%。在日语中,有许多文化特定的短语和名词,无法直接翻译,需要用英语解释。
在翻译过程中,我通常会将一个日语句子转化为一个英语段落,以便向读者传达意思。以下是一个例子:
「懐かしい」
这个字面上的意思是“怀旧”。然而,在日语中,它可以用作一个感叹词。但是,在英语中,为了传达怀旧的感觉,我们需要更多的上下文。例如,您可能需要将这个短语转化为一个完整的句子:
“当我走过我旧的小学时,我被过去的回忆淹没了。”
这就是为什么机器翻译日英之间是不可能的原因。

2
非常正确,但并非不可能。您只需要一个足够大的数据库和足够快的处理器将其全部哈希在一起。如果人类可以做到,机器也可以。 - user224579

0

看起来很简单 - 你只需要找出比例。

对于每个脚本,计算你的词汇表中脚本字符和英文单词的数量,并计算比率。

如果你能够检测出日语单词所在的脚本以及翻译中相应的英文短语,就可以使用日语源文件进行增强。否则,你将不得不估算比率或忽略它作为源数据,

然后,像你说的那样,计算源文本每个脚本中的单词数,进行乘法计算,你应该会得到一个粗略的估计。


0

我的(虽然很小的)经验表明,无论使用什么语言,文本块传达相同的信息需要占用相同的印刷空间。因此,对于一个相对较大的文本块,你可以为每个英文字母分配宽度计数(从像 Times New Roman 这样的常用字体中获取),同样地,使用相同点数的常见日文字体来计算所需的字符数量。


本地化中常见的一种启发式方法是估计翻译需要增加10-20%的空间,因为您想要精确,所以通常必须重新表达在源语言中简洁但在目标语言中根本不存在的习语。当然,有时候你会很幸运,能够用非常紧凑的表达方式翻译某些个别短语。具体比例可以在您拥有特定领域和语言对的现有统计数据后更好地估计。 - tripleee
CJK文本通常更加紧密,因为字形相应地更加复杂;中文比日文更甚,后者添加了许多语法标记,而韩文基本上是一个音节书写系统,而不是一个词素书写系统。 - tripleee

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接