- DTW(动态时间规整)算法 - CLA(竞争链接算法) - NATools - Giza++ 请问是否有其他的算法/工具是与语言无关的,可以实现并评估平行英语印地语语料库的统计单词对齐。一些工具最适合特定语言,您能否告诉我这是多么正确,并且如果是,请提供更适合亚洲语言如印地语的示例。欢迎提供不适合此类语言使用的反例。
我听说过Uplug单词对齐工具... 有人能告诉我这个工具对我的目的是否有用吗?
谢谢.. :)
伯克利对齐器非常好用。通过对IBM词语对齐模型进行联合训练,它能够获得比GIZA++等老旧软件更低的对齐错误率(AER)。
它还支持一些更高级的功能,例如句法扭曲(即使用解析树信息来获得更好的对齐)。为此,您只需要一个语言对的解析树。因此,如果您想做印地语<->英语,应该没问题,因为有很多免费且良好的英文解析器可供使用。
如果您决定不使用伯克利对齐器,那么您应该只使用GIZA++。多年来,它一直是机器翻译社区中基本上标准的单词对齐工具。
Uplug是一个很好的工具,我一直在使用它来对齐英语<->马其顿语的文本。它基本上建立在Giza++的基础上,添加了所谓的线索对齐。它的高级设置实际上将线索对齐和Giza++结合起来,并执行3个这样的迭代。您提供的线索(pos-tags,lemmas ...)越多,结果就会更好。但我必须提到的是,您不应该期望得到与仅使用Giza++完全不同的结果。
无论如何,如果您计划认真研究SMT主题,我建议您阅读关于Uplug的论文(博士论文),这对您将非常有益。
Moses 是一个你可能想要了解的统计机器翻译套件。它的单词对齐组件是建立在 GIZA++ 上的,但可以进行调整以更好地处理某些语言对,而不仅仅是纯粹的 GIZA++。他们的邮件列表和你可以在 http://www.statmt.org/ 找到的资源可能比 SO 更适合在这个主题上提问。你没有提到的一件事,我认为甚至更棘手的是如何获得印地语 <-> 英语的平行语料库。