自然语言处理-词对齐

9
我正在寻找单词对齐工具和算法。 我正在处理双语英语 - 印地语文本,并且目前正在使用以下算法:
- DTW(动态时间规整)算法 - CLA(竞争链接算法) - NATools - Giza++ 请问是否有其他的算法/工具是与语言无关的,可以实现并评估平行英语印地语语料库的统计单词对齐。一些工具最适合特定语言,您能否告诉我这是多么正确,并且如果是,请提供更适合亚洲语言如印地语的示例。欢迎提供不适合此类语言使用的反例。
我听说过Uplug单词对齐工具... 有人能告诉我这个工具对我的目的是否有用吗?
谢谢.. :)

对于语言学家来说,即使英语不是你的母语,你也应该改善句子结构。原始问题是“一个长句子”… - mjv
点赞,先生... :) 下次一定会记住的。 - boddhisattva
4个回答

6

伯克利对齐器非常好用。通过对IBM词语对齐模型进行联合训练,它能够获得比GIZA++等老旧软件更低的对齐错误率(AER)。

它还支持一些更高级的功能,例如句法扭曲(即使用解析树信息来获得更好的对齐)。为此,您只需要一个语言对的解析树。因此,如果您想做印地语<->英语,应该没问题,因为有很多免费且良好的英文解析器可供使用。

如果您决定不使用伯克利对齐器,那么您应该只使用GIZA++。多年来,它一直是机器翻译社区中基本上标准的单词对齐工具。


感谢您的回答..:) 我想知道是否还可以使用其他词语对齐工具,如果您知道其他工具,请告诉我。 - boddhisattva

3

Uplug是一个很好的工具,我一直在使用它来对齐英语<->马其顿语的文本。它基本上建立在Giza++的基础上,添加了所谓的线索对齐。它的高级设置实际上将线索对齐和Giza++结合起来,并执行3个这样的迭代。您提供的线索(pos-tags,lemmas ...)越多,结果就会更好。但我必须提到的是,您不应该期望得到与仅使用Giza++完全不同的结果。

无论如何,如果您计划认真研究SMT主题,我建议您阅读关于Uplug的论文(博士论文),这对您将非常有益。


0

Moses 是一个你可能想要了解的统计机器翻译套件。它的单词对齐组件是建立在 GIZA++ 上的,但可以进行调整以更好地处理某些语言对,而不仅仅是纯粹的 GIZA++。他们的邮件列表和你可以在 http://www.statmt.org/ 找到的资源可能比 SO 更适合在这个主题上提问。你没有提到的一件事,我认为甚至更棘手的是如何获得印地语 <-> 英语的平行语料库。


我有一个现有的用于EMILLE平行语料库的版本,可以使用,先生。所以这真的不是问题。谢谢您的回答:)。我会查看您建议的链接。 - boddhisattva

-1

1
谢谢您的回答,但我还不太确定您为什么认为这个问题含糊不清。也许它与众不同、独具特色......无论如何,感谢您的回答Charles先生。 - boddhisattva

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接