自然语言处理-词对齐

Question

自然语言处理-词对齐

9

我正在寻找单词对齐工具和算法。我正在处理双语英语 - 印地语文本，并且目前正在使用以下算法：

- DTW（动态时间规整）算法 - CLA（竞争链接算法） - NATools - Giza++ 请问是否有其他的算法/工具是与语言无关的，可以实现并评估平行英语印地语语料库的统计单词对齐。一些工具最适合特定语言，您能否告诉我这是多么正确，并且如果是，请提供更适合亚洲语言如印地语的示例。欢迎提供不适合此类语言使用的反例。

我听说过Uplug单词对齐工具... 有人能告诉我这个工具对我的目的是否有用吗？

谢谢.. :)

- boddhisattva

对于语言学家来说，即使英语不是你的母语，你也应该改善句子结构。原始问题是“一个长句子”… - mjv

点赞，先生... :) 下次一定会记住的。 - boddhisattva

4个回答

3

Uplug是一个很好的工具，我一直在使用它来对齐英语<->马其顿语的文本。它基本上建立在Giza++的基础上，添加了所谓的线索对齐。它的高级设置实际上将线索对齐和Giza++结合起来，并执行3个这样的迭代。您提供的线索（pos-tags，lemmas ...）越多，结果就会更好。但我必须提到的是，您不应该期望得到与仅使用Giza++完全不同的结果。

无论如何，如果您计划认真研究SMT主题，我建议您阅读关于Uplug的论文（博士论文），这对您将非常有益。

- msaveski

0

Moses 是一个你可能想要了解的统计机器翻译套件。它的单词对齐组件是建立在 GIZA++ 上的，但可以进行调整以更好地处理某些语言对，而不仅仅是纯粹的 GIZA++。他们的邮件列表和你可以在 http://www.statmt.org/ 找到的资源可能比 SO 更适合在这个主题上提问。你没有提到的一件事，我认为甚至更棘手的是如何获得印地语 <-> 英语的平行语料库。

- ferdystschenko

我有一个现有的用于EMILLE平行语料库的版本，可以使用，先生。所以这真的不是问题。谢谢您的回答：）。我会查看您建议的链接。 - boddhisattva

-1

您的问题比较模糊而且广泛。

Try: http://scholar.google.com/scholar?q=algorithm+language+independent+statistical+word+alignment&hl=en&safe=off&client=firefox-a&hs=hJt&rls=com.ubuntu:en-US:official&um=1&ie=UTF-8&oi=scholart

获取这个领域的论文列表。

- Charles Merriam

1

谢谢您的回答，但我还不太确定您为什么认为这个问题含糊不清。也许它与众不同、独具特色......无论如何，感谢您的回答Charles先生。 - boddhisattva

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- dmcer · Accepted Answer

伯克利对齐器非常好用。通过对IBM词语对齐模型进行联合训练，它能够获得比GIZA++等老旧软件更低的对齐错误率（AER）。

它还支持一些更高级的功能，例如句法扭曲（即使用解析树信息来获得更好的对齐）。为此，您只需要一个语言对的解析树。因此，如果您想做印地语<->英语，应该没问题，因为有很多免费且良好的英文解析器可供使用。

如果您决定不使用伯克利对齐器，那么您应该只使用GIZA++。多年来，它一直是机器翻译社区中基本上标准的单词对齐工具。