使用nltk进行分块

Question

使用nltk进行分块

4

如何根据模式从句子中获取所有的块。

例如：

NP:{<NN><NN>}

标记了句子：

[("money", "NN"), ("market", "NN") ("fund", "NN")]

如果我解析，我会获得

(S (NP money/NN market/NN) fund/NN)

我希望还能有另一种选择，即

(S money/NN (NP market/NN fund/NN))

- vigte

这不是分块，而是解析。 - Vsevolod Dyomkin

即使我寻找所有可能的分块，解析仍然比分块更消耗计算资源吗？ - vigte

分块也被称为浅层解析。当你关注大型名词短语并忽略其中名词短语内部的顺序和词性时，正则表达式分块器可能会起作用。但是你的问题需要详细了解名词短语的顺序（即深度解析），因此需要使用解析器。 - alvas

2个回答

1

我认为你的问题是关于获取一个句子中最有可能的前n个解析结果。我说得对吗？如果是的话，请参考2.0文档中的nbest_parse(sent, n=None)函数。

- mbatchkarov

即使我使用iter_parse解析，它似乎仍然会给出与RegexpParser相同的答案。 - vigte

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alvas · Accepted Answer

@mbatchkarov关于nbest_parse文档的说法是正确的。为了举例说明，请参见以下代码：

import nltk
# Define the cfg grammar.
grammar = nltk.parse_cfg("""
S -> NP
S -> NN NP
S -> NP NN
NP -> NN NN
NN -> 'market'
NN -> 'money'
NN -> 'fund'
""")

# Make your string into a list of tokens.
sentence = "money market fund".split(" ")

# Load the grammar into the ChartParser.
cp = nltk.ChartParser(grammar)

# Generate and print the nbest_parse from the grammar given the sentence tokens.
for tree in cp.nbest_parse(sentence):
    print tree