使用定制标签给训练集手动标注

5
我希望对烹饪食谱进行一些自然语言处理,特别是针对食材(也许稍后涉及制备)。基本上,我想创建自己的POS标记集,以帮助我确定食材行的含义。
例如,如果其中一个成分是: 3/4杯(轻轻地)平叶欧芹叶,分开
我希望有标记来表示所列出的成分和数量,通常是数字后跟某种计量单位。例如:
3\NUM-QTY/\FRACTION4\NUM-QTY 杯\N-MEAS (轻轻\ADV 包装\VD)[平叶\ADJ 欧芹\N] \INGREDIENT 叶\N,分开\VD
我找到的标记 here
我不确定几件事:
1. 我应该使用自定义标记,还是在使用现有标记器之后进行某种后标记处理? 2. 如果我确实使用自定义标记,最好的方法是手动浏览成分列表并打标签吗?
我觉得这种语言处理非常具体,训练一个适用的标注器会很有益,但我不确定如何继续操作。
谢谢!
1个回答

3

使用pattern.search库。

Python的pattern库支持许多标签[1],包括基数标记(CD)。

一旦您标记了基数,分数就会变为“基数/基数”或类似于“基数 基数/基数”的形式。

关于数量,您应该建立烹饪数量的分类法。Python的pattern库还支持词形还原[2]。

我认为使用pattern.search[2],您可以构建一个适合您的数据的约束,并使用它对文本进行模式搜索。

[1]http://www.clips.ua.ac.be/pages/mbsp-tags [2]http://www.clips.ua.ac.be/pages/pattern-search


太棒了,谢谢。我已经写好了分类法,所以我只需要将它插入到pattern.search中即可。 - abroekhof

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接