标题基本上概括了问题。我注意到在一些论文中,人们提到了BILOU编码方案,用于命名实体识别,而不是常见的BIO标记方案(例如Ratinov和Roth在2009年的这篇论文http://cogcomp.cs.illinois.edu/page/publication_view/199)。
从处理2003 CoNLL数据的经验来看,我知道
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
虽然有人告诉我BILOU这个词代表着什么意思,
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
我也看到过人们提到另一个标签
E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag
我对命名实体识别的文献还比较新,但我一直找不到一个清晰地解释这些标签的东西。我特别关注的问题是'last'和'end'标签之间的区别是什么,以及'unit'标签代表什么。