有没有一种简单的方法从字符索引中获取令牌?对于每个文档,我都有一个目标单词或短语,它们是通过字符索引(start, end)来确定的。
明显的解决方案是迭代标记以获得一个有效的备用范围,因为这是一个罕见的情况,这应该是可以接受的,但我想知道是否有更聪明的方法。
doc.char_span()
方法可以从中返回范围,这在大多数情况下都可以正常工作,但当索引由于标记化不匹配(即索引位于标记的中间位置)而无法映射到有效范围时,就会出现问题。明显的解决方案是迭代标记以获得一个有效的备用范围,因为这是一个罕见的情况,这应该是可以接受的,但我想知道是否有更聪明的方法。