约翰·爱德华·格雷 现在知道自己发胖了,开始 跑步运动
她 正在听那位 糟糕的歌手 的 Smack That
我想从一句话中提取有趣的术语。我目前使用词性标注来识别每个实体的语法类型。然后,我为每个令牌更新一个计数器(名词、动词和形容词的权重不同)。
现在,我希望使用块分析器来完成这项任务。我认为解析树的叶节点包含所有有趣的单词和词组。请问如何从块分析器输出中提取术语?
约翰·爱德华·格雷 现在知道自己发胖了,开始 跑步运动
她 正在听那位 糟糕的歌手 的 Smack That
我想从一句话中提取有趣的术语。我目前使用词性标注来识别每个实体的语法类型。然后,我为每个令牌更新一个计数器(名词、动词和形容词的权重不同)。
现在,我希望使用块分析器来完成这项任务。我认为解析树的叶节点包含所有有趣的单词和词组。请问如何从块分析器输出中提取术语?
[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]
任何标记为B
的东西都意味着您“有趣”的块的开始,
随后标记为O
的单词将成为“有趣”块的结尾,或者
它也可能以后续的B
结束,以标记先前“有趣”块的结束和新“有趣”块的开始。
什么是有趣的内容?
实际上,什么是有趣的内容取决于您完成任务的最终目的。对我而言,我会说started running
是一个“有趣”的块,因为它修改了不定式含义或running
,给它一个开始动作
的情态。
封闭类与开放类词
如果您心中已有非有趣单词的概念,那么建议您建立该字典,然后运行序列标注脚本以检测那些不在封闭类单词字典中的单词。
机器学习方法
另一种方法是执行机器学习分类任务,其中您已经预先注释了一些有趣和不有趣的数据样本。然后,您识别一些分类特征并运行分类以自动使用B
,I
,O
标记标记数据。