所以,我发现并目前正在使用斯坦福解析器,它非常适合分割句子。我们大部分的句子都来自AP,所以它在这方面表现得非常好。
以下是问题:
- 它会占用很多内存(高达600M) - 它真的会破坏文本格式,使我必须为后续处理制定很多边缘情况。(文档预处理API调用不允许指定ASCII / UTF8引号 - 它们立即转换为LaTeX样式,缩略词被拆分成不同的单词(显然),并且会在不同的位置放入虚假空格)
为此,我已经编写了多个补丁来补偿我真的不应该做的事情。
基本上,它已经到了使用起来与开始分割句子的问题一样令人困扰的地步。
我的其他选择是什么?是否有其他NLP类型的框架可以帮助解决问题?
我的原始问题只是能够以高概率检测句子边缘。
以下是问题:
- 它会占用很多内存(高达600M) - 它真的会破坏文本格式,使我必须为后续处理制定很多边缘情况。(文档预处理API调用不允许指定ASCII / UTF8引号 - 它们立即转换为LaTeX样式,缩略词被拆分成不同的单词(显然),并且会在不同的位置放入虚假空格)
为此,我已经编写了多个补丁来补偿我真的不应该做的事情。
基本上,它已经到了使用起来与开始分割句子的问题一样令人困扰的地步。
我的其他选择是什么?是否有其他NLP类型的框架可以帮助解决问题?
我的原始问题只是能够以高概率检测句子边缘。