我正在寻找一个简单但足够好用的 Java 实体识别库(和字典),我想处理电子邮件和文档,并提取一些“基本信息”,比如:姓名、地点、地址和日期。
我已经看了很多,大部分都比较重量级,是完整的自然语言处理项目。
有什么推荐吗?
我正在寻找一个简单但足够好用的 Java 实体识别库(和字典),我想处理电子邮件和文档,并提取一些“基本信息”,比如:姓名、地点、地址和日期。
我已经看了很多,大部分都比较重量级,是完整的自然语言处理项目。
有什么推荐吗?
你可能想看一下我早期回答类似问题的答案。
除此之外,大多数较轻量级的NER系统很大程度上依赖于所使用的领域。例如,您会发现有关生物医学NER系统的大量工具和论文。除了我之前发布的帖子(其中已经包含了我对如果进行NER的主要建议),以下是一些您可能希望了解的其他工具:
另外一点需要说明的是,你不能不对输入进行分词处理。自然语言的分词稍微有些棘手,因此我建议您使用一个能够同时完成两者任务的工具箱。