Java的命名实体识别库

27

我正在寻找一个简单但足够好用的 Java 实体识别库(和字典),我想处理电子邮件和文档,并提取一些“基本信息”,比如:姓名、地点、地址和日期。

我已经看了很多,大部分都比较重量级,是完整的自然语言处理项目。

有什么推荐吗?

4个回答

24

你可能想看一下我早期回答类似问题的答案

除此之外,大多数较轻量级的NER系统很大程度上依赖于所使用的领域。例如,您会发现有关生物医学NER系统的大量工具和论文。除了我之前发布的帖子(其中已经包含了我对如果进行NER的主要建议),以下是一些您可能希望了解的其他工具:

  • 来自德国耶拿大学的JULIE实验室工具也可以进行实体识别。它们有独立版本和UIMA分析引擎。
  • 另外一点需要说明的是,你不能不对输入进行分词处理。自然语言的分词稍微有些棘手,因此我建议您使用一个能够同时完成两者任务的工具箱。


    GENIA标注器/分词器表现良好,Stanford解析器内置的分词器也很不错! - nflacco

    1

    顺便提一下,最近我发现了OpenCalais,它似乎具备我想要的功能。


    0
    你可能也想尝试 Alchemy API。它与 Open Calais 类似。

    0

    网页内容由stack overflow 提供, 点击上面的
    可以查看英文原文,
    原文链接