ElasticSearch - 使用缩写进行搜索

Question

ElasticSearch - 使用缩写进行搜索

elasticsearchnest

5

我正在尝试设置一个现有/自定义分析器，以便使用缩写进行搜索。例如，如果文本字段为“美国银行”，则搜索BOfA或BOA、BofA等应匹配此记录。

您该如何实现呢？

- Kiran Reddy

应该将user3775217的答案标记为最佳答案，因为它回答了你的问题。 - Chance

2个回答

1

我想到了一种使用pattern_replace的方法：

GET /_analyze
{
  "tokenizer": "keyword",
  "filter": [
    {
      "type": "pattern_replace",
      "pattern": "(\\B.)",
      "replacement": ""
    },
    {
      "type": "pattern_replace",
      "pattern": "(\\s)",
      "replacement": ""
    },
    "uppercase",
    {
      "type": "ngram",
      "min_gram": 3,
      "max_gram": 5
    }
  ],
  "text": "foxes jump lazy dogs"
}

它产生：

{
  "tokens": [
    {
      "token": "FJL",
      "start_offset": 0,
      "end_offset": 20,
      "type": "word",
      "position": 0
    },
    {
      "token": "FJLD",
      "start_offset": 0,
      "end_offset": 20,
      "type": "word",
      "position": 0
    },
    {
      "token": "JLD",
      "start_offset": 0,
      "end_offset": 20,
      "type": "word",
      "position": 0
    }
  ]
}

- DavidBu

很棒的解决方案！我需要做的一件事是增加索引设置中的max_ngram_diff，因为它默认为1。 - Louis

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user3775217 · Accepted Answer

您可以使用“同义词过滤器”（ synonym filter）标记来创建自定义分析器。

例如，以下映射：

{
"settings": {
    "analysis": {
        "analyzer": {
            "my_analyzer": {
                "tokenizer": "standard",
                "filter": ["lowercase", "synonym_filter"]
            }
        },
        "filter": {
            "synonym_filter": {
                "type": "synonym",
                "synonyms": [
                    "bank of america,boa"
                ],
                "expand": true
            }
        }
    }
},
"mappings": {
    "document": {
        "properties": {
            "text": {
                "type": "text",
                "analyzer": "my_analyzer",
                "fielddata": true
            }
        }
    }
}

}

你可以在列表中添加更多内容或使用同义词文件。

对于查询用例 BOfA 或 BOA，可以采用两种方法。

1）使用这些可能的组合添加更多的同义词。

 "synonyms": [
                    "bank of america,boa"
                    "bank of america,bofa"
                ]

2) 或者保留缩写并使用模糊查询

{
  "query": {
    "match": {
      "text" : {
        "query": "bofa",
        "fuzziness": 2
      }
    }
  }
}

在编程中，你需要使用同义词来提供 ES 缩写。