ElasticSearch - 使用缩写进行搜索

5
我正在尝试设置一个现有/自定义分析器,以便使用缩写进行搜索。例如,如果文本字段为“美国银行”,则搜索BOfA或BOA、BofA等应匹配此记录。
您该如何实现呢?

应该将user3775217的答案标记为最佳答案,因为它回答了你的问题。 - Chance
2个回答

2
您可以使用“同义词过滤器”( synonym filter)标记来创建自定义分析器。

例如,以下映射:
{
"settings": {
    "analysis": {
        "analyzer": {
            "my_analyzer": {
                "tokenizer": "standard",
                "filter": ["lowercase", "synonym_filter"]
            }
        },
        "filter": {
            "synonym_filter": {
                "type": "synonym",
                "synonyms": [
                    "bank of america,boa"
                ],
                "expand": true
            }
        }
    }
},
"mappings": {
    "document": {
        "properties": {
            "text": {
                "type": "text",
                "analyzer": "my_analyzer",
                "fielddata": true
            }
        }
    }
}

}

你可以在列表中添加更多内容或使用同义词文件。

对于查询用例 BOfA 或 BOA,可以采用两种方法。

1)使用这些可能的组合添加更多的同义词。

 "synonyms": [
                    "bank of america,boa"
                    "bank of america,bofa"
                ]

2) 或者保留缩写并使用模糊查询

{
  "query": {
    "match": {
      "text" : {
        "query": "bofa",
        "fuzziness": 2
      }
    }
  }
}

在编程中,你需要使用同义词来提供 ES 缩写。


1

我想到了一种使用pattern_replace的方法:

GET /_analyze
{
  "tokenizer": "keyword",
  "filter": [
    {
      "type": "pattern_replace",
      "pattern": "(\\B.)",
      "replacement": ""
    },
    {
      "type": "pattern_replace",
      "pattern": "(\\s)",
      "replacement": ""
    },
    "uppercase",
    {
      "type": "ngram",
      "min_gram": 3,
      "max_gram": 5
    }
  ],
  "text": "foxes jump lazy dogs"
}

它产生:

{
  "tokens": [
    {
      "token": "FJL",
      "start_offset": 0,
      "end_offset": 20,
      "type": "word",
      "position": 0
    },
    {
      "token": "FJLD",
      "start_offset": 0,
      "end_offset": 20,
      "type": "word",
      "position": 0
    },
    {
      "token": "JLD",
      "start_offset": 0,
      "end_offset": 20,
      "type": "word",
      "position": 0
    }
  ]
}

很棒的解决方案!我需要做的一件事是增加索引设置中的max_ngram_diff,因为它默认为1 - Louis

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接