我正在尝试设置一个现有/自定义分析器,以便使用缩写进行搜索。例如,如果文本字段为“美国银行”,则搜索BOfA或BOA、BofA等应匹配此记录。
您该如何实现呢?
您该如何实现呢?
{
"settings": {
"analysis": {
"analyzer": {
"my_analyzer": {
"tokenizer": "standard",
"filter": ["lowercase", "synonym_filter"]
}
},
"filter": {
"synonym_filter": {
"type": "synonym",
"synonyms": [
"bank of america,boa"
],
"expand": true
}
}
}
},
"mappings": {
"document": {
"properties": {
"text": {
"type": "text",
"analyzer": "my_analyzer",
"fielddata": true
}
}
}
}
}
你可以在列表中添加更多内容或使用同义词文件。
对于查询用例 BOfA 或 BOA,可以采用两种方法。
1)使用这些可能的组合添加更多的同义词。
"synonyms": [
"bank of america,boa"
"bank of america,bofa"
]
2) 或者保留缩写并使用模糊查询
{
"query": {
"match": {
"text" : {
"query": "bofa",
"fuzziness": 2
}
}
}
}
在编程中,你需要使用同义词来提供 ES 缩写。
我想到了一种使用pattern_replace的方法:
GET /_analyze
{
"tokenizer": "keyword",
"filter": [
{
"type": "pattern_replace",
"pattern": "(\\B.)",
"replacement": ""
},
{
"type": "pattern_replace",
"pattern": "(\\s)",
"replacement": ""
},
"uppercase",
{
"type": "ngram",
"min_gram": 3,
"max_gram": 5
}
],
"text": "foxes jump lazy dogs"
}
它产生:
{
"tokens": [
{
"token": "FJL",
"start_offset": 0,
"end_offset": 20,
"type": "word",
"position": 0
},
{
"token": "FJLD",
"start_offset": 0,
"end_offset": 20,
"type": "word",
"position": 0
},
{
"token": "JLD",
"start_offset": 0,
"end_offset": 20,
"type": "word",
"position": 0
}
]
}
max_ngram_diff
,因为它默认为1
。 - Louis