我正在尝试查找数据中在多个方面相等的条目。目前,我使用嵌套聚合的复杂查询来实现此目的:
{
"size": 0,
"aggs": {
"duplicateFIELD1": {
"terms": {
"field": "FIELD1",
"min_doc_count": 2 },
"aggs": {
"duplicateFIELD2": {
"terms": {
"field": "FIELD2",
"min_doc_count": 2 },
"aggs": {
"duplicateFIELD3": {
"terms": {
"field": "FIELD3",
"min_doc_count": 2 },
"aggs": {
"duplicateFIELD4": {
"terms": {
"field": "FIELD4",
"min_doc_count": 2 },
"aggs": {
"duplicate_documents": {
"top_hits": {} } } } } } } } } } } }
这在一定程度上起作用,当找不到重复项时,我得到的结果大致如下:
{
"took" : 5,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"failed" : 0
},
"hits" : {
"total" : 27524067,
"max_score" : 0.0,
"hits" : [ ]
},
"aggregations" : {
"duplicateFIELD1" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 27524027,
"buckets" : [
{
"key" : <valueFromField1>,
"doc_count" : 4,
"duplicateFIELD2" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
},
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
}
]
}
},
{
"key" : <valueFromField1>,
"doc_count" : 4,
"duplicateFIELD2" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
},
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
}
]
}
},
...
我跳过了一些看起来相似的输出。
现在,我可以扫描这个复杂的深度嵌套数据结构,并发现所有这些嵌套桶中都没有存储文档。但这似乎相当麻烦。我想可能有更好(更直接)的方法来做到这一点。
此外,如果我想检查四个以上的字段,这个嵌套结构将会不断地变大。因此它不能很好地扩展,我想避免这种情况。
我能否改进我的解决方案,以便获得一个简单的列表,其中包含所有重复的文档?(也许是彼此重复的文档分组在一起的那些文档)。或者是否有完全不同的方法(例如不使用聚合),它没有我在这里描述的缺点?
编辑:我在ES中找到了一种使用脚本功能的方法here,但在我版本的ES中,这只返回一个错误消息。也许有人能告诉我如何在ES 5.0中实现它?到目前为止,我的尝试没有成功。
编辑:我发现了一种使用现代方式(语言“painless”)的脚本来实现我的方法:
{
"size": 0,
"aggs": {
"duplicateFOO": {
"terms": {
"script": {
"lang": "painless",
"inline": "doc['FIELD1'].value + doc['FIELD2'].value + doc['FIELD3'].value + doc['FIELD4'].value"
},
"min_doc_count": 2
}
}
}
}
这似乎适用于非常小的数据量,并且对于实际数据量会导致错误(
circuit_breaking_exception
:[request] Data too large, data for [<reused_arrays>] would be larger than limit of [6348236390/5.9gb]
)。您有什么想法可以解决这个问题吗?也许调整ES的某些配置以使用更大的内部缓冲区或类似的方法?
在我的情况下,似乎没有一种避免嵌套的正确解决方案。
幸运的是,我的四个字段中有三个具有非常有限的值范围;第一个只能是1或2,第二个可以是1、2或3,第三个可以是1、2、3或4。由于这只是24个组合,所以我目前选择在应用聚合之前过滤掉完整数据集的1/24,然后只处理剩余的一个字段。然后我必须将所有操作应用24次(每个受限制的三个字段的每个组合都要应用一次),但这仍然比一次处理整个数据集更可行。
现在我发送的查询(即24个查询之一)看起来像这样:
{
"size": 0,
"query": {
"bool": {
"must": [
{ "match": { "FIELD1": 2 } },
{ "match": { "FIELD2": 3 } },
{ "match": { "FIELD3": 4 } } ] } },
"aggs": {
"duplicateFIELD4": {
"terms": {
"field": "FIELD4",
"min_doc_count": 2 } } } }
当然,这样做的结果不再是嵌套的了。但是如果多个字段包含更大范围的任意值,则无法执行此操作。
我还发现,如果必须进行嵌套,则具有最小值范围(例如仅两个值,如“1或2”)的字段应该是最内层的,而具有最大值范围的字段应该是最外层的。这将极大地提高性能(但在我的情况下仍然不够)。如果做错了,你可能会遇到无法使用的查询(数小时内没有响应,最终服务器端出现内存溢出)。
我现在认为适当地聚合是解决像我这样的问题的关键。使用脚本来拥有一个平坦的桶列表(如我所描述的)的方法很容易使服务器过载,因为它无法以任何方式分配任务。如果根本找不到双倍,它必须在内存中保存每个文档的一个桶(其中只有一个文档)。即使只有几个双倍可以找到,对于较大的数据集也无法完成此操作。如果没有其他选择,就需要人为地将数据集分成组。例如,可以通过从相关字段构建哈希并使用最后4位将文档放入16个组之一来创建16个子数据集。然后可以单独处理每个组;使用此技术,双倍肯定会落入一个组中。
但是,与这些一般思考无关,ES API应该提供浏览聚合结果的任何手段。遗憾的是,目前还没有这样的选项。