Solr 3.3.0 - 提高搜索字段权重 - 提升字段优先级

Question

Solr 3.3.0 - 提高搜索字段权重 - 提升字段优先级

3

我正在使用Solr 3.3.0进行索引，索引的文档如下：

<book id="bk101">
        <keywords>----</keywords>
        <title>----</title>
        <owner>----</owner>
        <artist>abcde</artist>
    </book>
    <book id="bk102">
        <keywords>----</keywords>
        <title>----</title>
        <owner>abcde</owner>
        <artist>----</artist>
    </book>
    <book id="bk103">
        <keywords>----</keywords>
        <title>----</title>
        <owner>----</owner>
        <artist>abc</artist>
    </book>
    <book id="bk104">
        <keywords>----</keywords>
        <title>----</title>
        <owner>abc</owner>
        <artist>----</artist>
    </book>
    <book id="bk105">
        <keywords>abcde</keywords>
        <title>----</title>
        <owner>----</owner>
        <artist>----</artist>
    </book>
    <book id="bk106">
        <keywords>abc</keywords>
        <title>----</title>
        <owner>----</owner>
        <artist>----</artist>
    </book>
    <book id="bk107">
        <keywords>----</keywords>
        <title>abcde</title>
        <owner>----</owner>
        <artist>----</artist>
    </book>
    <book id="bk108">
        <keywords>----</keywords>
        <title>abc</title>
        <owner>----</owner>
        <artist>----</artist>
    </book>

Schema.xml

<types>
    <fieldType name="text" class="solr.TextField" positionIncrementGap="100" omitNorms="false">
        <tokenizer class="solr.WhitespaceTokenizerFactory" />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="0" splitOnNumerics="0" />
        <filter class="solr.LowerCaseFilterFactory" />
        <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true" />
        <filter class="solr.ISOLatin1AccentFilterFactory" />
        <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
        <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="15" side="front" />
        <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="15" side="back" />
    </fieldType>

    <fieldType name="text_original" class="solr.TextField" positionIncrementGap="100" omitNorms="false">
        <tokenizer class="solr.KeywordTokenizerFactory" />
        <filter class="solr.LowerCaseFilterFactory" />
    </fieldType>

    <fieldType name="uuid" class="solr.UUIDField" indexed="true" />
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true" />
    <fieldType name="float" class="solr.FloatField" omitNorms="true" />
    <fieldType name="date" class="solr.DateField" />
</types>

<fields>
    <field name="id" type="uuid" indexed="true" stored="true" default="NEW" />
    <field name="book_id" type="string" indexed="true" stored="true" />
    <field name="keywords" type="text" indexed="true" stored="true" />
    <field name="keywords_ex" type="text_original" indexed="true" stored="true" />
    <field name="title" type="text" indexed="true" stored="true" />
    <field name="title_ex" type="text_original" indexed="true" stored="true" />
    <field name="owner" type="text" indexed="true" stored="true" />
    <field name="owner_ex" type="text_original" indexed="true" stored="true" />
    <field name="artist" type="text" indexed="true" stored="true" />
    <field name="artist_ex" type="text_original" indexed="true" stored="true" />

    <copyField source="title" dest="title_ex" />
    <copyField source="keywords" dest="keywords_ex" />
    <copyField source="owner" dest="owner_ex" />
    <copyField source="artist" dest="artist_ex" />

</fields>

您可以看到，如果我搜索“abc”，solr将返回所有文档（我正在使用solr.EdgeNGramFilterFactory进行索引）。我的目标是按照以下逻辑排序结果文档：

title_ex
title
keywords_ex
keywords
owner_ex
artist_ex
owner
artist

我尝试了“^”lucene语法和dismax，但响应列表不是我预期的列表。

`http://localhost:8080/solr33a/core0/select?q=abc&defType=edismax&qf=title_ex^10%20title^8.0%20keywords_ex^6%20keywords^5.5%20owner_ex^1.2%20artist_ex^0.8%20owner^0.5%20artist^0.2&fl=*,score

结果：

<doc>
            <float name="score">2.3862944</float>
            <str name="artist">----</str>
            <str name="artist_ex">----</str>
            <str name="book_id">bk108</str>
            <str name="id">2cc5d478-6901-4777-abc9-680fd959ef90</str>
            <str name="keywords">----</str>
            <str name="keywords_ex">----</str>
            <str name="owner">----</str>
            <str name="owner_ex">----</str>
            <str name="title">abc</str>
            <str name="title_ex">abc</str>
        </doc>
        <doc>
            <float name="score">1.4317766</float>
            <str name="artist">----</str>
            <str name="artist_ex">----</str>
            <str name="book_id">bk106</str>
            <str name="id">e12683a2-faff-4d86-8107-7406491f4f89</str>
            <str name="keywords">abc</str>
            <str name="keywords_ex">abc</str>
            <str name="owner">----</str>
            <str name="owner_ex">----</str>
            <str name="title">----</str>
            <str name="title_ex">----</str>
        </doc>
        <doc>
            <float name="score">0.3288517</float>
            <str name="artist">----</str>
            <str name="artist_ex">----</str>
            <str name="book_id">bk107</str>
            <str name="id">a6a4a014-ce94-4257-a215-c1a64aa41cf5</str>
            <str name="keywords">----</str>
            <str name="keywords_ex">----</str>
            <str name="owner">----</str>
            <str name="owner_ex">----</str>
            <str name="title">abcde</str>
            <str name="title_ex">abcde</str>
        </doc>
        <doc>
            <float name="score">0.28635535</float>
            <str name="artist">----</str>
            <str name="artist_ex">----</str>
            <str name="book_id">bk104</str>
            <str name="id">9b909c65-e56a-4407-a789-53a570a7ae40</str>
            <str name="keywords">----</str>
            <str name="keywords_ex">----</str>
            <str name="owner">abc</str>
            <str name="owner_ex">abc</str>
            <str name="title">----</str>
            <str name="title_ex">----</str>
        </doc>
        <doc>
            <float name="score">0.22608554</float>
            <str name="artist">----</str>
            <str name="artist_ex">----</str>
            <str name="book_id">bk105</str>
            <str name="id">dead87cc-f93b-4562-af32-4d9fb2613c7f</str>
            <str name="keywords">abcde</str>
            <str name="keywords_ex">abcde</str>
            <str name="owner">----</str>
            <str name="owner_ex">----</str>
            <str name="title">----</str>
            <str name="title_ex">----</str>
        </doc>
        <doc>
            <float name="score">0.19090356</float>
            <str name="artist">abc</str>
            <str name="artist_ex">abc</str>
            <str name="book_id">bk103</str>
            <str name="id">306a252c-a0b5-474d-b55d-a25740d063b4</str>
            <str name="keywords">----</str>
            <str name="keywords_ex">----</str>
            <str name="owner">----</str>
            <str name="owner_ex">----</str>
            <str name="title">----</str>
            <str name="title_ex">----</str>
        </doc>
        <doc>
            <float name="score">0.020553231</float>
            <str name="artist">----</str>
            <str name="artist_ex">----</str>
            <str name="book_id">bk102</str>
            <str name="id">a684de0c-b286-4d9e-bd68-d5305afeee76</str>
            <str name="keywords">----</str>
            <str name="keywords_ex">----</str>
            <str name="owner">abcde</str>
            <str name="owner_ex">abcde</str>
            <str name="title">----</str>
            <str name="title_ex">----</str>
        </doc>
        <doc>
            <float name="score">0.008221293</float>
            <str name="artist">abcde</str>
            <str name="artist_ex">abcde</str>
            <str name="book_id">bk101</str>
            <str name="id">30a0f9de-1224-49d2-90aa-41f57af4956c</str>
            <str name="keywords">----</str>
            <str name="keywords_ex">----</str>
            <str name="owner">----</str>
            <str name="owner_ex">----</str>
            <str name="title">----</str>
            <str name="title_ex">----</str>
        </doc>

- Mcgyver83

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jayendra · Accepted Answer

1

如果您希望在多个字段上进行搜索并设置变量权重，请配置请求处理程序以使用edismax查询解析器。
dismax 允许您跨字段搜索并为每个字段添加权重。

例如，标题匹配的权重为1，而作者匹配的权重为0.8，因此具有标题匹配的文档将显示在顶部。

<requestHandler name="search" class="solr.SearchHandler" default="true">
 <lst name="defaults">
   <str name="echoParams">explicit</str>
   <str name="defType">edismax</str>
   <str name="qf">
      title^1 author^0.8
   </str>
   <str name="q.alt">*:*</str>
   <str name="rows">10</str>
   <str name="fl">*,score</str>
 </lst>
</requestHandler>

- Jayendra

1

我的描述不是很完整：对于每个字段，我都有一个“copyField”，它存储相关字段的原始值（仅使用solr.KeywordTokenizerFactory和solr.LowerCaseFilterFactory），以允许精确匹配搜索。现在我想按照以下逻辑检索已排序的文档：

title_exact_match
title
author_exact_match
view_exact_match
author
view

我尝试使用以下查询语句： select?q=abc&defType=dismax&qf=title_exact_match^1+title^0.8+author_exact_match^0.6+view_exact_match^0.4+author^0.2+view^0.1但我的响应并不是我所期望的。 - Mcgyver83

我对问题进行了大量编辑，使其更接近我的成就。 - Mcgyver83

#1 很好。#2 - 结果会很合理，因为第二个结果在关键字和边缘图方面都是完全匹配的，所以总分为11.5，而第三个结果仅在标题上匹配了边缘图，得分仅有8，因此排名较低。下面的结果也是同样道理。您需要相应地调整权重。 - Jayendra

好的，我正在了解关于tie参数的内容。但是使用我的配置，每个title_ex字段都将参与到title字段的子字符串匹配得分中。我添加了*_ex字段仅用于精确匹配，但现在它们使排名调整更加困难。得分如何计算？如何显示每个字段匹配的得分以微调字段提升？关于关键字，您写了6+5.5=11.5，但计算并不简单，只是为了说明如何使字段匹配参与全局得分，对吗？ - Mcgyver83

是的，它不像6+5.5=11.5那么简单，因此我已经提到每个字段给定一个术语和分数。许多组件参与评分，这可能是决定性因素，如果其他所有条件都相同。 - Jayendra

显示剩余4条评论