9得票3回答
评分算法:如何将“喜欢”和“不喜欢”的数量和百分比转换为一个单一的得分?

我有一个网站,用户可以“喜欢”和“不喜欢”物品。对于每个物品,我有数据,例如“喜欢”的总数以及是“喜欢”的总投票数的百分比。 我想计算一个单一的分数来显示给用户。仅使用百分比是不行的,因为即使item_A可能有90%的“喜欢”,而item_B可能有80%的“喜欢”,如果item_B有10,0...

7得票2回答
确定具有多个权重的测验的“难度”?

我正在尝试确定一个测验对象的“难度”。我的最终目标是为任何测验创建一个“难度分数”(DS)。这将使我能够准确比较一个测验和另一个测验,尽管它们由不同的问题/答案组成。在创建我的测验对象时,我为每个问题分配一个“难度指数”(DI),该指数在1-15的范围内。15表示最困难,1表示最简单。现在,衡...

7得票1回答
通过文本匹配和到某一点的距离来评分文档。

我有一个ElasticSearch索引,其中列出了“商店”的列表。我希望允许客户通过geo_distance(即查找接近该位置的商店)和文本匹配(例如商店名称/地址匹配)来搜索这些商店。我希望得到同时满足这两个条件的结果,并且我希望这些结果的顺序是两者的组合。文本匹配越强,离所搜点越近,结果越...

33得票5回答
检测哪张图片更清晰

我正在寻找一种方法来检测两张相似图片的哪一张更加清晰。 我认为可以使用某种整体锐度的度量方式,并生成得分(假设例子:image1的锐度得分为9,image2的锐度得分为7,则image1更清晰)。 我已经搜索了一些关于锐度检测/评分算法的内容,但只找到了一些能够增强图像锐度的算法。 是否...

41得票3回答
Scikit-learn中用于聚类超参数评估的网格搜索

我正在对大约100个记录(未标记)进行聚类,并尝试使用grid_search评估具有各种超参数的聚类算法。 我正在使用silhouette_score进行评分,效果很好。 我的问题在于,我不需要使用GridSearchCV/RandomizedSearchCV的交叉验证,但我找不到简单的Gri...

8得票1回答
Scikit-learn自定义评分函数需要数据集中除X和y以外的值

我试图根据历史体育博彩的表现来评估模型。 我有一个数据集,包含以下列: feature1 | ... | featureX | oddsPlayerA | oddsPlayerB | winner 这个模型将进行回归分析,输出结果是PlayerA赢得比赛的胜率。 据我了解,我可以使用...

7得票2回答
Lucene 数值字段的自定义打分

除了在文本内容字段上使用tf-idf相似度进行标准术语搜索外,我希望还可以基于数字字段的“相似性”进行评分。这种相似性将取决于查询值和文档中的值之间的距离(例如,高斯函数m=[用户输入],s=0.5)。 也就是说,假设文档代表人,人的文档有两个字段: - 描述(全文) - 年龄(数字) ...

14得票3回答
ElasticSearch默认评分机制

我希望您能提供一个清晰明了的解释,关于ElasticSearch(Lucene)默认评分机制的工作原理。我的意思是,它是否使用Lucene评分,或者它使用自己的评分机制? 例如,我想通过“名称”字段搜索文档。我使用.NET NEST客户端编写查询。让我们考虑以下类型的查询: IQueryR...

7得票4回答
用于计算h指数的SQL

根据wikipedia: 如果一个科学家的Np篇论文中有h篇论文至少被引用了h次,而其他(Np-h)篇论文每篇不超过h次,则该科学家的指数为h。 假设我们有SCIENTISTS、PAPERS和CITATIONS三个表格,SCIENTISTS和PAPERS之间有一对多关系,PAPERS和...

7得票1回答
当Elasticsearch返回相同得分的结果时,如何进行分页。

如果多个文档具有相同的分数,是否可以实现Elasticsearch搜索结果的可靠分页? 我正在尝试使用自定义评分在Elasticsearch中进行实验。我尝试的许多评分表达式产生了许多文档具有相同分数的结果集。它们似乎每次都按照相同的顺序出现,但是能保证吗? 据我所知,特别是在群集中有多个...