这种算法的一个用途是将今天的小时天气预报与历史天气记录进行比较,以找到天气相似的日子。
两个集合的相似度有点主观,因此该算法实际上只需要区分好匹配和坏匹配之间的差异。我们有很多历史数据,因此我想尝试通过自动丢弃不接近的集合并尝试将“最佳”匹配放在列表顶部来缩小用户需要查看的天数。
编辑: 理想情况下,算法的结果可与使用不同数据集生成的结果进行比较。例如,使用Niles建议的均方误差产生了相当好的结果,但是比较温度时生成的数字不能与使用其他数据(如风速或降水)生成的数字进行比较,因为数据的规模不同。一些非天气数据非常大,因此均方误差算法生成的数字高达数十万,而使用温度仅生成数十或数百。