Postgresql中的均方根

Question

Postgresql中的均方根

5

我正在开发一个使用机器学习来预测图像相似度的图像复制库。在此过程中，我们使用均方根误差(Root Mean Square)计算两个图像之间的相似性（我不会进一步解释）。执行此功能的函数如下所示。

# Function that calulates the mean squared error (mse) between two image matrices
def _mse(imageA, imageB):
    err = np.sum((imageA.astype("float") - imageB.astype("float")) ** 2)
    err /= float(imageA.shape[0] * imageA.shape[1])
    return err

我测试了包含5K张图片的文件夹，我的模型效果很好，但是耗时太长。因此，我决定重构代码并将所有张量存储在数据库中。为什么？

如果我将所有图像的张量存储在数据库中，然后使用它来查询即将到来的图像张量，我会很快得到结果。反复遍历所有图像+将一个图像RMS与其他图像匹配将导致许多组合，这需要时间。

解决方案

如果我将所有张量（列表或数组）存储在Postgres数据库中，那么我可以轻松地查询它们与RMS相关的内容，以一次性获取所有图像，而不是遍历它们并找出重复项。

我需要您的帮助来找出是否有任何方法可以查询Postgres以获得最接近RMS的图像

类似于以下内容：

SELECT ID_PARTNER, ID_ACCOUNT
  , SQRT(Avg( POWER(Act_F_1 - Pred_F_1 , 2) ) ) as feature_1_rmse
FROM ...
GROUP BY ID_PARTNER, ID_ACCOUNT

类似问题：如何在直接从表格获取数据时获取RMSE分数？编写查询以实现该目标

这是数据库的样子

- dotsinspace

我对你想要做的事情感到困惑。Act_F_1和Pred_F_1的值从哪里来？在查询之间它们有多少次是相同的？ - David Oldford

请访问：直接从表中获取数据时获取RMSE分数。为该链接编写一个查询以检查Act_F_1和Pred_F_1的来源...我正在尝试构建一个图像重复库..可以在这种情况下直接使用Postgres快速查找重复项。 - dotsinspace

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- David Oldford · Accepted Answer

如果我正确理解您想要做的事情，您只需要创建一个列来保存RMSE计算结果，然后更新表格进行计算。

UPDATE table_name as orig set RMSE=(select SQRT(Avg( POWER(Act_F_1 - Pred_F_1 , 2) ) ) from table_name as copy where orig.ID_PARTNER=copy.ID_PARTNER and orig.ID_ACCOUNT=copy.ID_ACCOUNT GROUP BY ID_PARTNER, ID_ACCOUNT);

编辑：我之前没有注意到分组。我认为这个操作正确地创建了一个预计算的字段，但它可能非常低效，因为我相信它将为每个ID_PARTNER ID_ACCOUNT对重新计算。在SQL中可能有更好的方法来处理这个问题。我会先SELECT DISTINCT ID_PARTNER, ID_ACCOUNT from table_name然后在代码中运行它，并且对于我拥有的每个元组都会运行SELECT SQRT(Avg( POWER(Act_F_1 - Pred_F_1 , 2) ) ) from table_name where ID_PARTNER=? and ID_ACCOUNT=?，然后对于每个值update table_name set RMSE=?。另外，您可以创建一个仅包含ID_PARTNER、ID_ACCOUNT和RMSE的表，并一次性将结果放入其中。

然后数据库中的表将具有所有预计算的值，并且您可以在其上运行查询。如果要查找接近search_RMSE值的内容，请执行以下操作。

SELECT ...,ABS(RMSE - search_RMSE) as RMSE_DIFF from table_name order by RMSE_DIFF;

这并不一定是计算的超级优化方式。你提到了重复性，这意味着你正在寻找相同的值，但是你的计算是浮点数，因此你甚至可能得到应该是相同的值但最终却不是那样的值。你只关心最接近的值还是关心多个最接近的值？如果你只制作一个巨大的表格，并按RMSE排序，每行的最接近值将是上面或下面的行，最接近值的集合将只从该行向上和向下增长。

我不完全确定为什么你想在其中涉及数据库，除非你无法将所有数据放入内存中。如果是这种情况，你可以将原始数据放入数据库中，然后使用你所提到的带有order by子句的select语句，并将其存储在数据库外的块中（如果你需要）。

总之，有很多方法可以做到这一点，我个人会使用cython模块来避免Python中极慢的数学运算（它比numpy快得多，几乎与Python相同），并使用内存数据结构以及一些临时文件来完成所有这些操作。