处理机器学习中的地理空间坐标

3
我正在构建一个机器学习模型,其中一些列是物理地址(我可以将它们翻译成X/Y坐标),但我有点困惑ML算法将如何处理这些数据。是否有特定的方法将地理位置转换为适用于ML分类和/或回归的列?
提前感谢!

你能具体说明一下“columns”是什么意思吗?机器学习可以处理任何类型的数据... 你能详细说明一下你的问题吗?(最好提供一些数据样本) - Eskapp
嗨@Eskapp,为了最大程度地简化它,让我们考虑我有一个起始邮政编码,一个目的地邮政编码和一个运输时间(从起点到终点)。我想预测从起点到终点的运输时间。我的担忧是邮政编码与另一个邮政编码无关(没有数学关系),因此我考虑使用坐标,但这将数据分成两个应该与某些内容相关联的不同列。最后,我想知道如何为ML算法处理这些地理空间数据。 - Sebastien Cantos
我不会将其视为分裂,而只是作为多维数据(在您的情况下,维度将为2)。机器学习算法适用于一维和多维数据。这两个维度可以相关或不相关,具体取决于您在之后选择的模型中如何定义参数。这回答了您的问题吗?还是我漏掉了什么? - Eskapp
“相关性”这部分是我之前所缺失的。我需要阅读如何让算法注意到X和Y之间存在的相关性。感谢您的提示。 - Sebastien Cantos
在大多数情况下,相关性不必明确设置。比如,如果你用高斯模型来建模你的数据,在估计这个高斯分布的参数时,协方差矩阵将具有非零的非对角线项,它们将表示数据之间的相关性。你只需要不假设2个维度是不相关的即可。如果这回答了你的问题,我会在本帖中提交一个清晰的答案。 :) - Eskapp
我从你的话中理解到,X和Y可能是自给自足的。正如我在下面对@raghu所说的,我将使用线性回归和随机森林,并且我相信添加一些来自X和Y的信息可能会有所帮助,就像他所说的那样。 - Sebastien Cantos
2个回答

1
特征的选择通常取决于您预期特征与目标变量之间的关系类型。您说邮政编码本身与目标没有任何关系是正确的。在这里,邮政编码只是一个字符串或类别。您计划使用什么样的模型?线性回归和决策树是两个例子。这些模型以不同的方式捕捉关系。例如,对于一个特征,您可以计算源和目的地之间的直线距离,并在模型中使用它,因为直觉上,它们越远,运输时间可能越长。运输时间还依赖于什么?看看您能否以某种方式将影响旅行时间的因素与您拥有的信息(即邮政编码/ XY坐标)联系起来。

嗨@raghu,我主要将使用线性回归和随机森林。距离问题也是我的研究重点,但我没有深入探究。你的评论带给我有趣的启示,即“什么与位置和运输时间有关联?”这是我一直在使用的方法,但我没有看到真正的问题所在。我想到了一些有趣的可能特征,比如天气(我有旅行的日期时间),年份周期(假期等等)。我将牢记这一点,以便以这种方式处理空间信息。 - Sebastien Cantos
确实有一些额外的功能会非常有用。但是在许多情况下,我们通常也使用机器学习来绕过手工建模。如果您拥有成对数据,例如({Coordinates_place1,Coordinates_place2},output),则您的模型将尝试推断某种相关性。但是,如果您希望输出为运输时间,那么仅仅使用坐标肯定是不够的。此外,针对这样复杂的问题,线性回归可能并不被推荐... 复杂问题的过于简单的模型... - Eskapp

0

这是我们在评论中得出的答案总结:

将邮政编码转换为地理坐标系,不应视为“分割”,而只应视为以多维方式表示数据的一种方式(在本例中,维数将为2)。 机器学习算法既适用于一维数据,也适用于多维数据。这两个维度可以是相关的或不相关的,具体取决于您在之后选择的模型参数如何定义。

此外,在大多数情况下,关联性不必明确设置。仅一个初始值可能有用,但许多算法还依赖于随机初始化或其他简单方法来从数据子集估计它。因此,为了清晰起见,如果您例如通过高斯模型对数据进行建模,则在估计此高斯分布的参数时,协方差矩阵将具有非零的非对角线项,这些项将表示数据的相关性。您只需要不假设2个维度不相关即可!


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接