这是一个关于真实数据集的图论问题。我有一个大约100M个点的数据集,记录了城市中汽车在不同时间被摄像头拍摄到的情况,可以将其视为{摄像头ID、车牌号码ID、时间戳}元组。城市中大约有2000个摄像头,我们知道它们的位置,在我们有数据的一个月内,大约有1000万辆不同的车(车牌)。我试图确定任意两个摄像头(节点)之间存在多少唯一路径。这里的“路径”只是指相邻摄像头在时间上接近连续观察到相同车牌的情况。
问题是其中1/3的摄像头拍摄缺失:大多数摄像头的识别准确率为80%,而有些摄像头的准确率为0-10%。主要问题是:我们如何确定两条路径是否真正不同,而不仅仅是具有一些缺失观测的基础路径?
例如,考虑一些高流量路线A->C。如果只有一种从A到C的方式,比如通过B,那么你仍然会在A处看到很多汽车,而直接在C处是没有的,因为摄像头B恰好没有拍到它们(由于这个缺失数据点事实,大约1/3的总流量将是AC),因此AC看起来也是一条热门路径,而ABC才是人们从A到C真正走的唯一路径。目标是区分这些路径,以便我们可以在一天结束时计算A到C的独特路径数量,以研究交通网络对道路关闭的鲁棒性。
一种方法是比较路径的平均时间,但是通过空间的两条不同路线可能需要非常相似的时间。以下是我针对特定情况解决问题的方法:考虑从A到C的两条路线:ABC和AB'C,其中没有边B->B'。我们知道这实际上不能是一个基础路线ABB'C,因为那么我们会看到一个边B->B',而我们没有看到。我想知道这个启发式方法是否可以推广(但当然,即使BB'是一个边,我们仍然希望区分路径,因为在这种情况下,我们不能保证ABB'C是唯一的真实路径)。
我也愿意使用外部API(如Google Maps)获取更多信息,但不太确定这会使问题变得更容易。我旨在解决两个任意远的摄像头之间任意长的路径问题,但我认为大多数这样的问题都可以简化为上述ABC vs AC问题的版本。
这是一个问题实例的图片示例。左下角可以看作是节点A,右上角是C。然后它变成了AC vs ABC vs ABDC问题。数据显示AC被选了19次,ABC被选了46次,ABDC被选了86次。问题是要找出这三条路径中有多少是人们真正走过的路径。当然,在地图上根据道路网络手动计算更容易,但问题是基于手头的数据对所有点进行算法计算,而不是绘制。 这里是数据的一个例子。我们将数据分成代表真实汽车行程的组。因此,同一辆车牌在不同的摄像头上被拍摄到的时间足够接近(当然是在同一天内)。这是一个组的示例(与上面的图片无关),类似于这样的组约有1000万个。
问题是其中1/3的摄像头拍摄缺失:大多数摄像头的识别准确率为80%,而有些摄像头的准确率为0-10%。主要问题是:我们如何确定两条路径是否真正不同,而不仅仅是具有一些缺失观测的基础路径?
例如,考虑一些高流量路线A->C。如果只有一种从A到C的方式,比如通过B,那么你仍然会在A处看到很多汽车,而直接在C处是没有的,因为摄像头B恰好没有拍到它们(由于这个缺失数据点事实,大约1/3的总流量将是AC),因此AC看起来也是一条热门路径,而ABC才是人们从A到C真正走的唯一路径。目标是区分这些路径,以便我们可以在一天结束时计算A到C的独特路径数量,以研究交通网络对道路关闭的鲁棒性。
一种方法是比较路径的平均时间,但是通过空间的两条不同路线可能需要非常相似的时间。以下是我针对特定情况解决问题的方法:考虑从A到C的两条路线:ABC和AB'C,其中没有边B->B'。我们知道这实际上不能是一个基础路线ABB'C,因为那么我们会看到一个边B->B',而我们没有看到。我想知道这个启发式方法是否可以推广(但当然,即使BB'是一个边,我们仍然希望区分路径,因为在这种情况下,我们不能保证ABB'C是唯一的真实路径)。
我也愿意使用外部API(如Google Maps)获取更多信息,但不太确定这会使问题变得更容易。我旨在解决两个任意远的摄像头之间任意长的路径问题,但我认为大多数这样的问题都可以简化为上述ABC vs AC问题的版本。
这是一个问题实例的图片示例。左下角可以看作是节点A,右上角是C。然后它变成了AC vs ABC vs ABDC问题。数据显示AC被选了19次,ABC被选了46次,ABDC被选了86次。问题是要找出这三条路径中有多少是人们真正走过的路径。当然,在地图上根据道路网络手动计算更容易,但问题是基于手头的数据对所有点进行算法计算,而不是绘制。 这里是数据的一个例子。我们将数据分成代表真实汽车行程的组。因此,同一辆车牌在不同的摄像头上被拍摄到的时间足够接近(当然是在同一天内)。这是一个组的示例(与上面的图片无关),类似于这样的组约有1000万个。
index camera_ID encoded_plate date time_seconds velocity
9200 480301111 660.0 2021-03-11 62000.0 54
9201 480321111 660.0 2021-03-11 62135.0 28
9202 480331111 660.0 2021-03-11 62235.0 5
9203 480341112 660.0 2021-03-11 62302.0 42
9204 450371112 660.0 2021-03-11 62648.0 32