我有一个csv数据集,看起来像这样:
created_date,latitude,longitude
"2018-10-02 16:52:54",20.56314546,-100.40871983
"2018-10-07 18:06:37",20.56899227,-100.40879701
"2018-10-08 11:55:31",20.57479211,-100.39687493
"2018-10-08 11:55:31",20.58076244,-100.36075875
"2018-10-08 11:55:31",20.60529101,-100.40951731
"2018-10-08 11:55:31",20.60783806,-100.37852743
"2018-10-09 18:10:00",20.61098901,-100.38008197
"2018-10-09 18:10:00",20.61148848,-100.40851908
"2018-10-09 18:10:00",20.61327334,-100.34415272
"2018-10-09 18:10:00",20.61397514,-100.33583425
我正在尝试使用pandas将数据按日期分组,并希望遍历每个组并使用haversine函数计算每个组中纬度、经度之间的距离,该函数需要两个坐标作为参数。
为此,我必须计算例如
coord1与coord2,coord2与coord3等(从组中)
的距离。我想这样做是为了计算平均行驶距离。然后,我需要将距离相加并除以组数以得到结果。
使用pandas,我已经成功将数据分成了组,但我不确定如何遍历这些组,同时排除没有两个坐标可用于计算距离的组(例如"
2018-10-02 16:52:54
")。我的当前Python脚本如下:
col_names = ['date', 'latitude', 'longitude']
data = pd.read_csv('dataset.csv', names=col_names, sep=',', skiprows=1)
grouped = data.groupby('date')
for index, item in grouped:
非常感谢您的咨询。针对您提出的问题,我会尽全力为您解答。根据我理解,您需要一些关于压缩文件的工具和技巧。zip工具可能能够帮助您完成这个任务,但是具体如何操作我还需要了解更多细节。如果您能提供更多信息,我将可以更好地为您提供帮助。