将带有度分秒(DMS)坐标的pandas数据框转换为十进制度数

13

我有一个如下所示的数据框,希望将纬度经度列从度分秒格式转换为十进制度数——负号表示正确的半球。有没有简单的方法可以做到这一点?

Parent Company  CPO PKO Latitude    Longitude
Incasi Raya X       0°51'56.29"S    101°26'46.29"E
Incasi Raya X       1°23'39.29"S    101°35'30.45"E
Incasi Raya X       0°19'56.63"N    99°22'56.36"E
Incasi Raya X       0°21'45.91"N    99°37'59.68"E
Incasi Raya X       1°41'6.56"S 102°14'7.68"E
Incasi Raya X       1°15'2.13"S 101°34'30.38"E
Incasi Raya X       2°19'44.26"S    100°59'34.55"E
Musim Mas   X       1°44'55.94"N    101°22'15.94"E

例如,0°51'56.29"S将被转换为-0.8656361


相关链接:https://dev59.com/U2gv5IYBdhLWcg3wF89P和https://dev59.com/_VsX5IYBdhLWcg3wS907 - Stephen Rauch
4个回答

12

基于SO的一个函数,我的答案如下:

有趣的是,在数据集超过500行时,这个答案的速度也比MaxU和Amis的答案快2倍。 我打赌瓶颈在str.extract()上。 但显然有些奇怪。

import pandas as pd
import re

#https://dev59.com/_VsX5IYBdhLWcg3wS907
def dms2dd(s):
    # example: s = """0°51'56.29"S"""
    degrees, minutes, seconds, direction = re.split('[°\'"]+', s)
    dd = float(degrees) + float(minutes)/60 + float(seconds)/(60*60);
    if direction in ('S','W'):
        dd*= -1
    return dd

df = pd.DataFrame({'CPO': {0: 'Raya', 1: 'Raya'},
 'Latitude': {0: '0°51\'56.29"S', 1: '1°23\'39.29"S'},
 'Longitude': {0: '101°26\'46.29"E', 1: '101°35\'30.45"E'},
 'PKO': {0: 'X', 1: 'X'},
 'ParentCompany': {0: 'Incasi', 1: 'Incasi'}})

df['Latitude'] = df['Latitude'].apply(dms2dd)
df['Longitude'] = df['Longitude'].apply(dms2dd)

打印 df 返回:

    CPO   Latitude   Longitude PKO ParentCompany
0  Raya  -0.865636  101.446192   X        Incasi
1  Raya  -1.394247  101.591792   X        Incasi

更新:要纠正你的错误,你可以尝试以下方法:

m = df['Latitude'].str[-2] != '"'
df.loc[m, 'Latitude'] = df.loc[m, 'Latitude'].str[:-1] + '"' + df.loc[m, 'Latitude'].str[-1]

完整示例:

import re

s1 = """0°51'56.29"S"""
s2 = """0°51'56.29S"""

df = pd.Series((s1,s2)).to_frame(name='Latitude')

m = df['Latitude'].str[-2] != '"'
df.loc[m, 'Latitude'] = df.loc[m, 'Latitude'].str[:-1] + '"' + df.loc[m, 'Latitude'].str[-1]

print(df)

感谢您,@Anton vBR。它在“Longitude”列上运行得非常好,但由于某种奇怪的原因,当我在我的“Latitude”列上运行它时,我会收到“ValueError:not enough values to unpack (expected 4, got 3)” 的错误信息。您有任何想法为什么会发生这种情况吗? - Funkeh-Monkeh
好的,我刚意识到有一行数值是这样的 0°45'2.22S 而不是 0°45'2.22"S ,所以我猜那可能是引起问题的原因。有没有什么简单的方法可以解决这个问题? - Funkeh-Monkeh
@Funkeh-Monkeh 这只有一行吗?如果是的话,我会手动更改为正确的值。在其他情况下,如果您确定其他所有内容都正确,我添加了一个更新的代码,您可以在应用函数之前运行它。 - Anton vBR

4
您可以使用向量化操作,使用pd.Series.str.extract。例如,对于纬度:
parts = df.Latitude.str.extract('(\d+)°(\d+)\'([^"]+)"([N|S|E|W])', expand=True)
>>> (parts[0].astype(int) + parts[1].astype(float) / 60 + parts[2].astype(float) / 3600) * parts[3].map({'N':1, 'S':-1, 'E': 1, 'W':-1})
0    101.446192
1    101.591792
2     99.382322
3     99.633244
4    102.235467
5    101.575106
6    100.992931
7    101.371094

有趣,我有非常相似的想法 ;-) - MaxU - stand with Ukraine
我有一个包含一些NaN(空)值的大系列。我该如何跳过这些值并使用pd.series.str.extract? - kamome
数值错误:无法将浮点数NaN转换为整数。 - kamome

1
这里有一种向量化方法,还使用了矩阵 * 向量([1, 1./60, 1./3600])乘法:
In [233]: %paste
def dms2dec(s):
    x = (s.str.upper()
          .str.split(r'[°\'"]', expand=True)
          .replace(['S','W','N','E'], [-1,-1,1,1])
          .astype('float'))
    return x.iloc[:, :3].dot([1, 1./60, 1./3600]).mul(x.iloc[:, 3])

## -- End pasted text --

In [234]: df[['Latitude','Longitude']] = df[['Latitude','Longitude']].apply(dms2dec)

In [235]: df
Out[235]:
  Parent Company CPO PKO  Latitude   Longitude
0    Incasi Raya       X -0.865636  101.446192
1    Incasi Raya       X -1.394247  101.591792
2    Incasi Raya       X  0.332397   99.382322
3    Incasi Raya       X  0.362753   99.633244
4    Incasi Raya       X -1.685156  102.235467
5    Incasi Raya       X -1.250592  101.575106
6    Incasi Raya       X -2.328961  100.992931
7      Musim Mas       X  1.748872  101.371094

逐步解释:
In [239]: x = (s.str.upper()
     ...:       .str.split(r'[°\'"]', expand=True)
     ...:       .replace(['S','W','N','E'], [-1,-1,1,1])
     ...:       .astype('float'))

In [240]: x
Out[240]:
     0     1      2    3
0  0.0  51.0  56.29 -1.0
1  1.0  23.0  39.29 -1.0
2  0.0  19.0  56.63  1.0
3  0.0  21.0  45.91  1.0
4  1.0  41.0   6.56 -1.0
5  1.0  15.0   2.13 -1.0
6  2.0  19.0  44.26 -1.0
7  1.0  44.0  55.94  1.0

In [241]: x.iloc[:, :3].dot([1, 1./60, 1./3600])
Out[241]:
0    0.865636
1    1.394247
2    0.332397
3    0.362753
4    1.685156
5    1.250592
6    2.328961
7    1.748872
dtype: float64

In [242]: x.iloc[:, :3].dot([1, 1./60, 1./3600]).mul(x.iloc[:, 3])
Out[242]:
0   -0.865636
1   -1.394247
2    0.332397
3    0.362753
4   -1.685156
5   -1.250592
6   -2.328961
7    1.748872
dtype: float64

我不明白。不知何故,当计时时,你的解决方案比我的慢10倍。 - Anton vBR
@AntonvBR,你的测试DF长度是多少? - MaxU - stand with Ukraine
只有两行代码..但这真的很重要吗?对于这个小例子,是什么在拖慢它?我去掉了额外开销后,你的函数需要33毫秒,而“我的”只需要1毫秒。 - Anton vBR
@AntonvBR,是的,这很重要。有趣的是,你的解决方案似乎比我的快大约2倍(对于更大的DFs)... - MaxU - stand with Ukraine
是的,我知道这很重要。但是对于一个小集合来说,它不应该是33的因素。我会看一下Amis的答案。 - Anton vBR
好的,Ami的答案也比较慢。是不是因为str.extract构建数据集需要时间呢? - Anton vBR

1
你可以使用库DataPrep中的函数clean_lat_long()。使用pip install dataprep进行安装。
from dataprep.clean import clean_lat_long
df = pd.DataFrame({"Latitude": ["0°51'56.29''S", "1°23'39.29''S", "0°19'56.63''N"],
     "Longitude": ["101°26'46.29''E", "101°35'30.45''E", "99°22'56.36''E"]})

df2 = clean_lat_long(df, lat_col="Latitude", long_col="Longitude", split=True)
df2
        Latitude        Longitude  Latitude_clean  Longitude_clean
0  0°51'56.29''S  101°26'46.29''E         -0.8656         101.4462
1  1°23'39.29''S  101°35'30.45''E         -1.3942         101.5918
2  0°19'56.63''N   99°22'56.36''E          0.3324          99.3823

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接