如何正确使用pandas中的.apply函数？

Question

如何正确使用pandas中的.apply函数？

3

我正在处理一个包含“纬度”和“经度”列的百万行CSV数据集，我想基于此创建一个名为“州”的新列，该列是包含这些坐标的美国州。

import pandas as pd
import numpy as np
import os
from uszipcode import ZipcodeSearchEngine

def convert_to_state(coord):
    lat, lon = coord["latitude"], coord["longitude"]
    res = search.by_coordinate(lat, lon, radius=1, returns=1)
    state = res.State
    return state

def get_state(path):
    with open(path + "USA_downloads.csv", 'r+') as f:
        data = pd.read_csv(f)
        data["state"] = data.loc[:, ["latitude", "longitude"]].apply(convert_to_state, axis=1)

get_state(path)

我一直收到一个错误信息“ DtypeWarning：列（4，5）具有混合类型。指定导入时的 dtype 选项或将 low_memory = False。” 第4和5列对应纬度和经度。我不明白如何使用.apply来完成此任务，或者.apply是否是正确的方法。我该怎么做？

- adamcircle

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Kartik · Accepted Answer

我相信这将是您程序更快的实现方式：

import pandas as pd
import numpy as np
import os
from uszipcode import ZipcodeSearchEngine

def convert_to_state(lat, lon):
    lat, lon = round(lat, 7), round(lon, 7)
    res = search.by_coordinate(lat, lon, radius=1, returns=1)
    state = res.State
    return state

def get_state(path):
    with open(path + "USA_downloads.csv", 'r+') as f:
        data = pd.read_csv(f)
        data["state"] = np.vectorize(convert_to_state)(data["latitude"].values, data["longitude"].values)

get_state(path)

它使用 numpy.vectorize 来加速处理（尽管仍然是循环），然后使用从 DataFrame 的 'latitude' 和 'longitude' 列获取的值调用该函数，转换为 numpy.ndarray（.values 属性完成此操作）。

如果您想继续使用 .apply()，可以这样做：

state = data.apply(lambda x: convert_to_state(x['latitude'], x['longitude']), axis=1)
data["state"] = state

编辑

为了避免uszipcode引发TypeError，请使用以下方法：

def convert_to_state(lat, lon):
    try:
        res = search.by_coordinate(lat, lon, radius=1, returns=1)
        state = res.State
    except TypeError as TE:
        state = None
    return state

如果您想进一步调试uszipcode并找出导致错误的原因，我建议您提出另一个问题，并使用适当的标签，会有人帮助您。我没有使用过这个软件包，所以可能无法提供太多帮助。