欺诈检测分类机器学习中的纬度和经度转换

Question

欺诈检测分类机器学习中的纬度和经度转换

pythonpandasmachine-learningclassificationcoordinates

6

我正在尝试构建一个用于账户注册欺诈检测的机器学习分类模型。我手头拥有的数据包括：姓名、电子邮件地址、坐标（IP地址注册时的纬度和经度）以及标签（欺诈 vs 非欺诈）。以下是我的数据集简要概述：

>>> dataset.summary
Index(['name', 'email','latitude','longitude','label'],dtype='object')
>>> dataset.shape
(93207, 4)

到目前为止，我在训练模型时对如何处理坐标变量感到困惑。一些StackExchange用户建议使用正弦和余弦函数的组合将纬度和经度转换为X、Y和Z坐标。(例如: https://datascience.stackexchange.com/questions/13567/ways-to-deal-with-longitude-latitude-feature) 但我不知道在我的分类用例中是否真的必要？我考虑将每个记录的纬度和经度合并为一个变量。然而，某些地区的经度值为负数。此外，一些欺诈者可能位于高纬度和经度的地区，而其他欺诈者可能位于低纬度和经度的地区。因此，将纬度和经度合并为一个变量可能无法帮助训练模型？

我也可以将纬度和经度转换为城市名称。但是，如果这样做，一个城市的拼写可能与离它很远的另一个城市相似，这可能不会有助于训练模型。您有什么建议吗？

- Stanleyrr

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mayukh Sarkar · Accepted Answer

有多种方法可以解决这个问题。你分享的链接讨论了将纬度和经度分开处理并对它们进行特征缩放的事实。这种方法很好，因为它假设如果在球面坐标系中它们彼此更接近，那么它们在现实生活中也更接近。

但是你的问题不同。我猜你需要知道如何在模型中处理纬度和经度。你可以按以下方式操作。

1.选择正确的模型

并非所有机器学习技术都需要您对特征进行缩放或标准化。通常进行比例标准化是为了使模型相信所有特征都是相等的。这是必要的，因为一些机器学习模型基于距离度量，例如KNN、Logistic Regressions等。因此，如果您不执行特征缩放，则可能会破坏学习。如果您使用一些基于树的模型如DTs、Random-Forests或XGBoost或GBMs，我认为您甚至可以直接使用纬度和经度作为特征集。

2.执行聚类以创建虚拟变量

在这种情况下，您可以使用一些聚类技术（如KMeans）对lat long进行聚类，创建一个名为“cluster”的特性，并给其值集群编号或距离聚类中心，然后删除lat-long列。您还可以为每个簇创建单独的特征，并获取与每个簇中心的距离并将该距离存储到这些变量中。
3.逆地理编码
正如您所提到的，您还可以执行逆地理编码以获取城市和国家名称。但是，在您的情况下，此方法可能不是欺诈的强大预测因素。但仅供参考，
from pygeocoder import Geocoder location = Geocoder.reverse_geocode(12.9716,77.5946) print("City:",location.city) print("Country:",location.country)

4. 我的建议

针对非线性特征空间，建议使用分层聚类（Hierarchical Clustering）而不是KMeans算法。因为KMeans算法在线性特征空间中最大化方差表现良好，但在非线性情况下，如PAM、CLARA和DBSCAN等分层聚类算法更适合使用。