我有一些PySpark数据框,其中几列之一是GPS位置(以WKT格式表示)。 仅选择在某些多边形内的行的最简单方法是什么? 当存在约10亿行时,它是否可扩展?
我正在使用Azure Databricks,如果解决方案可以使用Python,那就更好了,但Scala和SQL也可以。
编辑:Alex Ott的答案-Mosaic-有效且易于使用。
我正在使用Azure Databricks,如果解决方案可以使用Python,那就更好了,但Scala和SQL也可以。
编辑:Alex Ott的答案-Mosaic-有效且易于使用。
ST_Contains
应该来自某个地方... - Alex Ott