我有一个包含两列的数据框:
+--------+-----+
| col1| col2|
+--------+-----+
|22 | 12.2|
|1 | 2.1|
|5 | 52.1|
|2 | 62.9|
|77 | 33.3|
我想创建一个新的数据框,只选取“col1的值”大于“col2的值”的行。
仅供参考,col1 的类型为 long,col2 的类型为 double
结果应该像这样:
+--------+----+
| col1|col2|
+--------+----+
|22 |12.2|
|77 |33.3|
from pyspark.sql import SQLContext sqlContext = SQLContext.getOrCreate(sc).sparkSession
- jagath