我使用 PySpark。
Spark ML 的随机森林输出 DataFrame 包含一个名为“probability”的向量列,其中包含两个值。我只想将两个列添加到输出 DataFrame 中,“prob1”和“prob2”,这两个列对应于向量中的第一个和第二个值。
我尝试了以下方法:
Spark ML 的随机森林输出 DataFrame 包含一个名为“probability”的向量列,其中包含两个值。我只想将两个列添加到输出 DataFrame 中,“prob1”和“prob2”,这两个列对应于向量中的第一个和第二个值。
我尝试了以下方法:
output2 = output.withColumn('prob1', output.map(lambda r: r['probability'][0]))
但我收到了“col应该是Column”的错误提示。
有什么建议可以将向量列转换为其值的列?