如何在PySpark中仅打印DataFrame的特定列?

34
可以使用操作 collecttake 来仅打印 DataFrame 中的指定列吗?
df.col.collect()

出现错误

类型错误:'Column' 对象不可调用

还有这个:

df[df.col].take(2)

给出

df['col'].collect() 有效还是 df['col'].take(2) 有效? - EdChum
@EdChum 不行,它导致了与我的第一次尝试相同的错误。 - mar tin
1个回答

66

selectshow:

df.select("col").show()

或者 select, flatMap, collect:

df.select("col").rdd.flatMap(list).collect()
角括号表示法(df[df.col])仅用于逻辑切片和列本身(df.col),不是分布式数据结构,而是SQL表达式,无法进行收集。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接