我有一个包含15列的数据框(4列是分类变量,其余为数值变量)。
我已经为每个分类变量创建了虚拟变量。现在我想找出新数据框中的变量数量。
我尝试计算
我已经为每个分类变量创建了虚拟变量。现在我想找出新数据框中的变量数量。
我尝试计算
printSchema()
的长度,但得到的是NoneType
:print type(df.printSchema())
printSchema()
的长度,但得到的是NoneType
:print type(df.printSchema())
df = sqlContext.createDataFrame([
(1, "A", "X1"),
(2, "B", "X2"),
(3, "B", "X3"),
(1, "B", "X3"),
(2, "C", "X2"),
(3, "C", "X2"),
(1, "C", "X1"),
(1, "B", "X1"),
], ["ID", "TYPE", "CODE"])
# Python 2:
print len(df.columns) #3
# Python 3
print(len(df.columns)) #3
columns
提供了所有列的列表,我们可以检查其长度。而 printSchema
则打印 df 的模式,其中包含列及其数据类型,例如下面:
root
|-- ID: long (nullable = true)
|-- TYPE: string (nullable = true)
|-- CODE: string (nullable = true)