我试图创建Spark DataFrame,在其中我想将一个列表转换为列。
代码:
def create_id(n):
return ''.join(random.choice(string.ascii_lowercase + string.digits) for _ in range(50))
list_a = [create_id(25) for x in range(100)]
list_b = [create_id(25) for x in range(100)]
df = sc.parallelize([["a", list_a], ["b", list_b]]).toDF()
这导致
_1 _2
0 a [dv2vtdl3sobadlw1svs39emp2n9ogwzzek8b6gvug7xkp...
1 b [kdv6b9ehqx1t8kbxd77ha8435bhduyxp0ilv6e09wpejx..
这将创建100列,而不是100行:
df = sc.parallelize([list_a, list_b]).toDF()
有人知道如何创建一个包含两列和100行的DataFrame吗?