在Zeppelin中将Pandas数据框转换为Spark数据框

Question

在Zeppelin中将Pandas数据框转换为Spark数据框

pandasapache-sparkdataframeapache-zeppelin

17

我是zeppelin的新手。我有一个使用案例，其中我有一个pandas数据帧。我需要使用zeppelin的内置图表来可视化集合，但我在这里没有清晰的方法。我的理解是，如果数据以RDD格式存在，则可以使用zeppelin可视化数据。因此，我想将pandas数据帧转换为spark数据帧，然后进行一些查询（使用sql），我将进行可视化。首先，我尝试将pandas数据帧转换为spark数据帧，但失败了。

%pyspark
import pandas as pd
from pyspark.sql import SQLContext
print sc
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
print type(df)
print df
sqlCtx = SQLContext(sc)
sqlCtx.createDataFrame(df).show()

我收到了以下错误

Traceback (most recent call last): File "/tmp/zeppelin_pyspark.py", 
line 162, in <module> eval(compiledCode) File "<string>", 
line 8, in <module> File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 406, in createDataFrame rdd, schema = self._createFromLocal(data, schema) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 322, in _createFromLocal struct = self._inferSchemaFromList(data) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 211, in _inferSchemaFromList schema = _infer_schema(first) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/types.py", 
line 829, in _infer_schema raise TypeError("Can not infer schema for type: %s" % type(row)) 
TypeError: Can not infer schema for type: <type 'str'>

有人能帮我一下吗？如果我哪里说错了，请纠正我。

- Bala

3个回答

7

我刚刚把你的代码复制粘贴到笔记本中，它可以正常工作。

%pyspark
import pandas as pd
from pyspark.sql import SQLContext
print sc
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
print type(df)
print df
sqlCtx = SQLContext(sc)
sqlCtx.createDataFrame(df).show()

<pyspark.context.SparkContext object at 0x10b0a2b10>
<class 'pandas.core.frame.DataFrame'>
     k  v
0  foo  1
1  bar  2
+---+-+
|  k|v|
+---+-+
|foo|1|
|bar|2|
+---+-+

我正在使用这个版本： zeppelin-0.5.0-incubating-bin-spark-1.4.0_hadoop-2.3.tgz

- leleplx

0

尝试在bash中设置SPARK_HOME和PYTHONPATH变量，然后重新运行它

    export SPARK_HOME=path to spark
    export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
    export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH

- Jay Feng

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- eddies · Accepted Answer

对我来说，以下内容在Zeppelin 0.6.0，Spark 1.6.2和Python 3.5.2上运行良好：

%pyspark
import pandas as pd
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
z.show(sqlContext.createDataFrame(df))

其呈现效果如下图:

在此输入图片描述