Spark与Scala和Pandas结合使用

Question

Spark与Scala和Pandas结合使用

pandasscalaapache-sparkpyspark

4

我想在Spark应用程序中使用Panda的转换功能，例如Melt等。

我正在使用Scala进行Spark开发，并且需要使用类似于Pandas中的Melt等一些功能。是否有可能实现这个呢？pd.melt()

我已经见过Pandas和PySpark在Notebooks中配合使用的情况。

- user14728672

可能是重复问题，但没有一个像样的解决方案：https://dev59.com/IqXja4cB1Zd3GeqPNjV1 - mck

我认为这里有你需要的答案：https://dev59.com/GFgR5IYBdhLWcg3wJqm7#42386402 - Boris Azanov

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alex Ott · Accepted Answer

没有更多详细信息，很难提供示例，因此本答案仅包含链接到文档等内容。

在最近的Spark版本中，支持所谓的 Pandas UDFs，您可以将 Pandas series 或 dataframe 作为参数并返回 series 或参数，因此可以执行 Pandas 函数以获得结果。由于经过优化的数据序列化等原因，Pandas UDF 比传统的 Python UDF 快得多。有关更多详细信息，请参见文档和这篇博客文章。

另一种选择是使用Koalas - 一个基于Spark重新实现了Pandas API的库。这里也有melt的实现,但请务必阅读文档以了解行为上可能的差异。