Spark与Scala和Pandas结合使用

4

我想在Spark应用程序中使用Panda的转换功能,例如Melt等。

我正在使用Scala进行Spark开发,并且需要使用类似于Pandas中的Melt等一些功能。是否有可能实现这个呢?pd.melt()

我已经见过Pandas和PySpark在Notebooks中配合使用的情况。


可能是重复问题,但没有一个像样的解决方案:https://dev59.com/IqXja4cB1Zd3GeqPNjV1 - mck
我认为这里有你需要的答案:https://dev59.com/GFgR5IYBdhLWcg3wJqm7#42386402 - Boris Azanov
1个回答

1

没有更多详细信息,很难提供示例,因此本答案仅包含链接到文档等内容。

在最近的Spark版本中,支持所谓的 Pandas UDFs,您可以将 Pandas series 或 dataframe 作为参数并返回 series 或参数,因此可以执行 Pandas 函数以获得结果。由于经过优化的数据序列化等原因,Pandas UDF 比传统的 Python UDF 快得多。有关更多详细信息,请参见文档这篇博客文章

另一种选择是使用Koalas - 一个基于Spark重新实现了Pandas API的库。这里也有melt的实现,但请务必阅读文档以了解行为上可能的差异。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接