Databricks 的 Spark shell

3

笔记本很好,但是REPL有时更加有用。我是否可以以某种方式运行在Databricks上执行的spark-shell?例如:

spark-shell --master https://adb-5022.2.azuredatabricks.net/

我查看了与Databricks相关的可用工具(如databricks connect、dbx等),但似乎没有这样的功能。
1个回答

1
Databricks connect是您需要的工具,如果您想要在Databricks集群中从本地计算机执行代码。与spark-shell相同,驱动程序将位于您的本地计算机上,而执行器则是远程的。 databricks-connect软件包安装了修改后的Apache Spark分发版,因此您可以使用spark-shellpysparkspark-submit等工具 - 只需确保该目录在PATH中即可。

P.S. 但我真的不明白为什么笔记本对您不起作用 - spark-shell没有任何比它们更优越的功能。


我想要一个REPL。Databricks Connect文档提到了配置客户端 - 其中一部分是运行databricks-connect test,它使用pyspark shell运行一些测试,但然后指令跳到设置IDE。Databricks-connect使用说明说:usage: databricks-connect [-h] {configure,test,get-jar-dir,get-spark-home}。实际上没有直接运行REPL的选项。 - Kombajn zbożowy
对于笔记本电脑和REPL的选择,当然这是个人偏好和具体需求的问题。我也使用笔记本电脑,显然有些情况下笔记本电脑会更加出色。但只是一个例子,在开发/原型设计中我经常做的一件事情是:按上箭头调出上一个命令,稍作修改,执行并在控制台窗口中查看结果。还有其他类似的操作,足以让我寻找REPL。 - Kombajn zbożowy
我已经更新了答案 - databricks-connect 安装了 spark-shell、pyspark 等,因此您可以使用它们。 - Alex Ott
太棒了,正是我所缺少的,谢谢! - Kombajn zbożowy

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接