如何在Google Dataproc上安装Jupyter Notebook

3

我已经在Dataproc上创建了一个由3个节点组成的集群。

现在,我不想删除该集群并重新创建,只是想安装Jupyter。有没有人能告诉我如何在现有的Dataproc集群上安装Jupyter?

-Revan

1个回答

3

步骤1:创建一个Cloud Dataproc集群

在此步骤中,您将使用命令行创建一个名为“datascience”的Cloud Dataproc集群,并初始化和运行Jupyter笔记本电脑。(注意:请不要使用Cloud Shell,因为您将无法在步骤2中从其中创建套接字连接。)

最简单的方法是使用集群的所有默认设置。Jupyter将在主节点的端口8123上运行。如果您没有设置默认值,则在此阶段将提示您输入集群的区域。由于您将连接到集群上的UI,请选择靠近您的区域。

gcloud dataproc clusters create datascience \
--initialization-actions \
    gs://dataproc-initialization-actions/jupyter/jupyter.sh \


Waiting on operation [projects/------/regions/global/operations/XXX-XXX-XXX-XXX-XXX].
Waiting for cluster creation operation...done.                                                                                                                     
Created tw[https://dataproc.googleapis.com/v1/projects/------/regions/global/clusters/datascience].

(如果您喜欢使用图形用户界面,则可以按照这些说明执行相同操作。)

完成后,您的Cloud Dataproc集群已经启动并准备好连接。

下一步,您需要知道Cloud Dataproc主机的主机名以及实例创建的区域。要确定该区域,请在终端中运行以下命令:

gcloud dataproc clusters list

输出:

    NAME      WORKER_COUNT  STATUS  ZONE
datascience 2     RUNNING europe-west1-c

集群主机名是您的Cloud Dataproc集群名称,后面加上“-m”后缀。例如,如果您的集群名称为“my-cluster”,则主机名将为“my-cluster-m”。

步骤2:连接到Jupyter笔记本

您将使用从本地计算机到服务器的ssh隧道连接笔记本。根据您的机器网络设置不同,此步骤可能需要一些时间才能正确完成,因此在继续之前,请通过访问YARN UI来确认一切正常。从启动浏览器时按照cluster-web-interfaces云文档中的说明操作,访问以下URL。

http://datascience-m:8088/

一旦隧道运行,就可以连接到笔记本的外部IP和端口。默认端口为8123。

http://datascience-m:8123

请点击此Google帖子以获取更多详细信息。点击这里

享受吧。


如何在现有的Dataproc集群上安装Jupyter? - Revan
没有自动完成这个操作的方法,您需要手动完成或使用 init action 重新创建集群。 - Igor Dvorzhak
我可以手动安装Jupyter,但不确定如何连接到Dataproc。有什么想法吗? - whatsnext

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接