如何在Google Dataproc上安装Jupyter Notebook

Question

如何在Google Dataproc上安装Jupyter Notebook

python-3.xjupyter-notebookhadoop2google-cloud-dataproc

3

我已经在Dataproc上创建了一个由3个节点组成的集群。

现在，我不想删除该集群并重新创建，只是想安装Jupyter。有没有人能告诉我如何在现有的Dataproc集群上安装Jupyter？

-Revan

- Revan

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ritul Lakhtariya · Accepted Answer

步骤1：创建一个Cloud Dataproc集群

在此步骤中，您将使用命令行创建一个名为“datascience”的Cloud Dataproc集群，并初始化和运行Jupyter笔记本电脑。（注意：请不要使用Cloud Shell，因为您将无法在步骤2中从其中创建套接字连接。）

最简单的方法是使用集群的所有默认设置。Jupyter将在主节点的端口8123上运行。如果您没有设置默认值，则在此阶段将提示您输入集群的区域。由于您将连接到集群上的UI，请选择靠近您的区域。

gcloud dataproc clusters create datascience \
--initialization-actions \
    gs://dataproc-initialization-actions/jupyter/jupyter.sh \


Waiting on operation [projects/------/regions/global/operations/XXX-XXX-XXX-XXX-XXX].
Waiting for cluster creation operation...done.                                                                                                                     
Created tw[https://dataproc.googleapis.com/v1/projects/------/regions/global/clusters/datascience].

（如果您喜欢使用图形用户界面，则可以按照这些说明执行相同操作。）

完成后，您的Cloud Dataproc集群已经启动并准备好连接。

下一步，您需要知道Cloud Dataproc主机的主机名以及实例创建的区域。要确定该区域，请在终端中运行以下命令：

gcloud dataproc clusters list

输出：

    NAME      WORKER_COUNT  STATUS  ZONE
datascience 2     RUNNING europe-west1-c

集群主机名是您的Cloud Dataproc集群名称，后面加上“-m”后缀。例如，如果您的集群名称为“my-cluster”，则主机名将为“my-cluster-m”。

步骤2：连接到Jupyter笔记本

您将使用从本地计算机到服务器的ssh隧道连接笔记本。根据您的机器网络设置不同，此步骤可能需要一些时间才能正确完成，因此在继续之前，请通过访问YARN UI来确认一切正常。从启动浏览器时按照cluster-web-interfaces云文档中的说明操作，访问以下URL。

http://datascience-m:8088/

一旦隧道运行，就可以连接到笔记本的外部IP和端口。默认端口为8123。

http://datascience-m:8123

请点击此Google帖子以获取更多详细信息。点击这里

享受吧。