Chrome/Firefox 浏览器在与 AWS Sagemaker 和 Jupyter 一起使用时崩溃 - 如何记录/调试?

3

我曾在Jupyter上创建了一个学习/模型拟合notebook,并在过去一年中在游戏笔记本电脑上使用,几乎没有问题。

由于我现在要将训练数据集增加十倍,所以希望将Jupyter notebook移至AWS Sagemaker,以提供额外的计算能力,并且不必让我的笔记本电脑处于打开但无法使用的状态,直到训练完成。

我创建了Sagemaker实例,并打开了Jupyter notebook。使用代码和原始数据,在我的笔记本电脑上运行三个小时的内容,我尝试运行notebook中的单元格,获取总体时间,以便为更大规模的运行选择正确的硬件方案。

每次尝试运行notebook时,都会导致浏览器崩溃。我已经在Windows 10和Ubuntu 16.04笔记本电脑上尝试了Chrome和Firefox。

我想做两件事,但都不知道如何做:
1)查看jupyter notebook服务器代码日志。我创建了生命周期的create/start脚本,然后查看通过Cloudwatch创建的日志,但没有关于崩溃的信息。 2)查看浏览器内的日志。我在两个浏览器上均打开了开发人员模式,但一旦浏览器崩溃,就无法在窗口中执行任何操作,因此我无法查看任何输出。

以下是试图运行的代码片段。我已尝试使用show_metric=True和False:

from datetime import datetime
start_time=datetime.now().strftime("%Y-%m-%d %H:%M")
tf.reset_default_graph()
# Build neural network
phr_net = tflearn.input_data(shape=[None, len(phr_train_x[0])])
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, len(phr_train_y[0]), activation='softmax')
phr_net = tflearn.regression(phr_net)

# Define model and setup tensorboard
phr_model = tflearn.DNN(phr_net, tensorboard_dir='phr_tflearn_logs')
# Start training (apply gradient descent algorithm)
phr_model.fit(phr_train_x, phr_train_y, n_epoch=EPOCH_RUN_LENGTH, batch_size=8, show_metric=True)
phr_model.save('model.phr_tflearn')
print("start: ", start_time, "end: ", datetime.now().strftime("%Y-%m-%d %H:%M"))

我是一名优秀的谷歌用户,但没有找到任何有用的信息。AWS文档只让我困惑不已。有人能给予一些建议吗?


AWS文档的哪个部分不够清晰?如果您能指出来,我们可以进行改进。谢谢。 - Pranav Chiplunkar
1个回答

0

弹出一个消息,表示内核已崩溃。在我的家庭系统中,我可以查看我启动Jupyter的终端,并阅读其中包含的错误消息,以便确定原因。我找不到任何方法来显示这些错误消息,或记录它们并查看它们。 - Cliff Rayman

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接