我曾在Jupyter上创建了一个学习/模型拟合notebook,并在过去一年中在游戏笔记本电脑上使用,几乎没有问题。
由于我现在要将训练数据集增加十倍,所以希望将Jupyter notebook移至AWS Sagemaker,以提供额外的计算能力,并且不必让我的笔记本电脑处于打开但无法使用的状态,直到训练完成。
我创建了Sagemaker实例,并打开了Jupyter notebook。使用代码和原始数据,在我的笔记本电脑上运行三个小时的内容,我尝试运行notebook中的单元格,获取总体时间,以便为更大规模的运行选择正确的硬件方案。
每次尝试运行notebook时,都会导致浏览器崩溃。我已经在Windows 10和Ubuntu 16.04笔记本电脑上尝试了Chrome和Firefox。
我想做两件事,但都不知道如何做:
1)查看jupyter notebook服务器代码日志。我创建了生命周期的create/start脚本,然后查看通过Cloudwatch创建的日志,但没有关于崩溃的信息。
2)查看浏览器内的日志。我在两个浏览器上均打开了开发人员模式,但一旦浏览器崩溃,就无法在窗口中执行任何操作,因此我无法查看任何输出。
以下是试图运行的代码片段。我已尝试使用show_metric=True和False:
from datetime import datetime
start_time=datetime.now().strftime("%Y-%m-%d %H:%M")
tf.reset_default_graph()
# Build neural network
phr_net = tflearn.input_data(shape=[None, len(phr_train_x[0])])
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, len(phr_train_y[0]), activation='softmax')
phr_net = tflearn.regression(phr_net)
# Define model and setup tensorboard
phr_model = tflearn.DNN(phr_net, tensorboard_dir='phr_tflearn_logs')
# Start training (apply gradient descent algorithm)
phr_model.fit(phr_train_x, phr_train_y, n_epoch=EPOCH_RUN_LENGTH, batch_size=8, show_metric=True)
phr_model.save('model.phr_tflearn')
print("start: ", start_time, "end: ", datetime.now().strftime("%Y-%m-%d %H:%M"))
我是一名优秀的谷歌用户,但没有找到任何有用的信息。AWS文档只让我困惑不已。有人能给予一些建议吗?