AWS Sagemaker:Jupyter Notebook 内核不断崩溃

4
我在Sagemaker上运行Jupyter Notebooks的代码时,偶尔会断开连接。我通常只需重新启动笔记本并再次运行所有单元格即可。但是,我想知道是否有一种方法可以重新连接到我的实例,而无需失去我的进度。目前,底部栏显示"没有内核",但我的文件在内核会话选项卡中似乎仍处于活动状态。我能否恢复笔记本的变量和内容?此外,有没有办法防止未来的内核断开连接?
请注意,我已回退到tornado = 5.1.1,这似乎减少了断开连接的数量,但仍然偶尔发生。

从描述来看,您是使用笔记本电脑训练模型,对吗? - Abdelrahman Maharek
实际上,这是在训练之前对数据集进行预处理时发生的。 - Pleastry
如果数据量很大,建议运行单独的数据处理作业。您可以连接到 EMR 集群并在 EMR 集群上运行 Spark 作业,并将输出存储在 S3 上。 - Abdelrahman Maharek
2个回答

1
通常,由于作业长时间运行而没有用户输入,因此断开连接。如果是预处理需要较长时间,您可以增加处理作业的实例大小,以便更快地执行,或者增加实例计数。如果您正在使用EMR,则自2021年12月起,现在可以直接在EMR集群上运行EMR Spark查询: https://aws.amazon.com/about-aws/whats-new/2021/12/amazon-sagemaker-studio-data-notebook-integration-emr/ 这里有一篇有用的博客https://aws.amazon.com/blogs/machine-learning/build-amazon-sagemaker-notebooks-backed-by-spark-in-amazon-emr/,可以帮助您快速上手。
如需更多信息,请告诉我,如果有用,请投票给答案。 :-)

0
对我而言,快速解决方案是打开终端,将笔记本文件另存为Python文件,并在Sagemaker中的终端中运行它。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接