当使用Jupyter Notebook时,是否有一种方法可以从上次关闭点继续工作?

3
我正在学习数据科学,并使用Jupyter Notebook来进行工作。我已经完成了许多数据预处理和训练工作。但是我意识到,每次关闭笔记本电脑并希望在第二天继续工作时,我都必须运行所有单元格,从第一个运行到上次停止的地方。这浪费了我的时间,因为重新运行所有单元格需要很长时间。
我相信一定有更好的方法。因为我加载数据、处理数据和拟合机器学习模型,所以每次重新开始都没有意义。然而,我没有找到答案。有人可以告诉我如何做吗?
我刚刚听说过Dill,它保存变量,它是否也可以保存ML模型?当重新打开Jupyter时,它是否与关闭时完全相同?

1个回答

0

无法保存整个Jupyter笔记本的状态。所有变量都存储在内存中。因此,当您关闭笔记本时,所有内容都将丢失。

您可以明确地保存中间步骤:

  • 对于数据处理,请使用pd.write_csv(df)在完成最终数据集后,以便您不必预处理数据。打开笔记本时,请检查文件是否存在,如果存在,则将其加载到新数据框中。
  • 训练模型后,请使用pickle库保存它(请参阅原始问题中的第一条评论)。打开笔记本时加载训练后的模型。

这样做,您就不必每次关闭和打开笔记本时重新运行所有繁重的任务。

希望有所帮助,干杯!


是的。当您能够在第一次创建模型时就可以使用它时,这很有效。不幸的是,我的工作更多地涉及探索性数据分析。是的,我可以保存每次分析的输出以供以后使用,但是每次我都必须读取csv(输入数据)以在其上运行任何新的分析(考虑到我将在多个会话中多次处理数据 - 因此关闭和readcsv丢失)。而这本身就很痛苦,因为文件大约有1 GB,需要很长时间才能读取。 - Meet

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接