我正在上一些AI课程,学习了一些基础算法,想要进行实验。通过Kaggle,我已经获得了几个包含大量优秀真实数据的数据集,该网站举办数据分析竞赛。
我尝试参加几个比赛以提高我的机器学习技能,但是一直找不到一个好的方法来在代码中访问这些数据。 Kaggle为每个比赛提供一个大型数据文件,大小在50-200mb之间,格式为csv。
最佳的方法是如何在我的代码中加载和使用这些表格?我的第一反应是使用数据库,所以我尝试将csv加载到sqlite单个数据库中,但这给我的计算机带来了巨大的负担,在提交期间,我的计算机经常崩溃。接下来,我尝试在共享主机上使用mysql服务器,但对其进行查询需要很长时间,并且使我的分析代码变得非常缓慢。此外,我担心会超出我的带宽限制。
到目前为止,在我的课程中,我的教练通常清理数据并为我们提供可管理的数据集,可以完全加载到RAM中。显然,这对于我的当前兴趣是不可能的。请建议我应该如何继续。我目前使用一台4年的MacBook,配有4GB RAM和双核2.1Ghz CPU。
顺便说一下,我希望在Python中完成大部分分析,因为我最擅长这种语言。我希望有一个解决方案,可以让我在这种语言中完成所有或几乎所有的编码。
我尝试参加几个比赛以提高我的机器学习技能,但是一直找不到一个好的方法来在代码中访问这些数据。 Kaggle为每个比赛提供一个大型数据文件,大小在50-200mb之间,格式为csv。
最佳的方法是如何在我的代码中加载和使用这些表格?我的第一反应是使用数据库,所以我尝试将csv加载到sqlite单个数据库中,但这给我的计算机带来了巨大的负担,在提交期间,我的计算机经常崩溃。接下来,我尝试在共享主机上使用mysql服务器,但对其进行查询需要很长时间,并且使我的分析代码变得非常缓慢。此外,我担心会超出我的带宽限制。
到目前为止,在我的课程中,我的教练通常清理数据并为我们提供可管理的数据集,可以完全加载到RAM中。显然,这对于我的当前兴趣是不可能的。请建议我应该如何继续。我目前使用一台4年的MacBook,配有4GB RAM和双核2.1Ghz CPU。
顺便说一下,我希望在Python中完成大部分分析,因为我最擅长这种语言。我希望有一个解决方案,可以让我在这种语言中完成所有或几乎所有的编码。