我正在寻找一种学习处理大型数据集的方法。我是一名大学生,所以我所做的所有事情都是“不错”的规模和复杂性。本学期与教授合作进行研究项目时,我需要可视化一个相当大(在我的经验中)的数据集之间的关系。它是一个15 MB的CSV文件。
我大部分的数据整理都是用Python编写的,并使用GNUPlot进行可视化。
是否有任何易于理解的书籍或网站可以帮助我学习?使用Python加分,使用比依赖gnuplot更基础的可视化系统则更加加分,例如Cairo等。
我想要的是一些从数据挖掘到处理再到可视化的教程。
编辑:我更希望能够学习“大思想”。我自己可以编写代码,但是我正在寻找人们处理大型数据集使用的技术。我的15 MB足够小,以至于我可以将我需要的所有内容都放入内存并开始计算。但是,人们如何可视化5 GB的数据集呢?