166得票8回答
如何将Parquet文件读入Pandas DataFrame?

如何在没有设置像Hadoop或Spark这样的集群计算基础设施的情况下,将一个适度大小的Parquet数据集读入内存的Pandas DataFrame? 我想用一台笔记本电脑上的简单Python脚本将数据读入内存。 数据不驻留在HDFS上。 它可能位于本地文件系统或S3中。 我不想启动和配置其...

17得票5回答
Python粒子模拟器:离线处理

问题描述 在Python/Numpy中编写一个蒙特卡罗粒子模拟器(布朗运动和光子发射)。我需要将模拟输出(>>10GB)保存到文件中,并在第二步处理数据。与Windows和Linux的兼容性很重要。 粒子数 (n_particles) 在10-100之间。时间步数(time_size) 大...

10得票4回答
使用Scikit Learn K-Means闪耀

我正在尝试将 Blaze 数据对象适配到 Scikit Kmeans 函数。from blaze import * from sklearn.cluster import KMeans data_numeric = Data('data.csv') data_cluster = KMeans(...

8得票1回答
PyData Blaze:它是否允许并行处理?

我正在寻求并行化numpy或pandas操作。为此,我一直在研究pydata的blaze。我的理解是无缝并行化是它的主要卖点。 不幸的是,我无法找到可以在多个核心上运行的操作。目前blaze中是否可用并行处理或仅为陈述目的?我做错了什么吗?我正在使用blaze v0.6.5。 我希望并行化...

8得票2回答
PyData BLAZE 项目将何去何从?

我认为Blaze生态系统非常惊人,因为它涵盖了大部分数据工程使用情况。在2015-2016年期间,这些项目肯定受到了很多关注,但最近却被忽视了。我是通过查看github repos上的提交记录得出这个结论的。 因此,我的问题是: - 2016年发生了什么导致大家失去了兴趣? - 是否有其他...

7得票1回答
选择一个用于Python超内存数据分析的框架

我正在解决一个数据集大于内存的问题。 原始数据集是一个.csv文件。 其中一列是来自musicbrainz服务的曲目ID。 我已经使用dask读取了.csv文件,并将其转换为磁盘上的castra格式以获得更高的性能。 我还查询了musicbrainz API,并使用peewee填充了一个sq...