得票数最多 'blaze' 问题

关联标签

166得票8回答

如何将Parquet文件读入Pandas DataFrame？

如何在没有设置像Hadoop或Spark这样的集群计算基础设施的情况下，将一个适度大小的Parquet数据集读入内存的Pandas DataFrame？我想用一台笔记本电脑上的简单Python脚本将数据读入内存。数据不驻留在HDFS上。它可能位于本地文件系统或S3中。我不想启动和配置其...

pythonpandasdataframeparquetblaze

17得票5回答

Python粒子模拟器：离线处理

问题描述在Python/Numpy中编写一个蒙特卡罗粒子模拟器（布朗运动和光子发射）。我需要将模拟输出（>>10GB）保存到文件中，并在第二步处理数据。与Windows和Linux的兼容性很重要。粒子数 (n_particles) 在10-100之间。时间步数(time_size) 大...

numpypandaspytablesh5pyblaze

10得票4回答

使用Scikit Learn K-Means闪耀

我正在尝试将 Blaze 数据对象适配到 Scikit Kmeans 函数。from blaze import * from sklearn.cluster import KMeans data_numeric = Data('data.csv') data_cluster = KMeans(...

pythonscikit-learnblaze

8得票1回答

PyData Blaze：它是否允许并行处理？

我正在寻求并行化numpy或pandas操作。为此，我一直在研究pydata的blaze。我的理解是无缝并行化是它的主要卖点。不幸的是，我无法找到可以在多个核心上运行的操作。目前blaze中是否可用并行处理或仅为陈述目的？我做错了什么吗？我正在使用blaze v0.6.5。我希望并行化...

pythonnumpypandasmultiprocessingblaze

8得票2回答

PyData BLAZE 项目将何去何从？

我认为Blaze生态系统非常惊人，因为它涵盖了大部分数据工程使用情况。在2015-2016年期间，这些项目肯定受到了很多关注，但最近却被忽视了。我是通过查看github repos上的提交记录得出这个结论的。因此，我的问题是： - 2016年发生了什么导致大家失去了兴趣？ - 是否有其他...

daskblazeododatashape

7得票1回答

选择一个用于Python超内存数据分析的框架

我正在解决一个数据集大于内存的问题。原始数据集是一个.csv文件。其中一列是来自musicbrainz服务的曲目ID。我已经使用dask读取了.csv文件，并将其转换为磁盘上的castra格式以获得更高的性能。我还查询了musicbrainz API，并使用peewee填充了一个sq...

pythonhdf5blazedask