191得票12回答
如何让Pandas DataFrame的apply()函数使用所有CPU核心?

截至2017年8月,Pandas的DataFame.apply()仍然只能使用单个核心,这意味着当您运行df.apply(myfunc, axis=1)时,多核计算机将浪费大部分计算时间。 如何在并行中使用所有内核来运行数据帧上的应用程序?

102得票1回答
在什么情况下我可以使用Dask而不是Apache Spark?

我目前正在使用Pandas和Spark进行数据分析。我发现Dask提供了并行化的NumPy数组和Pandas DataFrame。 Pandas在Python中进行数据分析易于上手且直观。但是,由于系统内存有限,处理多个较大的数据框在Pandas中会遇到困难。 简单回答: Apache ...

79得票5回答
fastparquet和pyarrow的比较?

我进行了一些搜索,但没有找到完整的fastparquet和pyarrow比较的资料。 我找到了这篇博客文章(一个速度的基本比较)。 还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena(顺便问一下,现在还是这样吗?) 何时/为什么会使用其中之一...

61得票3回答
如何将Dask.DataFrame转换为pd.DataFrame?

我已完成 dask.DataFrame 的数据处理,现在想将其转换为 pandas.DataFrame,以便运用 sklearn 对结果进行聚合分析,应该如何操作?

53得票2回答
Python Dask DataFrame,支持(容易并行化的)行应用程序吗?

我最近发现了一个名为 dask 的模块,它旨在成为易于使用的Python并行处理模块。对我来说最大的卖点是它可以与pandas一起使用。 在阅读了一些其手册页面内容后,我无法找到一种轻松解决这个可平行化任务的方法:ts.apply(func) # for pandas series df.a...

49得票1回答
将Pandas数据帧转换为Dask数据帧

假设我有一个Pandas数据框如下: df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) 当我将其转换为dask dataframe时,name和divisions参数应包含什么内容: from dask import dataframe as dd ...

43得票1回答
稀疏CSR数组的外存处理

如何使用Python在磁盘上保存的稀疏CSR数组的块上并行应用某些函数?顺序地,可以通过使用joblib.dump保存CSR数组,使用joblib.load(..,mmap_mode =“r”)打开它,并逐个处理行块来完成。是否可以使用dask更有效地完成此操作? 特别是,假设一个人不需要所...

35得票2回答
将Dask分区写入单个文件

我刚接触 dask,有一个 1GB 的CSV文件,当我在dask数据框中读取它时,它会创建大约50个分区。在我对文件进行更改后,写入时会创建与分区数量相同的文件。 有没有一种方法可以将所有分区写入单个CSV文件,并且有没有访问分区的方法? 谢谢。

33得票2回答
以内存高效的方式将大型csv文件读入稀疏的pandas数据框。

使用Pandas中的read_csv函数似乎没有稀疏选项。我的CSV数据中有很多零值(压缩效果非常好,删除任何0值可以将其减少到原始大小的一半左右)。 我尝试先使用read_csv将其加载到密集矩阵中,然后调用to_sparse,但是这需要很长时间,并且对文本字段进行处理时会发生错误,尽管大...

33得票2回答
在当前进程完成引导阶段之前,尝试启动新进程。

我是dask的新手,我发现有一个模块可以轻松实现并行化很棒。我正在一个项目中工作,在这个项目中,我能够在单台机器上并行化循环,如你可以在这里看到。但是,我想转移到dask.distributed。我对上面的类应用了以下更改:diff --git a/mlchem/fingerprints/ga...