得票数最多 'dask' 问题

标签列表

关联标签

191得票12回答

如何让Pandas DataFrame的apply()函数使用所有CPU核心？

截至2017年8月，Pandas的DataFame.apply()仍然只能使用单个核心，这意味着当您运行df.apply(myfunc, axis=1)时，多核计算机将浪费大部分计算时间。如何在并行中使用所有内核来运行数据帧上的应用程序？

pandasdask

102得票1回答

在什么情况下我可以使用Dask而不是Apache Spark？

我目前正在使用Pandas和Spark进行数据分析。我发现Dask提供了并行化的NumPy数组和Pandas DataFrame。 Pandas在Python中进行数据分析易于上手且直观。但是，由于系统内存有限，处理多个较大的数据框在Pandas中会遇到困难。简单回答： Apache ...

pythonpandasapache-sparkdask

79得票5回答

fastparquet和pyarrow的比较？

我进行了一些搜索，但没有找到完整的fastparquet和pyarrow比较的资料。我找到了这篇博客文章（一个速度的基本比较）。还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena（顺便问一下，现在还是这样吗？）何时/为什么会使用其中之一...

pythonparquetdaskpyarrowfastparquet

61得票3回答

如何将Dask.DataFrame转换为pd.DataFrame？

我已完成 dask.DataFrame 的数据处理，现在想将其转换为 pandas.DataFrame，以便运用 sklearn 对结果进行聚合分析，应该如何操作？

pythonpandasdask

53得票2回答

Python Dask DataFrame，支持（容易并行化的）行应用程序吗？

我最近发现了一个名为 dask 的模块，它旨在成为易于使用的Python并行处理模块。对我来说最大的卖点是它可以与pandas一起使用。在阅读了一些其手册页面内容后，我无法找到一种轻松解决这个可平行化任务的方法：ts.apply(func) # for pandas series df.a...

pythonpandasparallel-processingdask

49得票1回答

将Pandas数据帧转换为Dask数据帧

假设我有一个Pandas数据框如下： df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) 当我将其转换为dask dataframe时，name和divisions参数应包含什么内容： from dask import dataframe as dd ...

pythonpandasdataframedata-conversiondask

43得票1回答

稀疏CSR数组的外存处理

如何使用Python在磁盘上保存的稀疏CSR数组的块上并行应用某些函数？顺序地，可以通过使用joblib.dump保存CSR数组，使用joblib.load（..，mmap_mode =“r”）打开它，并逐个处理行块来完成。是否可以使用dask更有效地完成此操作？特别是，假设一个人不需要所...

pythonscipyapache-spark-mllibdaskjoblib

35得票2回答

将Dask分区写入单个文件

我刚接触 dask，有一个 1GB 的CSV文件，当我在dask数据框中读取它时，它会创建大约50个分区。在我对文件进行更改后，写入时会创建与分区数量相同的文件。有没有一种方法可以将所有分区写入单个CSV文件，并且有没有访问分区的方法？谢谢。

pythondask

33得票2回答

以内存高效的方式将大型csv文件读入稀疏的pandas数据框。

使用Pandas中的read_csv函数似乎没有稀疏选项。我的CSV数据中有很多零值（压缩效果非常好，删除任何0值可以将其减少到原始大小的一半左右）。我尝试先使用read_csv将其加载到密集矩阵中，然后调用to_sparse，但是这需要很长时间，并且对文本字段进行处理时会发生错误，尽管大...

pythonpandasnumpyscipydask

33得票2回答

在当前进程完成引导阶段之前，尝试启动新进程。

我是dask的新手，我发现有一个模块可以轻松实现并行化很棒。我正在一个项目中工作，在这个项目中，我能够在单台机器上并行化循环，如你可以在这里看到。但是，我想转移到dask.distributed。我对上面的类应用了以下更改：diff --git a/mlchem/fingerprints/ga...

pythondaskdask-distributed