从`dask.DataFrame`中切出几行

Question

从`dask.DataFrame`中切出几行

dask

5

通常，在处理大型 dask.DataFrame 时，仅抓取一些行以测试所有后续操作将非常有用。

目前，根据 Slicing a Dask Dataframe，此功能不受支持。

我希望使用 head 来实现相同的功能（因为该命令受支持），但它返回一个常规的 pandas DataFrame。

我还尝试了 df[:1000]，它可以执行，但生成的输出与 Pandas 的预期输出不同。

是否有办法从 dask.DataFrame 中获取前 1000 行？

- Stefan van der Walt

2个回答

3

您可以将初始DataFrame重新分区为任意数量的分区。如果您想要每个分区包含1000行：

npart = round(len(df)/1000)
parted_df = df.repartition(npartitions=npart)

然后只需调用您想要的分区即可：

first_1000_rows = parted_df.partitions[0]

请注意，除非您的初始数据框中的行数是1000的倍数，否则您将无法获得恰好 1000 行。

- Skippy le Grand Gourou

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MRocklin · Accepted Answer

如果您的数据帧具有合理分区的索引，那么我建议使用.loc。

small = big.loc['2000':'2005']

如果您想保持相同数量的分区，可以考虑进行抽样。

small = big.sample(frac=0.01)

如果您只需要一个分区，可以尝试使用get_partition。

small = big.get_partition(0)

你也可以随时使用to_delayed和from_delayed来构建自己的定制解决方案。http://dask.pydata.org/en/latest/dataframe-create.html#dask-delayed 更一般地说，Dask.dataframe不会保留每个分区的行数，因此“给我1000行”的具体问题变得非常难以回答。回答“给我1月份的所有数据”或“给我第一个分区”的问题要容易得多。