Pandas数据框样本的补集

Question

Pandas数据框样本的补集

6

import pandas as pd

df = pd.read_csv("train.csv")

sample = df.sample(10)

sample.to_csv("train_subset.csv")

我希望从给定的csv文件（train.csv）中随机抽取10行，并将其存储为新的csv文件train_subset.csv。上面的代码实现了这一点。现在我还想将所有未被抽样的行存储到一个名为train_remaining.csv的文件中。

我该如何实现？如何找到哪些行已经被抽样？

- cherrycoke2000

请查看SciKit Learn train_test_split。 - Scott Boston

2个回答

1

我建议使用sklearn的train_test_split。

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

这将允许您获取随机选择的行的百分比。

- Greg

你能否详细地展示一下如何使用这个？我被文档搞糊涂了。@Greg - cherrycoke2000

导入 pandas 作为 pd 从 sklearn.model_selection 导入 train_test_splitdf = pd.read_csv("train.csv")X = df['features_used_to_predict'] y = df['thing_being_predicted']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)如果需要，您可以将测试信息连接起来以获得数据子集。 - Greg

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Marcelo · Accepted Answer

您可以使用 df.index.difference(sample.index)，其中 sample.index 是所选样本的索引。

然后使用它来选择补充数据框： complementary = df.iloc[df.index.difference(sample.index)]